"Apache Flink" neue maschinelle Lernoberfläche und Flink-Python-Modul

In diesem Blog werden wir uns ** Apache ** Flink 1.9.0 genauer ansehen, einschließlich der neuen Benutzeroberfläche für maschinelles Lernen und des Flink - ** Python ** -Moduls.

Beliebteste Programmiersprache

Das Bild unten zeigt das Ranking der RedMonk-Programmiersprache.

image.png

Die Top 10 im obigen Bild basieren auf der Beliebtheit von GitHub und Stack Overflow.

Python steht an dritter Stelle. Andere beliebte Programmiersprachen, R und Go, belegen den 15. bzw. 16. Platz. Diese prestigeträchtige Rangliste ist ein gutes Zeugnis für Pythons große Fangemeinde. Das Einbeziehen von Python-Unterstützung in ein Projekt ist ein effektiver Weg, um das Publikum des Projekts zu vergrößern.

Trendbereiche der Internetbranche

Big Data Computing ist heute einer der heißesten Bereiche in der Internetbranche. Die Ära des Standalone-Computing ist vorbei. Die eigenständige Verarbeitungsleistung bleibt weit hinter dem Datenwachstum zurück. Mal sehen, warum Big Data Computing einer der wichtigsten Bereiche in der Internetbranche ist.

Zunehmende Datenmenge im Big-Data-Zeitalter

Aufgrund der rasanten Entwicklung von IT wie Cloud Computing, IoT und künstlicher Intelligenz nimmt die Datenmenge erheblich zu. Das folgende Bild zeigt, dass die weltweite Datenmenge in nur 10 Jahren voraussichtlich von 16,1 ZB auf 163 ZB ansteigen wird. Dies ist ein deutlicher Anstieg, den ein eigenständiger Server nicht mehr für die Anforderungen an die Speicherung und Verarbeitung von Daten leisten kann. Ich bin.

image.png

Sei ZB die Daten in der vorherigen Abbildung. Hier möchte ich kurz auf die statistischen Dateneinheiten in aufsteigender Reihenfolge eingehen. Bit, Byte, KB, MB, GB, TB, PB, EB, ZB, YB, BB, NB, DB. Diese Einheiten werden wie folgt umgerechnet:

Es ist natürlich, die Größe globaler Daten in Frage zu stellen und die Ursachen zu untersuchen. Tatsächlich war ich skeptisch, als ich die Statistiken sah. Als ich Informationen sammelte und nachschlug, stellte ich fest, dass die globalen Daten mit Sicherheit schnell zunahmen. Beispielsweise werden täglich Millionen von Fotos auf Facebook veröffentlicht, und an der New Yorker Börse werden täglich TB Transaktionsdaten erstellt. Beim letztjährigen Double 11 Promo Event erreichte der Transaktionswert einen Rekordwert von 213,5 Milliarden Yuan. Hinter diesem Erfolg stehen jedoch allein die internen Überwachungsprotokolle von Alibaba mit einer Datenverarbeitungskapazität von 162 GB / s. Internetunternehmen wie Alibaba tragen ebenfalls zum schnellen Datenwachstum bei, wie der doppelte Transaktionswert von 11 im letzten Jahrzehnt zeigt.

image.png

Wert der Daten durch Datenanalyse

Zweifellos kann die statistische Analyse von Big Data Ihnen helfen, fundierte Entscheidungen zu treffen, um den Wert von Big Data zu untersuchen. Beispielsweise kann ein Empfehlungssystem die langfristigen Kaufgewohnheiten und die Kaufhistorie eines Käufers analysieren, um herauszufinden, was dem Käufer gefällt, und um bessere Empfehlungen abzugeben. Wie bereits erwähnt, kann ein eigenständiger Server nicht mit einer so großen Datenmenge umgehen. Wie können also alle Daten innerhalb eines begrenzten Zeitraums statistisch analysiert werden? In diesem Zusammenhang müssen wir uns bei Google für die Bereitstellung dieser drei nützlichen Dokumente bedanken.

image.png

image.png

Um MapReduce-Anwendungen mit Hadoop zu entwickeln, müssen Entwickler jedoch mit der Java-Sprache vertraut sein und ein gutes Verständnis für die Funktionsweise von MapReduce haben. Dies legt die Messlatte für die MapReduce-Entwicklung höher. Um die Entwicklung von MapReduce zu erleichtern, wurden in der Open Source-Community mehrere Open Source-Frameworks erstellt, darunter das führende Hive-Projekt. Mit HSQL können Sie MapReduce-Berechnungen auf SQL-ähnliche Weise definieren und schreiben. Beispielsweise können Word Count-Vorgänge, für die früher Dutzende oder Hunderte von Codezeilen erforderlich waren, jetzt mit einer einzigen SQL-Anweisung implementiert werden, wodurch der Schwellenwert für die Verwendung von MapReduce für die Entwicklung erheblich gesenkt wird. Mit zunehmender Reife des Hadoop-Ökosystems wird Hadoop-basiertes verteiltes Computing für Big Data in der gesamten Branche verbreitet sein.

Maximalwert und Aktualität der Daten

Jeder Dateneintrag enthält spezifische Informationen. Die Aktualität von Informationen wird anhand des Zeitintervalls und der Informationseffizienz vom Zeitpunkt des Sendens der Informationen von der Quelle bis zum Zeitpunkt des Empfangs, der Verarbeitung, der Übertragung und der Verwendung der Informationen gemessen. Je kürzer das Zeitintervall ist, desto aktueller sind die Informationen und im Allgemeinen sind sie umso wertvoller, je aktueller sie sind. Wenn beispielsweise in einem Präferenzempfehlungsszenario ein Käufer einige Sekunden nach dem Kauf des Dampfers ein Schnäppchen für einen Ofen empfiehlt, kauft der Käufer wahrscheinlich auch den Ofen und analysiert das Kaufverhalten des Dampfers. Wenn Sie nach einem Tag eine Ofenempfehlung sehen, ist es unwahrscheinlich, dass der Käufer einen Ofen kauft. Dies zeigt einen der Nachteile der Chargenberechnung von Hadoop, nämlich die geringe Aktualität. Mehrere führende Echtzeit-Computerplattformen wurden entwickelt, um die Anforderungen des Big-Data-Zeitalters zu erfüllen. 2009 wurde Spark im AMP Lab der University of California in Berkeley geboren. 2010 schlug Nathan BackType vor, das Kernkonzept von Storm, und startete 2010 Flink als Forschungsprojekt in Berlin.

AlphaGo und AI

Im Go-Spiel 2016 besiegte Googles AlphaGo Lee Seddle (4: 1), den neunten Go-Spieler und Gewinner der Go-Weltmeisterschaft. Infolgedessen haben mehr Menschen tiefes Lernen aus einer neuen Perspektive gesehen, was die KI-Epidemie provoziert. Nach der Definition in der Hyakudo-Enzyklopädie ist Künstliche Intelligenz (KI) ein neuer Zweig der Informatik, der Theorien, Methoden, Techniken, Anwendungen und Systeme erforscht und entwickelt, die die menschliche Intelligenz stimulieren, erweitern und erweitern. ..

Maschinelles Lernen ist eine Technik und ein Werkzeug zur Erforschung der künstlichen Intelligenz. Maschinelles Lernen hat für Big-Data-Plattformen wie Spark und Flink eine hohe Priorität, und Spark hat in den letzten Jahren enorme Investitionen in maschinelles Lernen getätigt. PySpark integriert viele großartige ML-Klassenbibliotheken (z. B. Pandas) und bietet eine viel umfassendere Unterstützung als Flink. Infolgedessen ermöglicht Flink 1.9 die Entwicklung neuer ML-Schnittstellen und Flink-Python-Module, um seine Mängel auszugleichen.

Welche Beziehung besteht zwischen maschinellem Lernen und Python? Schauen wir uns auch die statistischen Daten zur beliebtesten Sprache des maschinellen Lernens an.

Jean-Francois Puget, IBMs Datenwissenschaftler, hat einmal eine interessante Analyse durchgeführt. Er sammelte Informationen über sich ändernde Rekrutierungsanforderungen auf bekannten Baustellen und suchte nach der beliebtesten Programmiersprache der Zeit. Auf der Suche nach maschinellem Lernen kam er zu einem ähnlichen Ergebnis.

image.png

Zu dieser Zeit stellte sich heraus, dass Python die beliebteste Programmiersprache für maschinelles Lernen war. Diese 2016 durchgeführte Studie reicht aus, um zu beweisen, dass Python eine wichtige Rolle beim maschinellen Lernen spielt, was durch die oben genannten RedMonk-Statistiken weiter belegt werden kann. Ich kann es schaffen

Nicht nur die Forschung, sondern auch die Eigenschaften von Python und des vorhandenen Python-Ökosystems zeigen, warum Python die beste Sprache für maschinelles Lernen ist.

Python ist eine interpretative, objektorientierte Programmiersprache, die 1989 vom niederländischen Programmierer Guido van Rossum entwickelt und 1991 erstmals veröffentlicht wurde. Interpretierte Sprachen sind sehr langsam, aber Pythons Designphilosophie ist "der einzige Weg". Bei der Entwicklung einer neuen Python-Syntax und mit vielen Auswahlmöglichkeiten wählen Python-Entwickler normalerweise eine klare Syntax mit wenig oder keiner Mehrdeutigkeit. Aufgrund seiner Einfachheit hat Python viele Benutzer. Darüber hinaus wurden in Python viele Klassenbibliotheken für maschinelles Lernen entwickelt, z. B. NumPy, SciPy und Pandas (zur Verarbeitung strukturierter Daten). Es überrascht nicht, dass Python zur beliebtesten Programmiersprache für maschinelles Lernen geworden ist, da das reichhaltige Ökosystem von Python großen Komfort für maschinelles Lernen bietet.

Überblick

In diesem Artikel habe ich versucht zu verstehen, warum Apache Flink die Python-API unterstützt. Wenn wir uns bestimmte Statistiken ansehen, können wir sehen, dass wir in die Ära der Big Data eintreten. Eine Big-Data-Analyse ist erforderlich, um den Wert von Daten zu untersuchen. Durch die Aktualität der Daten entstand die bekannte Stream-Computing-Plattform Apache Flink.

Im Zeitalter des Big Data Computing ist KI ein heißer Entwicklungstrend, und maschinelles Lernen ist einer der Schlüsselaspekte der KI. Aufgrund der Eigenschaften der Python-Sprache und der Vorteile des Ökosystems ist Python die beste Sprache für maschinelles Lernen. Dies ist einer der Hauptgründe, warum Apache Flink die Python-API unterstützen möchte. Die Unterstützung von Apache Flink für die Python-API ist ein unvermeidbarer Trend, um die Anforderungen des Big-Data-Zeitalters zu erfüllen.

Recommended Posts

"Apache Flink" neue maschinelle Lernoberfläche und Flink-Python-Modul
Herausforderungen und Chancen von Apache Flink
Maschinelles Lernen und mathematische Optimierung
Bedeutung des maschinellen Lernens und des Mini-Batch-Lernens
Klassifikation und Regression beim maschinellen Lernen
Organisation von Plattformen für maschinelles Lernen und tiefes Lernen
[Maschinelles Lernen] OOB (Out-Of-Bag) und sein Verhältnis
Persönliche Notizen und Links zum maschinellen Lernen ① (Maschinelles Lernen)
Zusammenfassung der Klassifizierung und Implementierung von Algorithmen für maschinelles Lernen
Erstellen einer Umgebung für Python und maschinelles Lernen (macOS)
"OpenCV-Python Tutorials" und "Praktisches maschinelles Lernsystem"
Maschinelles Lernen
Studieren Sie maschinelles Lernen und Informatik. Ressourcenliste
Numerai Turnier-Fusion von traditionellen Quants und maschinellem Lernen-
Maschinelles Lernen Aufteilung der Trainingsdaten und Lernen / Vorhersage / Verifizierung