In diesem Blog werden wir uns ** Apache ** Flink 1.9.0 genauer ansehen, einschließlich der neuen Benutzeroberfläche für maschinelles Lernen und des Flink - ** Python ** -Moduls.

Dieser Blog ist eine Übersetzung aus der englischen Version. Sie können das Original von [hier] überprüfen (https://www.alibabacloud.com/blog/why-apache-flink-1-9-0-support-for-python-api-is-a-game-changer_595677) Ich werde. Einige maschinelle Übersetzungen werden verwendet. Wir würden uns freuen, wenn Sie auf Übersetzungsfehler hinweisen könnten. * *

Beliebteste Programmiersprache

Das Bild unten zeigt das Ranking der RedMonk-Programmiersprache.

Die Top 10 im obigen Bild basieren auf der Beliebtheit von GitHub und Stack Overflow.

JavaScript
Java
Python
PHP
C++
C#
CSS
Ruby
C
TypeScript

Python steht an dritter Stelle. Andere beliebte Programmiersprachen, R und Go, belegen den 15. bzw. 16. Platz. Diese prestigeträchtige Rangliste ist ein gutes Zeugnis für Pythons große Fangemeinde. Das Einbeziehen von Python-Unterstützung in ein Projekt ist ein effektiver Weg, um das Publikum des Projekts zu vergrößern.

Trendbereiche der Internetbranche

Big Data Computing ist heute einer der heißesten Bereiche in der Internetbranche. Die Ära des Standalone-Computing ist vorbei. Die eigenständige Verarbeitungsleistung bleibt weit hinter dem Datenwachstum zurück. Mal sehen, warum Big Data Computing einer der wichtigsten Bereiche in der Internetbranche ist.

Zunehmende Datenmenge im Big-Data-Zeitalter

Aufgrund der rasanten Entwicklung von IT wie Cloud Computing, IoT und künstlicher Intelligenz nimmt die Datenmenge erheblich zu. Das folgende Bild zeigt, dass die weltweite Datenmenge in nur 10 Jahren voraussichtlich von 16,1 ZB auf 163 ZB ansteigen wird. Dies ist ein deutlicher Anstieg, den ein eigenständiger Server nicht mehr für die Anforderungen an die Speicherung und Verarbeitung von Daten leisten kann. Ich bin.

Sei ZB die Daten in der vorherigen Abbildung. Hier möchte ich kurz auf die statistischen Dateneinheiten in aufsteigender Reihenfolge eingehen. Bit, Byte, KB, MB, GB, TB, PB, EB, ZB, YB, BB, NB, DB. Diese Einheiten werden wie folgt umgerechnet:

1 Byte =8 bit
1 KB = 1,024 Bytes
1 MB = 1,024 KB
1 GB = 1,024 MB
1 TB = 1,024 GB
1 PB = 1,024 TB
1 EB = 1,024 PB
1 ZB = 1,024 EB
1 YB = 1,024 ZB
1 BB＝1,024 YB
1NB = 1,024 BB
1 DB = 1,024 NB

Es ist natürlich, die Größe globaler Daten in Frage zu stellen und die Ursachen zu untersuchen. Tatsächlich war ich skeptisch, als ich die Statistiken sah. Als ich Informationen sammelte und nachschlug, stellte ich fest, dass die globalen Daten mit Sicherheit schnell zunahmen. Beispielsweise werden täglich Millionen von Fotos auf Facebook veröffentlicht, und an der New Yorker Börse werden täglich TB Transaktionsdaten erstellt. Beim letztjährigen Double 11 Promo Event erreichte der Transaktionswert einen Rekordwert von 213,5 Milliarden Yuan. Hinter diesem Erfolg stehen jedoch allein die internen Überwachungsprotokolle von Alibaba mit einer Datenverarbeitungskapazität von 162 GB / s. Internetunternehmen wie Alibaba tragen ebenfalls zum schnellen Datenwachstum bei, wie der doppelte Transaktionswert von 11 im letzten Jahrzehnt zeigt.

Wert der Daten durch Datenanalyse

Zweifellos kann die statistische Analyse von Big Data Ihnen helfen, fundierte Entscheidungen zu treffen, um den Wert von Big Data zu untersuchen. Beispielsweise kann ein Empfehlungssystem die langfristigen Kaufgewohnheiten und die Kaufhistorie eines Käufers analysieren, um herauszufinden, was dem Käufer gefällt, und um bessere Empfehlungen abzugeben. Wie bereits erwähnt, kann ein eigenständiger Server nicht mit einer so großen Datenmenge umgehen. Wie können also alle Daten innerhalb eines begrenzten Zeitraums statistisch analysiert werden? In diesem Zusammenhang müssen wir uns bei Google für die Bereitstellung dieser drei nützlichen Dokumente bedanken.

** GFS **: Im Jahr 2003 veröffentlichte Google einen Artikel über das Google-Dateisystem, ein skalierbares verteiltes Dateisystem für große verteilte datenintensive Anwendungen.
** MapReduce **: Im Jahr 2004 veröffentlichte Google ein MapReduce-Papier zum verteilten Rechnen für Big Data. Die Hauptidee von MapReduce besteht darin, eine Aufgabe zu teilen und die geteilten Aufgaben gleichzeitig auf mehreren Rechenknoten zu verarbeiten, die unabhängig voneinander keine sehr hohe Datenverarbeitungskapazität haben. MapReduce ist ein Programmiermodell zum Verarbeiten und Generieren großer Datenmengen mit parallelen Verteilungsalgorithmen auf Clustern.

** BigTable **: Im Jahr 2006 veröffentlichte Google einen Artikel über BigTable. Dank dieser drei Google-Artikel hat die Open-Source-Apache-Community schnell drei Hadoop-Ökosysteme aufgebaut: HDFS, MapReduce (Programmiermodell) und HBase (NoSQL-Datenbank). Das Hadoop-Ökosystem hat die Aufmerksamkeit der Wissenschaft und Industrie der Welt auf sich gezogen, schnell an Popularität gewonnen und ist weltweit weit verbreitet. Im Jahr 2008 startete Alibaba das auf Hadoop basierende YARN-Projekt. Damit ist Hadoop das Kerntechnologiesystem für verteiltes Computing in Alibaba. Das Projekt hatte einen Cluster von 1000 Maschinen, die 2010 ausgeführt wurden. Das Foto unten zeigt den Entwicklungsstatus des Hadoop-Clusters in Alibaba.

Um MapReduce-Anwendungen mit Hadoop zu entwickeln, müssen Entwickler jedoch mit der Java-Sprache vertraut sein und ein gutes Verständnis für die Funktionsweise von MapReduce haben. Dies legt die Messlatte für die MapReduce-Entwicklung höher. Um die Entwicklung von MapReduce zu erleichtern, wurden in der Open Source-Community mehrere Open Source-Frameworks erstellt, darunter das führende Hive-Projekt. Mit HSQL können Sie MapReduce-Berechnungen auf SQL-ähnliche Weise definieren und schreiben. Beispielsweise können Word Count-Vorgänge, für die früher Dutzende oder Hunderte von Codezeilen erforderlich waren, jetzt mit einer einzigen SQL-Anweisung implementiert werden, wodurch der Schwellenwert für die Verwendung von MapReduce für die Entwicklung erheblich gesenkt wird. Mit zunehmender Reife des Hadoop-Ökosystems wird Hadoop-basiertes verteiltes Computing für Big Data in der gesamten Branche verbreitet sein.

Maximalwert und Aktualität der Daten

Jeder Dateneintrag enthält spezifische Informationen. Die Aktualität von Informationen wird anhand des Zeitintervalls und der Informationseffizienz vom Zeitpunkt des Sendens der Informationen von der Quelle bis zum Zeitpunkt des Empfangs, der Verarbeitung, der Übertragung und der Verwendung der Informationen gemessen. Je kürzer das Zeitintervall ist, desto aktueller sind die Informationen und im Allgemeinen sind sie umso wertvoller, je aktueller sie sind. Wenn beispielsweise in einem Präferenzempfehlungsszenario ein Käufer einige Sekunden nach dem Kauf des Dampfers ein Schnäppchen für einen Ofen empfiehlt, kauft der Käufer wahrscheinlich auch den Ofen und analysiert das Kaufverhalten des Dampfers. Wenn Sie nach einem Tag eine Ofenempfehlung sehen, ist es unwahrscheinlich, dass der Käufer einen Ofen kauft. Dies zeigt einen der Nachteile der Chargenberechnung von Hadoop, nämlich die geringe Aktualität. Mehrere führende Echtzeit-Computerplattformen wurden entwickelt, um die Anforderungen des Big-Data-Zeitalters zu erfüllen. 2009 wurde Spark im AMP Lab der University of California in Berkeley geboren. 2010 schlug Nathan BackType vor, das Kernkonzept von Storm, und startete 2010 Flink als Forschungsprojekt in Berlin.

AlphaGo und AI

Im Go-Spiel 2016 besiegte Googles AlphaGo Lee Seddle (4: 1), den neunten Go-Spieler und Gewinner der Go-Weltmeisterschaft. Infolgedessen haben mehr Menschen tiefes Lernen aus einer neuen Perspektive gesehen, was die KI-Epidemie provoziert. Nach der Definition in der Hyakudo-Enzyklopädie ist Künstliche Intelligenz (KI) ein neuer Zweig der Informatik, der Theorien, Methoden, Techniken, Anwendungen und Systeme erforscht und entwickelt, die die menschliche Intelligenz stimulieren, erweitern und erweitern. ..

Maschinelles Lernen ist eine Technik und ein Werkzeug zur Erforschung der künstlichen Intelligenz. Maschinelles Lernen hat für Big-Data-Plattformen wie Spark und Flink eine hohe Priorität, und Spark hat in den letzten Jahren enorme Investitionen in maschinelles Lernen getätigt. PySpark integriert viele großartige ML-Klassenbibliotheken (z. B. Pandas) und bietet eine viel umfassendere Unterstützung als Flink. Infolgedessen ermöglicht Flink 1.9 die Entwicklung neuer ML-Schnittstellen und Flink-Python-Module, um seine Mängel auszugleichen.

Welche Beziehung besteht zwischen maschinellem Lernen und Python? Schauen wir uns auch die statistischen Daten zur beliebtesten Sprache des maschinellen Lernens an.

Jean-Francois Puget, IBMs Datenwissenschaftler, hat einmal eine interessante Analyse durchgeführt. Er sammelte Informationen über sich ändernde Rekrutierungsanforderungen auf bekannten Baustellen und suchte nach der beliebtesten Programmiersprache der Zeit. Auf der Suche nach maschinellem Lernen kam er zu einem ähnlichen Ergebnis.

Zu dieser Zeit stellte sich heraus, dass Python die beliebteste Programmiersprache für maschinelles Lernen war. Diese 2016 durchgeführte Studie reicht aus, um zu beweisen, dass Python eine wichtige Rolle beim maschinellen Lernen spielt, was durch die oben genannten RedMonk-Statistiken weiter belegt werden kann. Ich kann es schaffen

Nicht nur die Forschung, sondern auch die Eigenschaften von Python und des vorhandenen Python-Ökosystems zeigen, warum Python die beste Sprache für maschinelles Lernen ist.

Python ist eine interpretative, objektorientierte Programmiersprache, die 1989 vom niederländischen Programmierer Guido van Rossum entwickelt und 1991 erstmals veröffentlicht wurde. Interpretierte Sprachen sind sehr langsam, aber Pythons Designphilosophie ist "der einzige Weg". Bei der Entwicklung einer neuen Python-Syntax und mit vielen Auswahlmöglichkeiten wählen Python-Entwickler normalerweise eine klare Syntax mit wenig oder keiner Mehrdeutigkeit. Aufgrund seiner Einfachheit hat Python viele Benutzer. Darüber hinaus wurden in Python viele Klassenbibliotheken für maschinelles Lernen entwickelt, z. B. NumPy, SciPy und Pandas (zur Verarbeitung strukturierter Daten). Es überrascht nicht, dass Python zur beliebtesten Programmiersprache für maschinelles Lernen geworden ist, da das reichhaltige Ökosystem von Python großen Komfort für maschinelles Lernen bietet.

Überblick

In diesem Artikel habe ich versucht zu verstehen, warum Apache Flink die Python-API unterstützt. Wenn wir uns bestimmte Statistiken ansehen, können wir sehen, dass wir in die Ära der Big Data eintreten. Eine Big-Data-Analyse ist erforderlich, um den Wert von Daten zu untersuchen. Durch die Aktualität der Daten entstand die bekannte Stream-Computing-Plattform Apache Flink.

Im Zeitalter des Big Data Computing ist KI ein heißer Entwicklungstrend, und maschinelles Lernen ist einer der Schlüsselaspekte der KI. Aufgrund der Eigenschaften der Python-Sprache und der Vorteile des Ökosystems ist Python die beste Sprache für maschinelles Lernen. Dies ist einer der Hauptgründe, warum Apache Flink die Python-API unterstützen möchte. Die Unterstützung von Apache Flink für die Python-API ist ein unvermeidbarer Trend, um die Anforderungen des Big-Data-Zeitalters zu erfüllen.

Alibaba Cloud ist der Cloud-Infrastrukturbetreiber Nr. 1 (2019 Gartner) im asiatisch-pazifischen Raum mit zwei Rechenzentren in Japan und mehr als 60 Verfügbarkeitszonen weltweit. Klicken Sie hier, um weitere Informationen zu Alibaba Cloud zu erhalten. Offizielle Seite von Alibaba Cloud Japan *

"Apache Flink" neue maschinelle Lernoberfläche und Flink-Python-Modul