Sie können also andere Hadoop-Jobs als Java schreiben Ich habe mit Hadoop unter Python Mokumokukai und New Year einen Wrapper namens SkipJack erstellt, der Python für maschinelles Lernen implementieren kann.
GitHub ist unten. (Kein Pip) GitHub-SkipJack
Details unten
HadoopStreaming
In Hadoop
Es gibt zwei Ausführungsmethoden: Hadoop kann in allen Sprachen verwendet werden, die die Standardeingabe / -ausgabe verarbeiten können. (Hadoop Streaming)
Sie müssen Mahout also nicht verwenden, nur weil Sie mit Hadoop maschinelles Lernen durchführen. Sie können es in Ihrer Lieblingsbibliothek mit Python implementieren, das stark im maschinellen Lernen ist.
Informationen zum allgemeinen Ablauf der Vorbereitung von Hadoop finden Sie unter Einführung von Hadoop und MapReduce durch Python.
Die wichtigste in Python implementierte Bibliothek für maschinelles Lernen. Um dies nutzen zu können, müssen auch Numpy und Scipy installiert werden. Da die Installation mit pip allein jedoch nicht einfach ist, Ich habe die 3 Serien von Anaconda heruntergeladen, die von Anfang an eine Reihe von Bibliotheken enthalten, und sie auf allen Slaves installiert.
SkipJack
In Hadoop Streaming musste der Ausführungsbefehl von hadoop von Hand eingegeben werden, was problematisch war. Durch Ausführen von Python
** Entscheiden Sie, welcher Job ausgeführt werden soll → Hadoop ausführen → Ergebnis auswerten → Entscheiden Sie, welcher Job als nächstes ausgeführt werden soll → Schleife bis zum Stopp **
Ich habe einen Wrapper gemacht, der das kann. Wenn Sie Mapper-, Reduzierungs- und Ergebnisbewertungsmethoden implementieren, müssen Sie keine Routinearbeit schreiben.
Der Inhalt ist Es ist so einfach wie das Ausführen der Hadoop-Befehle (Ausführen, Datei ablegen, Ergebnis lesen (Katze)).
In der Stichprobe
--WordCount + Alpha
Wir haben zwei vorbereitet.
Recommended Posts