Wrapper mit Hadoop in Python

Ich möchte Hadoop maschinelles Lernen mit Python machen

Sie können also andere Hadoop-Jobs als Java schreiben Ich habe mit Hadoop unter Python Mokumokukai und New Year einen Wrapper namens SkipJack erstellt, der Python für maschinelles Lernen implementieren kann.

GitHub ist unten. (Kein Pip) GitHub-SkipJack

Details unten

  1. HadoopStreaming
  2. Scikit-learn
  3. SkipJack

HadoopStreaming

In Hadoop

Es gibt zwei Ausführungsmethoden: Hadoop kann in allen Sprachen verwendet werden, die die Standardeingabe / -ausgabe verarbeiten können. (Hadoop Streaming)

Sie müssen Mahout also nicht verwenden, nur weil Sie mit Hadoop maschinelles Lernen durchführen. Sie können es in Ihrer Lieblingsbibliothek mit Python implementieren, das stark im maschinellen Lernen ist.

Informationen zum allgemeinen Ablauf der Vorbereitung von Hadoop finden Sie unter Einführung von Hadoop und MapReduce durch Python.

Scikit-learn

Die wichtigste in Python implementierte Bibliothek für maschinelles Lernen. Um dies nutzen zu können, müssen auch Numpy und Scipy installiert werden. Da die Installation mit pip allein jedoch nicht einfach ist, Ich habe die 3 Serien von Anaconda heruntergeladen, die von Anfang an eine Reihe von Bibliotheken enthalten, und sie auf allen Slaves installiert.

SkipJack

In Hadoop Streaming musste der Ausführungsbefehl von hadoop von Hand eingegeben werden, was problematisch war. Durch Ausführen von Python

** Entscheiden Sie, welcher Job ausgeführt werden soll → Hadoop ausführen → Ergebnis auswerten → Entscheiden Sie, welcher Job als nächstes ausgeführt werden soll → Schleife bis zum Stopp **

Ich habe einen Wrapper gemacht, der das kann. Wenn Sie Mapper-, Reduzierungs- und Ergebnisbewertungsmethoden implementieren, müssen Sie keine Routinearbeit schreiben.

Der Inhalt ist Es ist so einfach wie das Ausführen der Hadoop-Befehle (Ausführen, Datei ablegen, Ergebnis lesen (Katze)).

In der Stichprobe

--WordCount + Alpha

Wir haben zwei vorbereitet.

Recommended Posts

Wrapper mit Hadoop in Python
Method_missing-ähnlicher Wrapper in Python
Quadtree in Python --2
Python in der Optimierung
CURL in Python
Metaprogrammierung mit Python
Python 3.3 mit Anaconda
Geokodierung in Python
SendKeys in Python
Metaanalyse in Python
Unittest in Python
Epoche in Python
Zwietracht in Python
Deutsch in Python
DCI in Python
Quicksort in Python
N-Gramm in Python
Programmieren mit Python
Plink in Python
Konstante in Python
Grundlagen zum Ausführen von NoxPlayer in Python
FizzBuzz in Python
SQLite in Python
Schritt AIC in Python
LINE-Bot [0] in Python
CSV in Python
Reverse Assembler mit Python
Reflexion in Python
nCr in Python.
Format in Python
Scons in Python 3
Puyopuyo in Python
Python in Virtualenv
Quad-Tree in Python
Reflexion in Python
Chemie mit Python
Hashbar in Python
DirectLiNGAM in Python
LiNGAM in Python
In Python reduzieren
In Python flach drücken
Holen Sie sich die Datei, Funktion, Zeilennummer in Python ausgeführt
Sortierte Liste in Python
Täglicher AtCoder # 36 mit Python
Clustertext in Python
AtCoder # 2 jeden Tag mit Python
Täglicher AtCoder # 32 in Python
Täglicher AtCoder # 6 in Python
Python-Syslog-Wrapper-Klasse
Täglicher AtCoder # 18 in Python
Bearbeiten Sie Schriftarten in Python
Singleton-Muster in Python
Dateioperationen in Python
Lesen Sie DXF mit Python
Täglicher AtCoder # 53 in Python
Tastenanschlag in Python
Verwenden Sie config.ini mit Python
Täglicher AtCoder # 33 in Python
Löse ABC168D in Python