Als ich mich für die Datenvorverarbeitung interessierte und nach Materialien suchte, startete [Recruit Institute of Artificial Intelligence "Big Gorilla", ein Open-Source-Ökosystem für Datenintegration und -aufbereitung | Recruit Holdings - Recruit Holdings](http: // www) Ich habe eine Pressemitteilung mit dem Namen .recruit.jp / news_data / release / 2017 / 0630_17541.html gefunden.
Auf den ersten Blick war ich mir nicht sicher, was es war, also sah ich den Umriss nach.
BigGorilla - Data Integration & Preparation in Python
Aus der Benennung und der Abbildung auf der offiziellen Website ging hervor, dass es sich um einen riesigen Rahmen handelte. Es ist sozusagen eine Auswahl an Bibliotheken. (Es scheint, dass es die Klasse, die BigGorilla eigen ist, nicht erben wird.)
Um die Vorverarbeitung tatsächlich durchführen zu können, müssen Sie normal mit Python programmieren.
Empfehlung zum Erstellen einer tragbaren Python-Umgebung mit conda --Qiita
$setzen Sie Anakonda
$ conda env create biggorilla/py3gorilla
#Wenn Sie pyenv verwenden, müssen Sie den Befehl conda enable mit dem vollständigen Pfad angeben. Wenn die Quelle Py3 Gorilla aktiviert, fällt die Muschel.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/Py3Gorilla/bin/activate Py3Gorilla
Referenz: Los geht's | BigGorilla
~~ Nachtrag: Als ich es am 12.07.2017 ausprobiert habe, ist der folgende Fehler bei dieser Methode nicht aufgetreten. (Vielleicht ist der im Juni aktualisierte Dateiname falsch, ich habe das Gefühl, dass das ältere yml angewendet wird. Wahrscheinlich wird es von nun an durch das Update behoben) ~~
21.07.2017 Nachtrag: Die Datei wurde aktualisiert. Dies sollte wie dokumentiert funktionieren.
$ conda env create biggorilla/py3gorilla
Collecting urllib==1.21.1
Downloading urllib-1.21.1.tar.gz (226kB)
100% |████████████████████████████████| 235kB 640kB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "/private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/setup.py", line 191
s.connect((base64.b64decode(rip), 017620))
^
SyntaxError: invalid token
----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/
CondaValueError: Value error: pip returned an error.
Sie können es installieren, indem Sie yml von Files :: Anaconda Cloud herunterladen und die Zeile löschen, in der urllib angegeben ist.
###Löschen Sie die Umgebung einmal
$ conda env remove -n Py3Gorilla
#Erstellen Sie die Umgebung neu, indem Sie die lokal geänderte yml-Datei angeben
$ conda env create --name test --file ~/Downloads/Py3Gorilla.yml
#Wenn Sie pyenv verwenden, müssen Sie den Befehl conda enable mit dem vollständigen Pfad angeben. Wenn die Quelle Py3 Gorilla aktiviert, fällt die Muschel.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/test/bin/activate test
#Legen Sie das Notebook zur Funktionsprüfung ab und starten Sie es
$ anaconda download biggorilla/hi_gorilla
$ jupyter notebook hi_gorilla.ipynb
In Files :: Anaconda Cloud wurde eine Liste von Paketen installiert. Obwohl es in der Komponentenliste auf der offiziellen Website aufgeführt ist, stellt sich heraus, dass nur ein kleiner Teil installiert ist. Verglichen mit der Erklärung auf der Website ist die Zusammensetzung überraschend gering. Wenn es nicht enthalten ist, installieren Sie es selbst.
--urllib http access Standardbibliothek --https Zugriff auf Bibliothek umfangreicher als Anfragen urllib
--beautifulsoup4 Laden und Analysieren von Webseiten --lxml xml Parser --nltk Verarbeitung natürlicher Sprache (morphologische Analyse usw.)
--FlexMatcher (hergestellt vom Recruit Institute)
--xlrd Excel-Operation
――Ist es nicht enthalten, nur weil es kommerzielle Tools hat?
――Ist dies nicht enthalten?
Vielleicht ist es eine Abhängigkeit, Scikit-Learn und Jupyter-Notebook sind enthalten.
Gemäß der Pressemitteilung werden die folgenden drei Bibliotheken unabhängig voneinander implementiert.
Derzeit ist RIT in Paketen mit den Namen KOKO und FlexMatcher verfügbar.)Und d)Wird entwickelt und das Team von Professor Doan hat ein Paket namens Magellan.)Entwickelt sich.
FlexMatcher --Schema Matching Library von Recruit Laboratory ――Selbst der Name des Datenelements zwischen den beiden Daten unterschiedlich ist, wird die Korrespondenz automatisch gefunden.
Magellan --Daten-Matching-Bibliothek, entwickelt von der Wisconsin University ――Können Sie Daten mit Notationsschwankungen kombinieren oder so etwas wie eine Adressidentifikation durchführen?
KOKO
--Conda env und versuchen, die Umgebung tatsächlich aufzubauen
Recommended Posts