[PYTHON] Ich habe versucht, die Umrisse von Big Gorilla herauszufinden

Was ich getan habe

Als ich mich für die Datenvorverarbeitung interessierte und nach Materialien suchte, startete [Recruit Institute of Artificial Intelligence "Big Gorilla", ein Open-Source-Ökosystem für Datenintegration und -aufbereitung | Recruit Holdings - Recruit Holdings](http: // www) Ich habe eine Pressemitteilung mit dem Namen .recruit.jp / news_data / release / 2017 / 0630_17541.html gefunden.

Auf den ersten Blick war ich mir nicht sicher, was es war, also sah ich den Umriss nach.

Was ich fand

Was ist Big Gorilla?

BigGorilla - Data Integration & Preparation in Python

Aus der Benennung und der Abbildung auf der offiziellen Website ging hervor, dass es sich um einen riesigen Rahmen handelte. Es ist sozusagen eine Auswahl an Bibliotheken. (Es scheint, dass es die Klasse, die BigGorilla eigen ist, nicht erben wird.)

Um die Vorverarbeitung tatsächlich durchführen zu können, müssen Sie normal mit Python programmieren.

Empfehlung zum Erstellen einer tragbaren Python-Umgebung mit conda --Qiita

Wie installiert man

$setzen Sie Anakonda
$ conda env create biggorilla/py3gorilla
#Wenn Sie pyenv verwenden, müssen Sie den Befehl conda enable mit dem vollständigen Pfad angeben. Wenn die Quelle Py3 Gorilla aktiviert, fällt die Muschel.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/Py3Gorilla/bin/activate Py3Gorilla

Referenz: Los geht's | BigGorilla

~~ Nachtrag: Als ich es am 12.07.2017 ausprobiert habe, ist der folgende Fehler bei dieser Methode nicht aufgetreten. (Vielleicht ist der im Juni aktualisierte Dateiname falsch, ich habe das Gefühl, dass das ältere yml angewendet wird. Wahrscheinlich wird es von nun an durch das Update behoben) ~~

21.07.2017 Nachtrag: Die Datei wurde aktualisiert. Dies sollte wie dokumentiert funktionieren.

Arbeitsaufzeichnung der Zwangsinstallation ab 7/12

$ conda env create biggorilla/py3gorilla
Collecting urllib==1.21.1
Downloading urllib-1.21.1.tar.gz (226kB)
100% |████████████████████████████████| 235kB 640kB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "/private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/setup.py", line 191
s.connect((base64.b64decode(rip), 017620))
                                  ^
SyntaxError: invalid token
 ----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/
CondaValueError: Value error: pip returned an error.

Sie können es installieren, indem Sie yml von Files :: Anaconda Cloud herunterladen und die Zeile löschen, in der urllib angegeben ist.

###Löschen Sie die Umgebung einmal
$ conda env remove -n Py3Gorilla

#Erstellen Sie die Umgebung neu, indem Sie die lokal geänderte yml-Datei angeben
$ conda env create --name test --file ~/Downloads/Py3Gorilla.yml

#Wenn Sie pyenv verwenden, müssen Sie den Befehl conda enable mit dem vollständigen Pfad angeben. Wenn die Quelle Py3 Gorilla aktiviert, fällt die Muschel.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/test/bin/activate test

#Legen Sie das Notebook zur Funktionsprüfung ab und starten Sie es
$ anaconda download biggorilla/hi_gorilla
$ jupyter notebook hi_gorilla.ipynb

Was können Sie tun? Sehen Sie, welche Bibliotheken darin enthalten sind

In Files :: Anaconda Cloud wurde eine Liste von Paketen installiert. Obwohl es in der Komponentenliste auf der offiziellen Website aufgeführt ist, stellt sich heraus, dass nur ein kleiner Teil installiert ist. Verglichen mit der Erklärung auf der Website ist die Zusammensetzung überraschend gering. Wenn es nicht enthalten ist, installieren Sie es selbst.

Datensammlung

--urllib http access Standardbibliothek --https Zugriff auf Bibliothek umfangreicher als Anfragen urllib

Datenextraktion

--beautifulsoup4 Laden und Analysieren von Webseiten --lxml xml Parser --nltk Verarbeitung natürlicher Sprache (morphologische Analyse usw.)

Schemaabgleich & Zusammenführen

--FlexMatcher (hergestellt vom Recruit Institute)

Datenabgleich & Zusammenführen

Datenkonvertierung

--xlrd Excel-Operation

Schema-Mapping

――Ist es nicht enthalten, nur weil es kommerzielle Tools hat?

Workflow-Management

――Ist dies nicht enthalten?

Andere

Vielleicht ist es eine Abhängigkeit, Scikit-Learn und Jupyter-Notebook sind enthalten.

Informationen zu der ursprünglich implementierten Bibliothek

Gemäß der Pressemitteilung werden die folgenden drei Bibliotheken unabhängig voneinander implementiert.


Derzeit ist RIT in Paketen mit den Namen KOKO und FlexMatcher verfügbar.)Und d)Wird entwickelt und das Team von Professor Doan hat ein Paket namens Magellan.)Entwickelt sich.

FlexMatcher --Schema Matching Library von Recruit Laboratory ――Selbst der Name des Datenelements zwischen den beiden Daten unterschiedlich ist, wird die Korrespondenz automatisch gefunden.

Magellan --Daten-Matching-Bibliothek, entwickelt von der Wisconsin University ――Können Sie Daten mit Notationsschwankungen kombinieren oder so etwas wie eine Adressidentifikation durchführen?

KOKO

Was macht man als nächstes

--Conda env und versuchen, die Umgebung tatsächlich aufzubauen

Recommended Posts

Ich habe versucht, die Umrisse von Big Gorilla herauszufinden
Ich habe versucht, den Urknall-Satz zu verifizieren [Kommt er zurück?]
Ich habe untersucht, wie der Arbeitsablauf mit Excel x Python optimiert werden kann
Ich habe versucht, die Entropie des Bildes mit Python zu finden
Ich habe versucht, mit TensorFlow den Durchschnitt mehrerer Spalten zu ermitteln
Ich habe untersucht, wie der Arbeitsablauf mit Excel x Python ④ optimiert werden kann
Ich habe versucht herauszufinden, wie der Arbeitsablauf mit Excel x Python optimiert werden kann
Ich habe untersucht, wie der Arbeitsablauf mit Excel x Python optimiert werden kann
Ich habe Python verwendet, um mich über die Rollenauswahl der 51 "Yachten" in der Welt zu informieren.
Ich habe versucht, mich über MCMC zu organisieren.
Python-Anfänger versuchten es herauszufinden
Ich habe untersucht, wie der Arbeitsablauf mit Excel x Python optimiert werden kann
Ich habe versucht, den Ball zu bewegen
Ich habe versucht, den Abschnitt zu schätzen.
Ich habe versucht herauszufinden, ob ReDoS mit Python möglich ist
Ich habe versucht, ein Standbild aus dem Video auszuschneiden
Ich habe versucht, den Befehl umask zusammenzufassen
Ich versuchte das Weckwort zu erkennen
Ich habe versucht, die grafische Modellierung zusammenzufassen.
Ich habe versucht, das Umfangsverhältnis π probabilistisch abzuschätzen
Ich habe versucht, die COTOHA-API zu berühren
Ich habe versucht herauszufinden, wie ich den Arbeitsablauf mit Excel × Python, meiner Artikelzusammenfassung ★, optimieren kann
Ich habe versucht, den Unterschied zwischen A + = B und A = A + B in Python herauszufinden
Ich habe versucht, den besten Weg zu finden, um einen guten Ehepartner zu finden
Ich habe versucht, die logische Denkweise über Objektorientierung zusammenzufassen.
Ich habe versucht, die optimale Route des Traumlandes durch (Quanten-) Tempern zu finden
Ich habe versucht herauszufinden, was ich tun kann, weil das Schneiden bequem ist
Ich habe Web Scraping versucht, um die Texte zu analysieren.
Ich habe versucht, beim Trocknen der Wäsche zu optimieren
Ich habe versucht, die Daten mit Zwietracht zu speichern
Ich habe versucht, das Umfangsverhältnis mit 100 Millionen Stellen zu ermitteln
Ich habe versucht, die Trapezform des Bildes zu korrigieren
Qiita Job Ich habe versucht, den Job zu analysieren
LeetCode Ich habe versucht, die einfachen zusammenzufassen
Ich habe versucht, das Problem des Handlungsreisenden umzusetzen
Ich habe versucht, die Texte von Hinatazaka 46 zu vektorisieren!
Ich habe versucht, so viel wie möglich über GIL herauszufinden, das Sie wissen sollten, wenn Sie parallel mit Python arbeiten
Ich habe gawk verwendet, um den Maximalwert für NF herauszufinden.
Ein Programmieranfänger versuchte, die Ausführungszeit des Sortierens usw. zu überprüfen.
Informieren Sie sich über SVM
Ich habe versucht zu debuggen.
Ich habe versucht, die Sündenfunktion mit Chainer zu trainieren
Ich habe versucht, einen "verdammt großen Literaturkonverter" zu machen.
Ich habe versucht, die in Python installierten Pakete grafisch darzustellen
Ich habe versucht, Iris aus dem Kamerabild zu erkennen
Ich habe versucht, die Grundform von GPLVM zusammenzufassen
Ich habe versucht, eine CSV-Datei mit Python zu berühren
Ich habe versucht, das Spiel in der J League vorherzusagen (Datenanalyse)
Ich habe versucht, Soma Cube mit Python zu lösen
Ich habe versucht, die Sündenfunktion mit Chainer zu approximieren
Ich habe versucht, Pytest in die eigentliche Schlacht zu bringen
[Python] Ich habe versucht, die Top 10 der Lidschatten grafisch darzustellen
Ich habe versucht, die Spacha-Informationen von VTuber zu visualisieren
Ich habe versucht, den negativen Teil von Meros zu löschen
Ich habe versucht, das Problem mit Python Vol.1 zu lösen
Ich habe versucht, die Methode zur Mittelung der Dollarkosten zu simulieren
Ich habe versucht, die nicht negative Matrixfaktorisierung (NMF) zu wiederholen.