Lorsque j'étais intéressé par le prétraitement des données et que je cherchais du matériel, [Recruit Institute of Artificial Intelligence lance "Big Gorilla", un écosystème open source pour l'intégration et la préparation des données | Recruit Holdings --Recruit Holdings](http: // www) J'ai trouvé un communiqué de presse appelé .recruit.jp / news_data / release / 2017 / 0630_17541.html).
À première vue, je n'étais pas sûr de ce que c'était, alors j'ai regardé le contour.
BigGorilla - Data Integration & Preparation in Python
--Un environnement python avec une bibliothèque recommandée pour le prétraitement des données --Avec quelques bibliothèques propriétaires
D'après la dénomination et la figure sur le site officiel, cela semblait être un énorme cadre, Pour ainsi dire, c'est un assortiment de bibliothèques. (Il semble qu'il n'héritera pas de la classe propre à BigGorilla)
Pour effectuer réellement le prétraitement, vous devez programmer normalement avec python.
Recommandation pour la création d'un environnement Python portable avec conda --Qiita
$mettre anaconda
$ conda env create biggorilla/py3gorilla
#Si vous utilisez pyenv, vous devez spécifier la commande conda activate avec le chemin complet. Avec la source activée Py3 Gorilla, la coquille tombe.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/Py3Gorilla/bin/activate Py3Gorilla
Référence: Commençons | BigGorilla
~~ Addendum: Lorsque je l'ai essayé à partir du 07/12/2017, l'erreur suivante n'apparaissait pas avec cette méthode. (Peut-être que le nom du fichier mis à jour en juin est erroné, je pense que l'ancien yml est appliqué. Il sera probablement corrigé par la mise à jour à partir de maintenant) ~~
2017/07/21 Addendum: Le fichier a été mis à jour. Cela devrait fonctionner comme documenté.
$ conda env create biggorilla/py3gorilla
Collecting urllib==1.21.1
Downloading urllib-1.21.1.tar.gz (226kB)
100% |████████████████████████████████| 235kB 640kB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "/private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/setup.py", line 191
s.connect((base64.b64decode(rip), 017620))
^
SyntaxError: invalid token
----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/
CondaValueError: Value error: pip returned an error.
Vous pouvez l'installer en téléchargeant yml depuis Files :: Anaconda Cloud et en supprimant la ligne qui spécifie urllib.
###Effacez l'environnement une fois
$ conda env remove -n Py3Gorilla
#Recréez l'environnement en spécifiant le fichier yml modifié localement
$ conda env create --name test --file ~/Downloads/Py3Gorilla.yml
#Si vous utilisez pyenv, vous devez spécifier la commande conda activate avec le chemin complet. Avec la source activée Py3 Gorilla, la coquille tombe.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/test/bin/activate test
#Déposez le notebook pour le contrôle de fonctionnement et démarrez
$ anaconda download biggorilla/hi_gorilla
$ jupyter notebook hi_gorilla.ipynb
Il y avait une liste de paquets installés dans Files :: Anaconda Cloud, alors jetez un œil. Bien qu'il soit introduit dans la liste des composants sur le site officiel, il s'avère que seule une petite partie est installée. Par rapport à l'explication sur le site, la composition est étonnamment minimale. S'il n'est pas inclus, installez-le vous-même.
--urllib http accède à la bibliothèque standard --https accède à la bibliothèque plus riche que les requêtes urllib
--beautifulsoup4 Chargement et analyse de la page Web --lxml xml parser --nltk Traitement du langage naturel (analyse morphologique, etc.)
--FlexMatcher (fabriqué par Recruit Institute)
--Magellan (développé par l'Université du Wisconsin) --Fourni dans le cadre d'une bibliothèque appelée py-entitymatching, py-stringmatching
--xlrd opération Excel
―― N'est-il pas inclus simplement parce qu'il dispose d'outils commerciaux?
―― N'est-ce pas inclus?
C'est peut-être une dépendance, scikit-learn et jupyter-notebook sont inclus.
Selon le Communiqué de presse, les trois bibliothèques suivantes sont implémentées indépendamment.
Actuellement, RIT est disponible dans des packages appelés KOKO et FlexMatcher.)Et d)Est en cours de développement et l'équipe du professeur Doan a un package appelé Magellan.)Se développe.
FlexMatcher --Bibliothèque de correspondance de schéma créée par le laboratoire de recrutement ――Même si le nom de l'élément de données est différent entre les deux données, il trouvera automatiquement la correspondance.
Magellan
KOKO
--Conda env et essayez de créer réellement l'environnement
Recommended Posts