Ce que j'ai fait

Lorsque j'étais intéressé par le prétraitement des données et que je cherchais du matériel, [Recruit Institute of Artificial Intelligence lance "Big Gorilla", un écosystème open source pour l'intégration et la préparation des données | Recruit Holdings --Recruit Holdings](http: // www) J'ai trouvé un communiqué de presse appelé .recruit.jp / news_data / release / 2017 / 0630_17541.html).

À première vue, je n'étais pas sûr de ce que c'était, alors j'ai regardé le contour.

Ce que j'ai trouvé

Qu'est-ce que Big Gorilla

BigGorilla - Data Integration & Preparation in Python

--Un environnement python avec une bibliothèque recommandée pour le prétraitement des données --Avec quelques bibliothèques propriétaires

D'après la dénomination et la figure sur le site officiel, cela semblait être un énorme cadre, Pour ainsi dire, c'est un assortiment de bibliothèques. (Il semble qu'il n'héritera pas de la classe propre à BigGorilla)

Pour effectuer réellement le prétraitement, vous devez programmer normalement avec python.

Recommandation pour la création d'un environnement Python portable avec conda --Qiita

Comment installer

$mettre anaconda
$ conda env create biggorilla/py3gorilla
#Si vous utilisez pyenv, vous devez spécifier la commande conda activate avec le chemin complet. Avec la source activée Py3 Gorilla, la coquille tombe.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/Py3Gorilla/bin/activate Py3Gorilla

Référence: Commençons | BigGorilla

~~ Addendum: Lorsque je l'ai essayé à partir du 07/12/2017, l'erreur suivante n'apparaissait pas avec cette méthode. (Peut-être que le nom du fichier mis à jour en juin est erroné, je pense que l'ancien yml est appliqué. Il sera probablement corrigé par la mise à jour à partir de maintenant) ~~

2017/07/21 Addendum: Le fichier a été mis à jour. Cela devrait fonctionner comme documenté.

Registre de travail de l'installation forcée au 7/12

$ conda env create biggorilla/py3gorilla
Collecting urllib==1.21.1
Downloading urllib-1.21.1.tar.gz (226kB)
100% |████████████████████████████████| 235kB 640kB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "/private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/setup.py", line 191
s.connect((base64.b64decode(rip), 017620))
                                  ^
SyntaxError: invalid token
 ----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /private/var/folders/bx/k4yrl_bd3nb0v8pz7fm60t8r0000gp/T/pip-build-58rsg5li/urllib/
CondaValueError: Value error: pip returned an error.

Vous pouvez l'installer en téléchargeant yml depuis Files :: Anaconda Cloud et en supprimant la ligne qui spécifie urllib.

###Effacez l'environnement une fois
$ conda env remove -n Py3Gorilla

#Recréez l'environnement en spécifiant le fichier yml modifié localement
$ conda env create --name test --file ~/Downloads/Py3Gorilla.yml

#Si vous utilisez pyenv, vous devez spécifier la commande conda activate avec le chemin complet. Avec la source activée Py3 Gorilla, la coquille tombe.
$ source /Users/kkanazaw/.pyenv/versions/anaconda3-4.2.0/envs/test/bin/activate test

#Déposez le notebook pour le contrôle de fonctionnement et démarrez
$ anaconda download biggorilla/hi_gorilla
$ jupyter notebook hi_gorilla.ipynb

Que pouvez-vous faire? Découvrez les bibliothèques qu'il contient

Il y avait une liste de paquets installés dans Files :: Anaconda Cloud, alors jetez un œil. Bien qu'il soit introduit dans la liste des composants sur le site officiel, il s'avère que seule une petite partie est installée. Par rapport à l'explication sur le site, la composition est étonnamment minimale. S'il n'est pas inclus, installez-le vous-même.

Collecte de données

--urllib http accède à la bibliothèque standard --https accède à la bibliothèque plus riche que les requêtes urllib

grattage gratté
(Tweepy n'est pas inclus)

Extraction de données

--beautifulsoup4 Chargement et analyse de la page Web --lxml xml parser --nltk Traitement du langage naturel (analyse morphologique, etc.)

Correspondance et fusion de schémas

--FlexMatcher (fabriqué par Recruit Institute)

Correspondance et fusion de données

--Magellan (développé par l'Université du Wisconsin) --Fourni dans le cadre d'une bibliothèque appelée py-entitymatching, py-stringmatching

Conversion de données

--xlrd opération Excel

Standard json, csv
pandas
(Aucun système pdf inclus)

Mappage de schéma

―― N'est-il pas inclus simplement parce qu'il dispose d'outils commerciaux?

Gestion des flux de travail

―― N'est-ce pas inclus?

Autre

C'est peut-être une dépendance, scikit-learn et jupyter-notebook sont inclus.

À propos de la bibliothèque implémentée à l'origine

Selon le Communiqué de presse, les trois bibliothèques suivantes sont implémentées indépendamment.


Actuellement, RIT est disponible dans des packages appelés KOKO et FlexMatcher.)Et d)Est en cours de développement et l'équipe du professeur Doan a un package appelé Magellan.)Se développe.

FlexMatcher --Bibliothèque de correspondance de schéma créée par le laboratoire de recrutement ――Même si le nom de l'élément de données est différent entre les deux données, il trouvera automatiquement la correspondance.

Estimez-vous la similitude en utilisant le contenu des données comme données sur les enseignants?
(personnellement intéressé)

Magellan

Bibliothèque de correspondance de données développée par l'Université du Wisconsin ――Pouvez-vous combiner des données avec des fluctuations de notation ou faire quelque chose comme l'identification d'adresse?

KOKO

Seul le communiqué de presse a un nom. ~~ Non publié? ~~ --Le référentiel était ouvert au public
biggorilla-gh/koko: Extracting Entities with Limited Evidence

Que faire ensuite

--Conda env et essayez de créer réellement l'environnement

Essayez d'utiliser FlexMatcher et Magellan

[PYTHON] J'ai essayé de découvrir les grandes lignes de Big Gorilla