[PYTHON] [Mémo] Correspondance de texte dans le cadre de données pandas à l'aide de Flashtext

Aperçu

Introduction d'une bibliothèque appelée flashtext à partir des points suivants lors de la mise en correspondance de texte en csv avec une grande capacité à l'aide de pandas.
Un algorithme unique permet un traitement d'expressions normales à grande vitesse, même pour de gros volumes de données.
En fonction de la capacité, le [module re] de python (https://docs.python.org/ja/3/library/re.html) est plus rapide.
Notation simple.
Traitement de texte abondant.
Github
Cette fois, la notation de base est décrite comme un mémorandum.
** * Par conséquent, vérifiez les Documents officiels pour les différentes API. ** **

Installation

--Introduit avec la commande suivante.

pip install flashtext

Exemple de code

Ensuite, le processus de lecture de l'échantillon CSV dans la trame de données et d'émission d'un numéro de comptage simple.

import pandas as pd
from flashtext import KeywordProcessor

#spécification de mot-clé
keyword_dict = {
'front': ['html', 'javascript','css'],
'back': ['php','python','ruby'],
'db': ['mysql','postgress','mongo']
}

# init
keyword_processor = KeywordProcessor()

#mot-clé ajouté
keyword_processor.add_keywords_from_dict(keyword_dict)

#Charger un exemple de csv
df = pd.read_csv("sample.csv")

#Traitement du compte. Ajout d'une colonne pour afficher chaque nombre compté.
#Exemple: sample.Chaque correspondance pour les données de la colonne «contenu» dans csv.
df['all_count'] = df['contents'].apply(lambda x: len(keyword_processor.extract_keywords(x)))

#Sortie 3 premières lignes
df.head(3)

référence

Documentation
https://medium.com/better-programming/using-pythons-flashtext-library-to-find-keywords-in-text-data-f6cdf9c018ee