[PYTHON] [Memo] Textabgleich im Pandas-Datenrahmen mit Flashtext

Überblick

Installation

pip install flashtext

Beispielcode

import pandas as pd
from flashtext import KeywordProcessor

#Schlüsselwortspezifikation
keyword_dict = {
'front': ['html', 'javascript','css'],
'back': ['php','python','ruby'],
'db': ['mysql','postgress','mongo']
}

# init
keyword_processor = KeywordProcessor()

#Schlüsselwort hinzugefügt
keyword_processor.add_keywords_from_dict(keyword_dict)

#Beispiel-CSV laden
df = pd.read_csv("sample.csv")

#Zählverarbeitung. Es wurde eine Spalte hinzugefügt, in der jede gezählte Zahl angezeigt wird.
#Beispiel: sample.Jede Übereinstimmung für die Daten in der Spalte "Inhalt" in CSV.
df['all_count'] = df['contents'].apply(lambda x: len(keyword_processor.extract_keywords(x)))

#Die ersten 3 Zeilen werden ausgegeben
df.head(3)

image.png

Referenz

Recommended Posts

[Memo] Textabgleich im Pandas-Datenrahmen mit Flashtext
Wählen Sie Features mit Textdaten aus
Datenanalyse mit Python-Pandas
Aufblasen von Textdaten durch erneute Übersetzung mithilfe der Google-Übersetzung in Python
Zeichnen Sie Zeitreihendaten in Python mit Pandas und Matplotlib
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (5)
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (3)
Datenerfassungsnotiz mit der Backlog-API
Datenvisualisierungsmethode mit Matplotlib (+ Pandas) (4)
Analysieren Sie Daten mit RegEx 100x Flash Text
Memo zur Informationsaufzeichnung mit Sitzung in Django
Vorsichtsmaßnahmen bei Verwendung der for-Anweisung in Pandas
RDS-Daten über die Schrittplattform werden an Pandas gesendet
SELECT-Daten mithilfe der Client-Bibliothek mit BigQuery
Behandeln Sie 3D-Datenstrukturen mit Pandas
Pandas Memo
Suchen Sie den Index der Elemente, die den Bedingungen im Pandas-Datenrahmen / der Pandas-Serie entsprechen
Pandas Memo
Japanische Textvorverarbeitung ohne Aussage in Pandas
Datenversorgungstricks mit deque beim maschinellen Lernen
[Pandas] Grundlagen der Verarbeitung von Datumsdaten mit dt
100 Sprachverarbeitung Knock-20 (unter Verwendung von Pandas): Lesen von JSON-Daten
Machen Sie Urlaubsdaten mit Pandas zu einem Datenrahmen
Ermitteln Sie die maximale Anzahl von Zeichen in mehrzeiligem Text, die in einem Datenrahmen gespeichert sind