Textdaten sind in der Excel-Datei vorhanden, und die Textdaten werden aufgeteilt und in tabulatorgetrennten Formaten (tsv-Datei) ausgegeben.
Mac OS 10.12.3 Python 3.6.0 mecab of 0.996 mecab-python3==0.7
Installation mit Homebrew (Mac) Verwenden Sie MeCab aus Python 3 Oder machen und installieren Sie es selbst Aktivieren Sie die morphologische Analyse-Engine MeCab in Python3 (Version März 2016)
Verwenden von Mecab mit Python3
[Python] Excel mit Pandas lesen
mecab.py
#!/usr/bin/env python
import xlrd
import MeCab
import sys
args = sys.argv
#Öffnen Sie die Excel-Datei
book = xlrd.open_workbook(args[1])
sh = book.sheet_by_index(0)
# header
print("\t".join(('text','price')))
#Perspektive mit Teilungsoption
t = MeCab.Tagger ("-Owakati")
#Über jede Zeile
for rx in range(1, sh.nrows):
#Nehmen Sie die Spalten auf, die Sie benötigen
text = sh.cell_value(rowx=rx, colx=1)
price = sh.cell_value(rowx=rx, colx=2)
#Zeilenumbrüche löschen
text = text.replace('\n','').replace('\r','')
try:
#Perspektive und Zeilenumbruch entfernen
m = t.parse(text).replace('\n','')
#Ausgabe
print( "\t".join((m, price)) )
except RuntimeError as e:
print("RuntimeError:" + e)
$ ./mecab.py [Excel-Dateiname]
Recommended Posts