Geben Sie Excel-Daten mit Python3 + xlrd + mecab separat aus

Zweck

Textdaten sind in der Excel-Datei vorhanden, und die Textdaten werden aufgeteilt und in tabulatorgetrennten Formaten (tsv-Datei) ausgegeben.

Betriebsüberprüfungsumgebung

Mac OS 10.12.3 Python 3.6.0 mecab of 0.996 mecab-python3==0.7

Vorbereitung

Installieren Sie Mecab und Wörterbuch

Installation mit Homebrew (Mac) Verwenden Sie MeCab aus Python 3 Oder machen und installieren Sie es selbst Aktivieren Sie die morphologische Analyse-Engine MeCab in Python3 (Version März 2016)

Python-Bindungen installieren

Verwenden von Mecab mit Python3

Installieren Sie xlrd

[Python] Excel mit Pandas lesen

Quellcode

mecab.py


#!/usr/bin/env python

import xlrd
import MeCab
import sys

args = sys.argv

#Öffnen Sie die Excel-Datei
book = xlrd.open_workbook(args[1])
sh = book.sheet_by_index(0)

# header
print("\t".join(('text','price')))

#Perspektive mit Teilungsoption
t = MeCab.Tagger ("-Owakati")

#Über jede Zeile
for rx in range(1, sh.nrows):

    #Nehmen Sie die Spalten auf, die Sie benötigen
    text = sh.cell_value(rowx=rx, colx=1)
    price = sh.cell_value(rowx=rx, colx=2)

    #Zeilenumbrüche löschen
    text = text.replace('\n','').replace('\r','')

    try:
        #Perspektive und Zeilenumbruch entfernen
        m = t.parse(text).replace('\n','')

        #Ausgabe
        print( "\t".join((m, price)) )

    except RuntimeError as e:
        print("RuntimeError:" + e)

Lauf

$ ./mecab.py [Excel-Dateiname]





Recommended Posts

Geben Sie Excel-Daten mit Python3 + xlrd + mecab separat aus
Dateneingabe / -ausgabe in Python (CSV, JSON)
Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API
Zusammenfassung der Excel-Operationen mit OpenPyXL in Python
Datenbereinigung mit Python
Japanische Ausgabe mit Python
Python-Programmierung mit Excel
Erstellen Sie mit Selenium einen Datenerfassungsbot in Python
Registrieren Sie gemeinsam Daten im Firestore mithilfe der CSV-Datei in Python
Holen Sie sich LEAD-Daten mit der REST-API von Marketo in Python
Behandeln Sie Umgebungsdaten in Python
Zeigen Sie UTM-30LX-Daten in Python an
Aufblasen von Textdaten durch erneute Übersetzung mithilfe der Google-Übersetzung in Python
Zeichnen Sie Zeitreihendaten in Python mit Pandas und Matplotlib
Ein Memo, dass ich eine Grundfunktion in Python mit Wiederholung geschrieben habe
Datenanalyse mit Python-Pandas
Übersetzt mit Googletrans in Python
Verwenden des Python-Modus in der Verarbeitung
Lesen Sie die Fortran-Ausgabe mit Python
[Python ORM] Notation beim Schreiben von SQL mithilfe von Unterabfragen in der IN-Klausel in SQL Alchemy
Holen Sie sich LeapMotion-Daten in Python.
GUI-Programmierung in Python mit Appjar
Vorsichtsmaßnahmen bei der Verwendung von Pit mit Python
Datenerfassung mit Python Googlemap API
Lesen Sie die Protokollpufferdaten mit Python3
Hinweise zur Verwendung von MeCab aus Python
Behandeln Sie Daten im NetCDF-Format mit Python
Versuchen Sie es mit LevelDB mit Python (plyvel)
Machen Sie die Standardausgabe in Python nicht blockierend
Windows 10: Installieren der MeCab-Bibliothek für Python
Verwendung globaler Variablen in Python-Funktionen
Hashing von Daten in R und Python
Mal sehen, wie man Eingaben in Python verwendet
Gesamtleistung in Python (mit Funktools)
Exportieren und Ausgeben von Dateien in Python
Excel-Diagrammerstellung mit Python xlwings
Interaktives Ausgeben von BPE mithilfe von Python-Flüchen
Lesen und Schreiben von Text in Python
Handschriftliche Zeichenerkennung mit KNN in Python
Webcodierer versucht Excel in Python
Versuchen Sie es mit LeapMotion mit Python
Suche nach Tiefenpriorität mit Stack in Python
Bei Verwendung von MeCab mit virtualenv python
Bei Verwendung regulärer Ausdrücke in Python
Beim Schreiben eines Programms in Python
GUI-Erstellung in Python mit tkinter 2
Zeichnen von Daten einer Galaxie mit sichtbarem Licht mithilfe der OpenNGC-Datenbank in Python
Holen Sie sich mit Python zusätzliche Daten zu LDAP
Mausbedienung mit Windows-API in Python
Hinweise zur Verwendung von cChardet und python3-chardet in Python 3.3.1.
Versuchen Sie es mit der Wunderlist-API in Python
Von Python bis zur Verwendung von MeCab (und CaboCha)
GUI-Erstellung in Python mit tkinter Teil 1
Holen Sie sich Suica Balance in Python (mit libpafe)
Übung, dies in Python zu verwenden (schlecht)
Hash-Passwörter langsam mit bcrypt in Python
Ali Buch in Python: Abschnitt 2-4, Datenstruktur
Verwenden von venv in der Windows + Docker-Umgebung [Python]