[PYTHON] ■ [Google Colaboratory] Vorverarbeitung der Verarbeitung natürlicher Sprache & Janome

Read Data by "with open" method

Versuchen Sie, ** Ryunosuke Akutagawas "Nase" ** von Aozora Bunko zu lesen Der Zeichencode der Datei lautet ** shift_jis **

#Lesen und Schreiben von Textdateien in Python (Eingabe / Ausgabe)
with open('/hana.txt', mode='r', encoding='shift_jis') as f: 
  nose_hana = f.read()

print(nose_hana)

Preprocessing of "HANA"

#Datenvorverarbeitung
import re
import pickle

nose = re.sub('《[^》]+》', '', nose_hana)    #Rubin löschen
nose = re.sub('[|―  「」\n]', '', nose)      # |- Und Leerzeichen in voller Breite, "" und Löschen von Zeilenumbrüchen
nose = re.sub('[ ]', '', nose)                #Raum mit halber Breite löschen
nose = re.sub('[\u3000]', '', nose)           #\u3000 gelöscht

sentense_end = '。'

nose_list = nose.split(sentense_end)
nose_list.pop()
nose_list = [x+sentense_end for x in nose_list]

print(nose_list)

3. WAKATI "Separates Schreiben"

from janome import tokenizer

s = Tokenizer()

t = nose_list

for _ in nose_list:
  print(s.tokenize(_, wakati=True))

Analysis of results of "WAKATI"

#Sie können die Häufigkeit des Auftretens in Sammlungen zählen
import collections

s = Tokenizer() #Instanziierung
words = []
for _ in nose_list:
  words += s.tokenize(_, wakati=True)

c = collections.Counter(words)
print(c)

Reference

Installation des morphologischen Analysetools (janome)

Recommended Posts

■ [Google Colaboratory] Vorverarbeitung der Verarbeitung natürlicher Sprache & Janome

Verarbeitung natürlicher Sprache 1 Morphologische Analyse

■ [Google Colaboratory] Morphologische Analyse verwenden (janome)

100 natürliche Sprachverarbeitung klopft Kapitel 4 Morphologische Analyse (erste Hälfte)

100 natürliche Sprachverarbeitung klopft Kapitel 4 Morphologische Analyse (zweite Hälfte)

Leistungsüberprüfung der Datenvorverarbeitung in der Verarbeitung natürlicher Sprache

Lernen Sie mit "Google Colaboratory" ganz einfach 100 Sprachverarbeitungsklopfen 2020.

Überblick über die Verarbeitung natürlicher Sprache und ihre Datenvorverarbeitung

Arten der Vorverarbeitung in der Verarbeitung natürlicher Sprache und ihre Leistungsfähigkeit

100 Sprachverarbeitungsklopfen 2020: Kapitel 4 (morphologische Analyse)

100 Sprachverarbeitung Knock 2020 Kapitel 4: Morphologische Analyse

[Verarbeitung natürlicher Sprache] Vorverarbeitung mit Japanisch

100 Sprachverarbeitung Knock Kapitel 4: Morphologische Analyse

■ [Google Colaboratory] Verwenden Sie die morphologische Analyse (MeCab)

100 Sprachverarbeitung Knock-59: Analyse der S-Formel

100 Sprachverarbeitung klopfen 2020 "für Google Colaboratory"

[Sprachverarbeitung 100 Schläge 2020] Kapitel 4: Morphologische Analyse

100 Language Processing Knock 2015 Kapitel 4 Morphologische Analyse (30-39)

Verarbeiten Sie den Namen der Yugioh-Karte in natürlicher Sprache - Yugiou Data Science 2. NLP

Sprachverarbeitung 100 Schläge Kapitel 4: Morphologische Analyse 31. Verben

[WIP] Vorverarbeiten von Notizen in der Verarbeitung natürlicher Sprache

100 Sprachverarbeitung klopft Morphologische Analyse in Kapitel 4 gelernt

Unerträgliche Aufmerksamkeitsmangel bei der Verarbeitung natürlicher Sprache

Python: Verarbeitung natürlicher Sprache

RNN_LSTM2 Verarbeitung natürlicher Sprache

100 Sprachverarbeitung Knock-30 (unter Verwendung von Pandas): Lesen der Ergebnisse der morphologischen Analyse

100 natürliche Sprachverarbeitung klopft Kapitel 5 Abhängigkeitsanalyse (zweite Hälfte)

100 natürliche Sprachverarbeitung klopft Kapitel 5 Abhängigkeitsanalyse (erste Hälfte)

[Für Anfänger] Sprachanalyse mit dem Verarbeitungswerkzeug "GiNZA" (von der morphologischen Analyse bis zur Vektorisierung)

Japanische morphologische Analyse mit Janome

100 Sprachverarbeitung Knock-57: Abhängigkeitsanalyse

Verarbeitung natürlicher Sprache 3 Wortkontinuität

100 Sprachverarbeitung Knock-56: Co-Referenz-Analyse

Verarbeitung natürlicher Sprache 2 Wortähnlichkeit

Japanische Verarbeitung natürlicher Sprache mit Python3 (4) Emotionsanalyse durch logistische Regression

Warum ist der verteilte Ausdruck von Wörtern für die Verarbeitung natürlicher Sprache wichtig?

[Word2vec] Lassen Sie uns das Ergebnis der Verarbeitung von Unternehmensbewertungen in natürlicher Sprache visualisieren

Studieren Sie die Verarbeitung natürlicher Sprache mit Kikagaku

100 Sprachverarbeitung Knock 2015 Kapitel 5 Abhängigkeitsanalyse (40-49)

100 Klicks in der Verarbeitung natürlicher Sprache Kapitel 4 Kommentar

Verarbeitung natürlicher Sprache für vielbeschäftigte Menschen

[Sprachverarbeitung 100 Schläge 2020] Kapitel 5: Abhängigkeitsanalyse

Künstliche Sprache Logivan und Verarbeitung natürlicher Sprache (Verarbeitung künstlicher Sprache)

100 Sprachverarbeitung Knock 2020 Kapitel 5: Abhängigkeitsanalyse

Japanische Analyseverarbeitung mit Janome Teil1

Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten

Vorbereitung zum Starten der Verarbeitung natürlicher Sprache

Installationszusammenfassung des Analysators für die Verarbeitung natürlicher Sprache

Zusammenfassung der Mehrprozessverarbeitung der Skriptsprache

Einfaches Auffüllen von Daten, die in der Verarbeitung natürlicher Sprache verwendet werden können

Lernen Sie die Grundlagen der Dokumentklassifizierung durch Verarbeitung natürlicher Sprache, Themenmodell

Antworten und Eindrücke von 100 Sprachverarbeitungsklopfen - Teil 1

100 Sprachverarbeitung Knock-91: Vorbereitung von Analogiedaten

Sprachverarbeitung 100 Knocks-44: Visualisierung abhängiger Bäume

Antworten und Eindrücke von 100 Sprachverarbeitungsklopfen - Teil 2