[PYTHON] ■ [Google Colaboratory] Vorverarbeitung der Verarbeitung natürlicher Sprache & Janome

  1. Read Data by "with open" method

Versuchen Sie, ** Ryunosuke Akutagawas "Nase" ** von Aozora Bunko zu lesen Der Zeichencode der Datei lautet ** shift_jis ** image.png

#Lesen und Schreiben von Textdateien in Python (Eingabe / Ausgabe)
with open('/hana.txt', mode='r', encoding='shift_jis') as f: 
  nose_hana = f.read()

print(nose_hana)

image.png

  1. Preprocessing of "HANA"
#Datenvorverarbeitung
import re
import pickle

nose = re.sub('《[^》]+》', '', nose_hana)    #Rubin löschen
nose = re.sub('[|―  「」\n]', '', nose)      # |- Und Leerzeichen in voller Breite, "" und Löschen von Zeilenumbrüchen
nose = re.sub('[ ]', '', nose)                #Raum mit halber Breite löschen
nose = re.sub('[\u3000]', '', nose)           #\u3000 gelöscht

sentense_end = '。'

nose_list = nose.split(sentense_end)
nose_list.pop()
nose_list = [x+sentense_end for x in nose_list]

print(nose_list)

image.png

3. WAKATI "Separates Schreiben"

from janome import tokenizer

s = Tokenizer()

t = nose_list

for _ in nose_list:
  print(s.tokenize(_, wakati=True))

image.png

  1. Analysis of results of "WAKATI"
#Sie können die Häufigkeit des Auftretens in Sammlungen zählen
import collections

s = Tokenizer() #Instanziierung
words = []
for _ in nose_list:
  words += s.tokenize(_, wakati=True)

c = collections.Counter(words)
print(c)

Reference

  1. Installation des morphologischen Analysetools (janome)

Recommended Posts

■ [Google Colaboratory] Vorverarbeitung der Verarbeitung natürlicher Sprache & Janome
Verarbeitung natürlicher Sprache 1 Morphologische Analyse
■ [Google Colaboratory] Morphologische Analyse verwenden (janome)
100 natürliche Sprachverarbeitung klopft Kapitel 4 Morphologische Analyse (erste Hälfte)
100 natürliche Sprachverarbeitung klopft Kapitel 4 Morphologische Analyse (zweite Hälfte)
Leistungsüberprüfung der Datenvorverarbeitung in der Verarbeitung natürlicher Sprache
Lernen Sie mit "Google Colaboratory" ganz einfach 100 Sprachverarbeitungsklopfen 2020.
Überblick über die Verarbeitung natürlicher Sprache und ihre Datenvorverarbeitung
Arten der Vorverarbeitung in der Verarbeitung natürlicher Sprache und ihre Leistungsfähigkeit
100 Sprachverarbeitungsklopfen 2020: Kapitel 4 (morphologische Analyse)
100 Sprachverarbeitung Knock 2020 Kapitel 4: Morphologische Analyse
[Verarbeitung natürlicher Sprache] Vorverarbeitung mit Japanisch
100 Sprachverarbeitung Knock Kapitel 4: Morphologische Analyse
■ [Google Colaboratory] Verwenden Sie die morphologische Analyse (MeCab)
100 Sprachverarbeitung Knock-59: Analyse der S-Formel
100 Sprachverarbeitung klopfen 2020 "für Google Colaboratory"
[Sprachverarbeitung 100 Schläge 2020] Kapitel 4: Morphologische Analyse
100 Language Processing Knock 2015 Kapitel 4 Morphologische Analyse (30-39)
Verarbeiten Sie den Namen der Yugioh-Karte in natürlicher Sprache - Yugiou Data Science 2. NLP
Sprachverarbeitung 100 Schläge Kapitel 4: Morphologische Analyse 31. Verben
[WIP] Vorverarbeiten von Notizen in der Verarbeitung natürlicher Sprache
100 Sprachverarbeitung klopft Morphologische Analyse in Kapitel 4 gelernt
Unerträgliche Aufmerksamkeitsmangel bei der Verarbeitung natürlicher Sprache
Python: Verarbeitung natürlicher Sprache
RNN_LSTM2 Verarbeitung natürlicher Sprache
100 Sprachverarbeitung Knock-30 (unter Verwendung von Pandas): Lesen der Ergebnisse der morphologischen Analyse
100 natürliche Sprachverarbeitung klopft Kapitel 5 Abhängigkeitsanalyse (zweite Hälfte)
100 natürliche Sprachverarbeitung klopft Kapitel 5 Abhängigkeitsanalyse (erste Hälfte)
[Für Anfänger] Sprachanalyse mit dem Verarbeitungswerkzeug "GiNZA" (von der morphologischen Analyse bis zur Vektorisierung)
Japanische morphologische Analyse mit Janome
100 Sprachverarbeitung Knock-57: Abhängigkeitsanalyse
Verarbeitung natürlicher Sprache 3 Wortkontinuität
100 Sprachverarbeitung Knock-56: Co-Referenz-Analyse
Verarbeitung natürlicher Sprache 2 Wortähnlichkeit
Japanische Verarbeitung natürlicher Sprache mit Python3 (4) Emotionsanalyse durch logistische Regression
Warum ist der verteilte Ausdruck von Wörtern für die Verarbeitung natürlicher Sprache wichtig?
[Word2vec] Lassen Sie uns das Ergebnis der Verarbeitung von Unternehmensbewertungen in natürlicher Sprache visualisieren
Studieren Sie die Verarbeitung natürlicher Sprache mit Kikagaku
100 Sprachverarbeitung Knock 2015 Kapitel 5 Abhängigkeitsanalyse (40-49)
100 Klicks in der Verarbeitung natürlicher Sprache Kapitel 4 Kommentar
Verarbeitung natürlicher Sprache für vielbeschäftigte Menschen
[Sprachverarbeitung 100 Schläge 2020] Kapitel 5: Abhängigkeitsanalyse
Künstliche Sprache Logivan und Verarbeitung natürlicher Sprache (Verarbeitung künstlicher Sprache)
100 Sprachverarbeitung Knock 2020 Kapitel 5: Abhängigkeitsanalyse
Japanische Analyseverarbeitung mit Janome Teil1
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
Vorbereitung zum Starten der Verarbeitung natürlicher Sprache
Installationszusammenfassung des Analysators für die Verarbeitung natürlicher Sprache
Zusammenfassung der Mehrprozessverarbeitung der Skriptsprache
Einfaches Auffüllen von Daten, die in der Verarbeitung natürlicher Sprache verwendet werden können
Lernen Sie die Grundlagen der Dokumentklassifizierung durch Verarbeitung natürlicher Sprache, Themenmodell
Antworten und Eindrücke von 100 Sprachverarbeitungsklopfen - Teil 1
100 Sprachverarbeitung Knock-91: Vorbereitung von Analogiedaten
Sprachverarbeitung 100 Knocks-44: Visualisierung abhängiger Bäume
Antworten und Eindrücke von 100 Sprachverarbeitungsklopfen - Teil 2