3. Verarbeitung natürlicher Sprache durch Python 2-2. Koexistenznetzwerk [mecab-ipadic-NEologd]

** mecab-ipadic-NEologd ** ist ein benutzerdefiniertes Wörterbuch, das das Standard-MeCab-Wörterbuch ergänzt.
Wörter wurden aus vielen Sprachressourcen im Web hinzugefügt und ** unterstützen neue Wörter, zusammengesetzte Wörter, Redewendungen usw. **.
Wie oben erwähnt, unterteilt der MeCab-Standard es in "individuell" und "Prinzip", aber mecab-ipadic-NEologd behandelt es als ein Wort "Individualismus".

Aufgabe

** Verwenden Sie mecab-ipadic-NEologd **, um eine Reihe von Aufgaben auszuführen, z. B. ** Entfernen von Stoppwörtern ** und ** Ausdrücken in einem Netzwerk mit gleichzeitigem Auftreten **.

1. Aufbereitung von Textdaten

⑴ Textdaten lesen

Für das Korpus werden wir die Rede von Premierminister Kan auf der UN-Generalversammlung (26. September, 2. Jahr von Reiwa) verwenden. Darüber hinaus werden die Reden und Pressekonferenzen aufeinanderfolgender Ministerpräsidenten in ungeschnittenen Texten und Videos unter der folgenden URL veröffentlicht.
https://www.kantei.go.jp/jp/99_suga/statement/index.html
Ich habe den Text im Voraus auf den Bildschirm kopiert und eine Textdatei auf dem lokalen PC erstellt. Laden Sie es in Colaboratory hoch und laden Sie es.

from google.colab import files
uploaded = files.upload()

with open('20200926_suga_un.txt', mode='rt', encoding='utf-8') as f:
    read_text = f.read()
sugatxt = read_text

⑵ Datenbereinigung

Entfernt Rauschen wie Zeilenvorschubcodes und -symbole und unterteilt sich in Satzeinheiten mit dem Interpunktionszeichen ".".

#Löschen Sie unnötige Zeichen / Symbole
def clean(text):
    text = text.replace("\n", "")
    text = text.replace("\u3000", "")
    text = text.replace("「", "")
    text = text.replace("」", "")
    text = text.replace("（", "")
    text = text.replace("）", "")
    text = text.replace("、", "")
    return text

text = clean(sugatxt)

#Zeile für Zeile teilen
lines = text.split("。")

2. Koexistenzdaten erstellen

MeCab und ** mecab-ipadic-NEologd ** werden verwendet, um eine morphologische Analyse satzweise durchzuführen und eine Liste nur der Nomenklatur ohne Stoppwörter ** zu erstellen.

⑶ Installation von MeCab und mecab-ipadic-NEologd

# MeCab
!apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab > /dev/null
!pip install mecab-python3 > /dev/null

# mecab-ipadic-NEologd
!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git > /dev/null 
!echo yes | mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n > /dev/null 2>&1

#Vermeiden Sie Fehler mit symbolischen Links
!ln -s /etc/mecabrc /usr/local/etc/mecabrc

Vermeiden Sie Fehler wie fehlerhafte Links und das Verweisen auf die falsche Datei und ergreifen Sie Maßnahmen, um sicherzustellen, dass der "Pfad" im nächsten Abschnitt ordnungsgemäß funktioniert.

⑷ Erstellen Sie eine Instanz, indem Sie mecab-ipadic-NEologd angeben

#Überprüfen Sie den Wörterbuchpfad
!echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

Erstellen Sie eine Instanz m_neo mit dem Ausgabemodus als path (= mecab-ipadic-NEologd).

import MeCab

path = "-d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd"
m_neo = MeCab.Tagger(path)

⑸ Erstellen Sie eine satzbasierte Nomenklaturliste

Setze das Wort ** Stoppwort **, das gelöscht werden soll. Wir listen Wörter auf, die für die Interpretation selbst keine nützliche Bedeutung haben, wie Zahlen, Zahlen und Direktiven-Synonyme. In diesem Beispiel werden auch die nach der morphologischen Analyse verbleibenden Symbole hinzugefügt.

stopwords = ["１", "２", "３", "４", "５", "６", "７", "８", "９", "０", 
             "1", "2", "3", "4", "5", "6", "7", "8", "9", "0", 
             "einer", "zwei", "drei", "vier", "Fünf", "Sechs", "Sieben", "Acht", "Neun", "〇", 
             "Jahr", "Mond", "Tag", "Nächster", "Rabatt", "Mal", "Ziel", "Krankheit", "das ist alles", "Weniger als", "周Jahr", "Fall", "Jedes Mal",
             "von", "もvon", "Ding", "Yo", "Sama", "Zum", "Neigen dazu", "Dies", "Es", "Das", "Wer", 
             "*", ",", "，"]

Erstellen Sie eine satzbasierte Nomenliste "Nomenliste".
Wiederholen Sie aus den in Zeileneinheiten unterteilten Textdaten "Zeilen" den folgenden Vorgang zeilenweise und fügen Sie ihn "Nomenliste" hinzu.
Das Ergebnis der morphologischen Analyse sei "v1", und dies sei die Liste, die durch "splitlines ()" als "v2" in Worteinheiten unterteilt ist.
Wiederholen Sie den folgenden Vorgang Wort für Wort aus "v2" und fügen Sie ihn zu "Ergebnis" hinzu.
Teilen Sie das Analyseergebnis für ein Wort in "split (" \ t ")", dh ein Leerzeichen, und teilen Sie es in zwei Teile, das "ursprüngliche Wort" und den "inhaltlichen Teil der Analyse", um "v3" zu erstellen.
Durch Setzen von "if len (v3) == 2" mit Ausnahme von "EOS" und "" wird der Inhaltsteil der Analyse "v3 [1]" durch "split (',')" geteilt Sagen wir v4`.
Wenn dieses erste Element "v4 [0]" eine Nomenklatur ist und das ursprüngliche "v4 [6]" kein Stoppwort ist, wird es zu "result" hinzugefügt.
Wenn Sie alle Wörter verarbeitet haben, fügen Sie result zu noun_list hinzu und fahren Sie mit der Verarbeitung des nächsten Satzes fort.

noun_list  = []

for line in lines:
    result = []
    v1 = m_neo.parse(line)
    v2 = v1.splitlines()
    for v in v2:
        v3 = v.split("\t")
        if len(v3) == 2:
            v4 = v3[1].split(',')
            if (v4[0] == "Substantiv") and (v4[6] not in stopwords):
                 result.append(v4[6])
    noun_list.append(result)

⑹ Generierung von Co-Auftrittsdaten

Generieren Sie nacheinander aus der satzbasierten Nomenliste "Nomenliste" ein Paar (Kombination von zwei Wörtern) mit "itertools.combinations ()" für diejenigen mit zwei oder mehr Wörtern mit ", wenn len (Nomenliste)> = 2". , Listen Sie es mit list () auf und speichern Sie es in pair_list.
Reduzieren Sie als Nächstes die "pair_list" in Satzeinheiten, um "all_pairs" zu erhalten, und zählen Sie dann die Anzahl der Vorkommen des Paares.

import itertools #Ein Modul, das Iteratorfunktionen sammelt
from collections import Counter #Eine Klasse, die die Anzahl der Vorkommen des Wörterbuchtyps zählt

#Generieren Sie eine satzbasierte Nomenklaturpaarliste
pair_list = []
for n in noun_list:
    if len(noun_list) >= 2:
        lt = list(itertools.combinations(n, 2))
        pair_list.append(lt)

#Liste der Nasenpaare abflachen
all_pairs = []
for p in pair_list:
    all_pairs.extend(p)

#Zählen Sie die Häufigkeit von Substantivpaaren
cnt_pairs = Counter(all_pairs)

3. Zeichnen eines Netzwerkdiagramms

⑺ Erstellung von Zeichnungsdaten

Verwenden Sie zum Zeichnen nur die 30 besten Paare nach Anzahl der Auftritte.
Es ist ein Argument von sorted () [: 30], um 30 Paare zu sortieren und abzurufen, aber das Element von cnt_pairs ist key = lambda x: x [1] und die Anzahl der Vorkommen wird gezielt und reverse = True Sortiert in absteigender Reihenfolge nach.
Konvertieren Sie außerdem den Wörterbuchtyp "dict" in ein zweidimensionales Array, um daraus "Daten" zum Zeichnen zu machen.

import pandas as pd
import numpy as np

#Generieren Sie die 30 besten Wörterbuchpaare
dict = sorted(cnt_pairs.items(), key=lambda x:x[1], reverse=True)[:30]

#Diktattyp in 2D-Array konvertieren
result = []
for key, value in dict:
    temp = []
    for k in key:
        temp.append(k)
    temp.append(value)
    result.append(temp)

data = np.array(result)

⑻ Import der Visualisierungsbibliothek

Verwenden Sie das Paket ** networkX ** zum Erstellen und Bearbeiten komplexer Netzwerke und Diagrammstrukturen in Python.

import matplotlib.pyplot as plt
import networkx as nx
%matplotlib inline 

#Ein Modul, das matplotlib mit dem japanischen Display kompatibel macht
!pip install japanize-matplotlib
import japanize_matplotlib

⑼ Visualisierung mit NetworkX

Erstellen Sie ein Diagrammstrukturobjekt, laden Sie Daten in das Objekt und zeichnen Sie, indem Sie Spezifikationen wie Knoten und Kanten in matplotlib angeben.
Damit die Knotenbezeichnung der japanischen Anzeige entspricht, wird die japanische Schriftart als "font_family =" IPAexGothic "angegeben.

#Diagrammobjekt generieren
G = nx.Graph()

#Daten lesen
G.add_weighted_edges_from(data)

#Zeichnen eines Diagramms
plt.figure(figsize=(10,10))
nx.draw_networkx(G,
                 node_shape = "s",
                 node_color = "chartreuse", 
                 node_size = 800,
                 edge_color = "gray", 
                 font_family = "IPAexGothic") #Japanische Schriftartspezifikation

plt.show()

Wie unten gezeigt, werden Wörter, die vom MeCab-Standard aufgeteilt würden, als ein Wort verarbeitet.

mecab-ipadic-NEologd	MeCab Standard
"Infektion"	"Infektion", "Krankheit"
"Entwicklungsländer"	"Unterwegs", "Land"
"Südostasiatische Union"	"Südostasien", "Länder", "Union"
"Menschliche Sicherheit"	"Mensch", "von", "Sicherheit", "Sicherheit"

Die Worte, die von lebenden Menschen geschrieben und gesprochen werden, sind wie eigenständige Lebewesen und werden ständig metabolisiert. Ich habe wirklich das Gefühl, dass das Wörterbuch entsprechend aktualisiert werden muss.

3. Verarbeitung natürlicher Sprache durch Python 2-2. Koexistenznetzwerk [mecab-ipadic-NEologd]

Aufgabe

** 1. Aufbereitung von Textdaten **

⑴ Textdaten lesen

⑵ Datenbereinigung

** 2. Koexistenzdaten erstellen **

⑶ Installation von MeCab und mecab-ipadic-NEologd

⑷ Erstellen Sie eine Instanz, indem Sie mecab-ipadic-NEologd angeben

⑸ Erstellen Sie eine satzbasierte Nomenklaturliste

⑹ Generierung von Co-Auftrittsdaten

** 3. Zeichnen eines Netzwerkdiagramms **

⑺ Erstellung von Zeichnungsdaten

⑻ Import der Visualisierungsbibliothek

⑼ Visualisierung mit NetworkX

1. Aufbereitung von Textdaten

2. Koexistenzdaten erstellen

3. Zeichnen eines Netzwerkdiagramms