[PYTHON] Ich habe versucht, die unverständlichen Sätze von Karen Takizawa sprachlich zu analysieren.

Es scheint, dass Süchtige im Text von Karen Takizawas Instagram nacheinander auftauchen. Karen Takizawas unverständliche Insta wwwwwwwwwww

ss.jpg Quelle: https://www.instagram.com/takizawakarenofficial/

Was ist das für eine Satzstruktur?

Als ich Karen Takizawas Text tatsächlich las, konnte ich ihn auf Japanisch lesen, aber die Bedeutung des Textes kam mir nicht in den Sinn. Zuerst fragte ich mich, ob es das Ergebnis des Lernens des Korpus durch tiefes Lernen (RNN-System oder so etwas) und das Erzeugen von Sätzen war.

Ich denke, es gibt verschiedene Faktoren, die mich so fühlen lassen, aber um herauszufinden, wie unverständlich der Satz in Bezug auf die sprachliche Verarbeitung ist, habe ich die Syntax von Karen Takizawas Satz analysiert und das Ergebnis visualisiert.

Methode

-Ich habe versucht, die Syntax mit CaboCha zu analysieren. ――Die Phrase "." Wird in Karen Takizawas Text selten verwendet, und anstelle der Phrase werden Piktogramme verwendet. Daher wurde der Satz in Satzeinheiten mit der Folge von Piktogrammen als Satzunterbrechungen unterteilt.

Fall 1

Eingabeanweisung

*** Am Tag nach meinem Geburtstag, als ich mich an ein Jahr von 24 Jahren erinnerte, war ich ein wenig verwirrt von der Schlagstockberührung auf 25 Jahre, und als ich ohne klare Augen in Nosonoso ankam, öffnete ich mich nicht. Es war diese Broschüre, die mir in die Augen kam ***

Analyseergebnis

graph0.jpg

In diesem Beispiel ist zu sehen, dass die Syntaxstruktur zwar kompliziert ist, die Abhängigkeit selbst jedoch fast korrekt analysiert werden kann und die richtige Syntaxstruktur für Japanisch aufweist. Da jedoch ein Satz lang ist und die Abhängigkeiten oft parallel sind, scheint es für den Menschen schwierig zu sein, ihn zu verstehen.

Wenn Sie jedem Knoten im Diagramm in der Reihenfolge seines Erscheinungsbilds folgen und den Text lesen, werden Sie feststellen, dass die Bewegungsentfernung im Diagramm groß ist. Mit anderen Worten, wenn Sie der Bedeutung eines Satzes nacheinander in Ihrem Kopf folgen, ist die Bewegungsentfernung im Syntaxdiagramm groß, es verbraucht viel Arbeitsgedächtnis im Gehirn und es ist schwer zu verstehen (vielleicht ... · · Ich bin mir nicht sicher).

Fall 2

Eingabeanweisung

*** Wenn ich mich umdrehe, merke ich nicht, dass es bis zu meinem Geburtstag viele Verbündete und viele nette Leute gibt, aber obwohl ich mich selbst inspiriere, werde ich jeden Tag wie ein See gefangen. Es war ein schillernder 25-jähriger Morgen, als ich mich nach jemandem sehnte, der nicht ruhig war und keinen Ton fühlte ***

Analyseergebnis

graph0.jpg

Es ist ziemlich funky Komplexität. Ich glaube nicht, dass Menschen einen solchen Syntaxbaum im Gehirn entwickeln können, und er kann nicht nacheinander gelesen und verstanden werden. Da der Satz lang und die Struktur kompliziert ist, scheint auch ein Analysefehler (?) In der syntaktischen Analyse aufgetreten zu sein. Ist es nicht schwer zu verstehen, was mit dem Text eines Patents vergleichbar ist?

Analysebeispiel eines Nachrichtenartikels

Zum Vergleich werde ich das Ergebnis der Syntaxanalyse in gewöhnlichen Sätzen veröffentlichen.

Eingabeanweisung

*** Von den 47 Präfekturen und 20 von der Regierung bestimmten Städten im ganzen Land haben 70% der Kommunalverwaltungen keine Standards für die Offenlegung der Namen vermisster Personen im Katastrophenfall. Der Asahi Shimbun befragte jede lokale Regierung im Einklang mit der Durchsetzung des überarbeiteten Gesetzes zum Schutz personenbezogener Daten am 30. September. Es gab auch 5 lokale Regierungen, die antworteten, dass ihre Namen nicht bekannt gegeben würden *** Quelle: https://www.asahi.com/

Analyseergebnis

graph0.jpg

Wie oben erwähnt, sind bei gewöhnlichen (?) Sätzen, die so bearbeitet wurden, dass sie leicht zu lesen sind, wie z. B. Nachrichtenartikeln, die Sätze ziemlich lang, aber die syntaktische Struktur weist eine geringe Parallelität auf, so dass es nicht schwierig ist, sie zu lesen.

Zusammenfassung

――Wenn ich die Sätze von Karen Takizawas Instagram durch Sprachverarbeitung analysierte (Syntaxanalyse), stellte ich irgendwie fest, dass sie eine Satzstruktur hatten, die für Menschen schwer zu lesen war.

―― Ich denke jedoch, dass es viele andere Faktoren als die syntaktische Struktur bei der Lesbarkeit (Leseschwierigkeit) von Sätzen gibt. Obwohl es sich um eine syntaktisch akzeptierte Aussage handelt (kein Nicht-Satz), kann sie Aufschlüsselungen und Inkonsistenzen auf semantischer Ebene enthalten. Die Syntaxanalyse kann diese Fehlerstufe nicht erkennen.

――Warum ist es auf der Bedeutungsebene interessant? Oder macht es süchtig? Ich möchte es auch analysieren. Wie machst du das?

Dies ist der Code, den ich dieses Mal verwendet habe. https://gist.github.com/naoyu822/6703e3b22eb98230ab76596918c6779e

Recommended Posts

Ich habe versucht, die unverständlichen Sätze von Karen Takizawa sprachlich zu analysieren.
Ich habe Web Scraping versucht, um die Texte zu analysieren.
Qiita Job Ich habe versucht, den Job zu analysieren
Ich fing an zu analysieren
Ich habe versucht zu debuggen.
Ich habe versucht, PredNet zu lernen
Ich habe versucht, SVM zu organisieren.
Ich habe versucht, PCANet zu implementieren
Ich habe versucht, Linux wieder einzuführen
Ich habe versucht, Pylint vorzustellen
Ich habe versucht, SparseMatrix zusammenzufassen
jupyter ich habe es berührt
Ich habe versucht, StarGAN (1) zu implementieren.
Ich habe versucht, die Emotionen des gesamten Romans "Wetterkind" zu analysieren
Ich habe versucht, durch maschinelles Lernen Sätze in den XX-Stil umzuwandeln
Ich habe versucht, scRNA-seq-Daten mithilfe der topologischen Datenanalyse (TDA) zu analysieren.
Ich habe versucht, Deep VQE zu implementieren
Ich habe versucht, eine Quip-API zu erstellen
Ich habe versucht, Python zu berühren (Installation)
Ich habe versucht, Sätze mit summpy zusammenzufassen
Ich habe versucht, eine kontroverse Validierung zu implementieren
Ich habe versucht, Pytorchs Datensatz zu erklären
Ich habe versucht, meinen Lieblingssänger (SHISHAMO) mit der Spotify-API zu analysieren
Ich habe Watson Voice Authentication (Speech to Text) ausprobiert.
Ich habe Teslas API berührt
Ich habe versucht, mich über MCMC zu organisieren.
Ich habe versucht, Realness GAN zu implementieren
Ich habe versucht, den Ball zu bewegen
Ich habe versucht, den Abschnitt zu schätzen.
Ich habe versucht, Emotionen zu analysieren, ob Hinatazaka 46 wirklich eine "glückliche Aura" ist.
[Python] Ich habe versucht, den Pitcher zu analysieren, der keinen Treffer und keinen Lauf erzielt hat
Ich habe versucht, verschiedene Sätze mit der automatischen Zusammenfassungs-API "summpy" zusammenzufassen.
(Python) Ich habe versucht, 1 Million Hände zu analysieren ~ Ich habe versucht, die Anzahl der AA ~ zu schätzen
Ich habe versucht, die Beschleunigung von Python durch Cython zu verifizieren und zu analysieren
Ich habe versucht, die Negativität von Nono Morikubo zu analysieren. [Vergleiche mit Posipa]
Ich habe versucht, die Neujahrskarte selbst mit Python zu analysieren
Ich habe versucht, die Behandlung von Python-Ausnahmen zusammenzufassen
Ich habe versucht, PLSA in Python zu implementieren
Ich habe versucht, Azure Speech to Text zu verwenden.
Ich habe versucht, Autoencoder mit TensorFlow zu implementieren
Ich habe versucht, den Befehl umask zusammenzufassen
Ich habe versucht, Permutation in Python zu implementieren
Ich habe versucht, einen Linebot zu erstellen (Vorbereitung)
Ich habe versucht, AutoEncoder mit TensorFlow zu visualisieren
Ich versuchte das Weckwort zu erkennen
Ich habe versucht, mit Hy anzufangen
Ich habe versucht, PLSA in Python 2 zu implementieren
Python3-Standardeingabe habe ich versucht zusammenzufassen
Ich habe versucht, Text mit TensorFlow zu klassifizieren
Ich möchte Protokolle mit Python analysieren
Ich habe versucht, der CPython-Implementierung ein Post-Inkrement hinzuzufügen
Ich habe versucht, ADALINE in Python zu implementieren
Ich habe versucht, Optuna die Nummer lösen zu lassen
Ich habe versucht, das Umfangsverhältnis π probabilistisch abzuschätzen
Ich habe versucht, die COTOHA-API zu berühren
Ich habe versucht, PPO in Python zu implementieren
Ich habe versucht, CVAE mit PyTorch zu implementieren
Ich habe eine Web-API erstellt