[PYTHON] J'ai essayé d'analyser linguistiquement les phrases incompréhensibles de Karen Takizawa.

Il semble que les toxicomanes apparaissent les uns après les autres dans le texte d'Instagram de Karen Takizawa. L'insta incompréhensible de Karen Takizawa wwwwwwwwwww

ss.jpg Source: https://www.instagram.com/takizawakarenofficial/

De quel genre de structure de phrase s'agit-il?

Quand j'ai lu le texte de Karen Takizawa, je pouvais le lire en japonais, mais le sens du texte ne m'est pas venu à l'esprit. Au début, je me suis demandé si c'était le résultat de l'apprentissage du corpus par apprentissage profond (système RNN ou quelque chose du genre) et de la génération de phrases.

Je pense qu'il y a plusieurs facteurs qui me font ressentir cela, mais pour découvrir à quel point la phrase est incompréhensible en termes de traitement linguistique, j'ai analysé la syntaxe de la phrase de Karen Takizawa et visualisé le résultat.

Méthode

-J'ai essayé l'analyse syntaxique en utilisant CaboCha. «L'expression«. »Est rarement utilisée dans le texte de Karen Takizawa, et des pictogrammes sont utilisés à la place de la phrase. Par conséquent, la phrase a été divisée en unités de phrase avec la séquence de pictogrammes comme coupures dans la phrase.

Cas 1

Déclaration d'entrée

*** Le lendemain de mon anniversaire, en me souvenant d'un an de 24 ans, j'étais un peu dérouté par le toucher du bâton à 25 ans, et quand je suis arrivé à Nosonoso sans les yeux clairs, je n'ouvrais pas. C'est ce dépliant qui m'est venu aux yeux ***

Résultats d'analyse

graph0.jpg

En regardant cet exemple, on peut voir que bien que la structure de la syntaxe soit compliquée, la dépendance elle-même peut être analysée presque correctement et a la structure de syntaxe correcte pour le japonais. Cependant, comme une phrase est longue et les dépendances sont souvent parallèles, il semble que les humains aient du mal à la comprendre.

Si vous suivez chaque nœud du graphique dans l'ordre d'apparition et lisez le texte, vous sentirez que la distance de déplacement dans le graphique est grande. En d'autres termes, lorsque vous suivez le sens d'une phrase de manière séquentielle dans votre tête, la distance de déplacement sur le graphe syntaxique est grande, elle consomme beaucoup de mémoire de travail dans le cerveau, et c'est difficile à comprendre (peut-être ... · · Je ne suis pas sûr).

Cas 2

Déclaration d'entrée

*** Quand je me retourne, je ne me rends pas compte qu'il y a beaucoup d'alliés et de gentilles personnes jusqu'à mon anniversaire, mais même si je m'inspire, chaque jour je me fais prendre comme un lac. C'était une matinée éblouissante à 25 ans où j'avais envie de quelqu'un qui n'était pas, calme et ne ressentait aucun son ***

Résultats d'analyse

graph0.jpg

C'est une complexité assez funky. Je ne pense pas que les humains puissent développer un tel arbre syntaxique dans le cerveau, et il ne peut pas être lu et compris séquentiellement. La phrase étant longue et la structure compliquée, il semble qu'une erreur d'analyse (?) Dans l'analyse syntaxique se soit également produite. N'est-ce pas difficile à comprendre, ce qui est comparable au texte d'un brevet?

Exemple d'analyse d'un article de presse

A titre de comparaison, je publierai les résultats de l'analyse syntaxique dans des phrases ordinaires.

Déclaration d'entrée

*** Sur les 47 préfectures et 20 villes désignées par le gouvernement du pays, il a été constaté que 70% des gouvernements locaux ne disposent pas de normes pour divulguer les noms des personnes disparues en cas de catastrophe. L'Asahi Shimbun a interrogé chaque gouvernement local conformément à l'application de la loi révisée sur la protection des renseignements personnels le 30. Il y avait aussi 5 gouvernements locaux qui ont répondu que leurs noms ne seraient pas annoncés *** Source: https://www.asahi.com/

Résultats d'analyse

graph0.jpg

Comme mentionné ci-dessus, dans le cas de phrases ordinaires (?) Qui sont éditées pour être faciles à lire, telles que des articles de presse, les phrases sont raisonnablement longues, mais le degré de parallélisme de la structure syntaxique est quelque peu faible, donc il n'est pas difficile à lire.

Résumé

Lorsque j'ai analysé (analyse syntaxique) les phrases d'Instagram de Karen Takizawa par traitement du langage, j'ai en quelque sorte trouvé qu'elles avaient une structure de phrase difficile à lire pour les humains.

«Cependant, je pense qu'il existe de nombreux facteurs autres que la structure syntaxique dans la lisibilité (difficulté de lecture) des phrases. Bien que ce soit une déclaration qui est syntaxiquement acceptée (pas une non-phrase), elle peut contenir des pannes et des incohérences au niveau sémantique. L'analyse de syntaxe ne peut pas détecter ce niveau d'échec.

――Pourquoi est-ce intéressant au niveau du sens? Ou est-ce une dépendance? Je veux aussi l'analyser. Comment faites-vous?

C'est le code que j'ai utilisé cette fois. https://gist.github.com/naoyu822/6703e3b22eb98230ab76596918c6779e

Recommended Posts

J'ai essayé d'analyser linguistiquement les phrases incompréhensibles de Karen Takizawa.
J'ai essayé Web Scraping pour analyser les paroles.
Qiita Job J'ai essayé d'analyser le travail
J'ai commencé à analyser
J'ai essayé de déboguer.
J'ai essayé d'apprendre PredNet
J'ai essayé d'organiser SVM.
J'ai essayé d'implémenter PCANet
J'ai essayé de réintroduire Linux
J'ai essayé de présenter Pylint
J'ai essayé de résumer SparseMatrix
jupyter je l'ai touché
J'ai essayé d'implémenter StarGAN (1)
J'ai essayé d'analyser les émotions de tout le roman "Weather Child" ☔️
J'ai essayé l'apprentissage automatique pour convertir des phrases en style XX
J'ai essayé d'analyser les données scRNA-seq en utilisant l'analyse des données topologiques (TDA)
J'ai essayé d'implémenter Deep VQE
J'ai essayé de créer l'API Quip
J'ai essayé de toucher Python (installation)
J'ai essayé de résumer des phrases avec summpy
J'ai essayé de mettre en place une validation contradictoire
J'ai essayé d'expliquer l'ensemble de données de Pytorch
J'ai essayé d'analyser mon chanteur préféré (SHISHAMO) en utilisant l'API Spotify
J'ai essayé l'authentification vocale Watson (Speech to Text)
J'ai touché l'API de Tesla
J'ai essayé de m'organiser à propos de MCMC.
J'ai essayé d'implémenter Realness GAN
J'ai essayé de déplacer le ballon
J'ai essayé d'estimer la section.
J'ai essayé d'analyser les émotions si Hinatazaka 46 est vraiment une "aura heureuse"
[Python] J'ai essayé d'analyser le lanceur qui n'a réussi aucun coup, aucune course
J'ai essayé de résumer diverses phrases à l'aide de l'API de synthèse automatique "summpy"
(Python) J'ai essayé d'analyser 1 million de mains ~ J'ai essayé d'estimer le nombre d'AA ~
J'ai essayé de vérifier et d'analyser l'accélération de Python par Cython
J'ai essayé d'analyser la négativité de Nono Morikubo. [Comparer avec Posipa]
J'ai essayé d'analyser la carte du Nouvel An par moi-même en utilisant python
J'ai essayé de résumer la gestion des exceptions Python
J'ai essayé d'implémenter PLSA en Python
J'ai essayé d'utiliser Azure Speech to Text.
J'ai essayé d'implémenter Autoencoder avec TensorFlow
J'ai essayé de résumer la commande umask
J'ai essayé d'implémenter la permutation en Python
J'ai essayé de créer un linebot (préparation)
J'ai essayé de visualiser AutoEncoder avec TensorFlow
J'ai essayé de reconnaître le mot de réveil
J'ai essayé de commencer avec Hy
J'ai essayé d'implémenter PLSA dans Python 2
Entrée standard Python3 que j'ai essayé de résumer
J'ai essayé de classer le texte en utilisant TensorFlow
Je veux analyser les journaux avec Python
J'ai essayé d'ajouter un post-incrément à l'implémentation CPython
J'ai essayé d'implémenter ADALINE en Python
J'ai essayé de laisser optuna résoudre le nombre
J'ai essayé d'estimer le rapport de circonférence π de manière probabiliste
J'ai essayé de toucher l'API COTOHA
J'ai essayé d'implémenter PPO en Python
J'ai essayé d'implémenter CVAE avec PyTorch
J'ai créé une API Web