Je voudrais d'abord montrer le résultat final. Les caractères représentatifs sont les membres sélectionnés lors de l'apprentissage du dispositif d'apprentissage, et les caractères positifs sont entourés d'un cadre rouge et les caractères négatifs sont entourés d'un cadre bleu (tous les autres membres sont vérifiés comme des données indépendantes). En fait, j'ai fait "** J'ai classé chaque membre hololive comme un caractère yin ou un caractère yang **". Pour plus de détails, veuillez vous référer aux chapitres suivants.
Quand je regardais la découpe de l'holo en direct sur youtube à l'époque de GW, j'ai trouvé quelque chose qui avait l'air intéressant. Récapitulatif de classification des membres Yin et Yang de Holo live qui commence soudainement à minuit
Cliquez ici pour la vidéo originale) [[#Holo Midnight Girls'Association] ♡ Dave Night Drink Chat Girls 'Association de GW ♡ [Kiryu Coco / Sakura Miko / Amane Kanata / Heitsuki Choco]](https://www.youtube.com/watch?v= HytCW6Yi8IM)
Il semble que cela ait été vérifié à l'association des filles de minuit de Hololive, et les personnages Yin et Yang des membres de Hololive ont été classés sous la forme ci-dessus. A ce moment, j'ai soudain pensé.
J'ai donc essayé de vérifier la classification des caractères Yin et Yang des membres Holo Live **.
** Les données utilisées sont les données textuelles du Twitter des membres **. Les données textuelles du tweet sont obtenues à l'aide de Tweepy. Sur la base des résultats de classification réellement effectués dans la distribution, nous avons sélectionné le représentant du caractère Yin et le représentant du caractère Yang sous la forme suivante et collecté des données de tweet. ** Cette fois, nous procéderons sur la prémisse des résultats présentés dans les résultats de classification Yin et Yang dans la livraison **.
Nous avons collecté 8000 tweets pour chaque membre dans la dernière commande (s'il est inférieur à cela, nous obtiendrons le montant maximum). De plus, parmi les données du tweet, les données relatives à RT et à la réponse ne sont pas acquises. Ainsi, ** seuls les tweets des personnes elles-mêmes ** sont acquis.
De plus, la structure de répertoire est construite et exécutée sur Google Colab sous la forme suivante.
Êtes-vous vraiment une idole ou une femme ... ** Les données du tweet contenaient beaucoup de lettres de visage, de pictogrammes et d'URL ** (crié quand j'ai vu les données). Donc, après avoir éliminé autant que possible dans le prétraitement, je fais le partage avec mecab (malheureusement, il reste de la sueur). De plus, ** les données d'entraînement et les données de test ont été divisées au hasard dans un rapport de 8: 2 **.
La méthode d'analyse était LSTM. Il est implémenté dans PyTorch et prend en charge les GPU et les lots parallèles.
Le nombre total de vocabulaire de mots divisé par mecab était de 17462. Si le texte contient des mots qui ne sont pas inclus dans ce vocabulaire pour les données de validation, une erreur se produira.
À la suite d'un entraînement avec 100 époques, la précision de la prédiction était de 76% dans les données de test. J'ai l'impression que c'est assez cher pour la quantité de données sur Twitter.
Le résultat de la perte par époque est le suivant.
Auparavant, nous avons clairement défini des représentants de caractères positifs et négatifs sur la distribution et dispensé une formation. Ensuite, les données de tweet des membres autres que les membres définis comme représentants sont classées comme données indépendantes sous forme de caractères yin ou de caractères positifs. J'ai vérifié ce qui se passerait si j'obtenais 8000 données de tweet de chaque membre par la même méthode et les analysais.
C'est une norme de classification du caractère Yin réel et du caractère Yin, mais ** Un dispositif d'apprentissage qui sépare les données de tweet de chaque membre sous forme de phrase pour chaque saut de ligne et indique si chaque phrase est une remarque de type Yin ou une remarque de type Yin Classez en utilisant **. Ensuite, toutes les données de texte de chaque membre sont classées, et ce qui suit est calculé comme un index pour classer dans quelle mesure la remarque est un caractère positif ou un caractère négatif.
Cependant, pour les phrases pour lesquelles le résultat de la classification n'a pas été retourné par l'apprenant, c'est-à-dire pour les mots qui n'ont pas été appris pendant la formation, le résultat n'est retourné pour aucun membre (pour le moment, pour plus de la moitié des données de la phrase). Le résultat de la classification est renvoyé)
À la suite d'une vérification avec des données indépendantes, c'est comme suit.
Voici les résultats réels tels que les indicateurs d'évaluation pour chaque membre. La sortie d'un caractère positif ou négatif est jugée selon si la valeur d'index est supérieure ou inférieure à 0,5.
#------------------------------
#Exemple de résultat de sortie
#hogehoge est ○
# (Valeur de l'indice de classification) (Le nombre total de phrases pour lesquelles le résultat de la classification a été renvoyé par l'apprenant) (Nombre de remarques positives sur les caractères) (Nombre total de données de phrase extraites pour chaque saut de ligne)
#------------------------------
Toki no Sora est un personnage positif
0.7045305318450427 3046 2146 4870
----------------------------
Hoshigai Suisei est une ombre
0.4129251700680272 2940 1214 4634
----------------------------
Yozora Mel est positive
0.5901213171577123 1154 681 1844
----------------------------
Fubuki Shirakami est un personnage positif
0.5638173302107728 1708 963 3570
----------------------------
Le festival des couleurs d'été est positif
0.5016304347826087 1840 923 2562
----------------------------
Himemori Luna est Yin et Yang
0.36826524570751923 1689 622 2306
----------------------------
Silver Noel est Yin et Yang
0.42934293429342935 3333 1431 4976
----------------------------
Akirose est un yin yang
0.470281124497992 2490 1171 4158
----------------------------
AZK est positif
0.862909090909091 2750 2373 2821
----------------------------
La poussée de Shiranui est positive
0.5693251533742332 1630 928 2525
----------------------------
Roboko est un personnage positif
0.5026868588177821 2047 1029 3153
----------------------------
Nekomata Okayu est un yin yang
0.41079199303742386 2298 944 3219
----------------------------
Kiryu Coco est un personnage positif
0.5164619164619164 2035 1051 2676
----------------------------
Towa est une ombre
0.41897720271102895 1623 680 2307
----------------------------
Akai est également positif
0.542777970211292 2887 1567 4144
----------------------------
Shisaki Zion est un yin yang
0.3823224468636599 3858 1475 4662
----------------------------
Hyakuki Ayame est un personnage positif
0.6027054108216433 1996 1203 2961
----------------------------
Treasure bell marine est un yin yang
0.40594059405940597 1515 615 2230
----------------------------
Junba Rushia est un yin yang
0.4146341463414634 861 357 1421
----------------------------
Cette fois, nous avons classé les caractères Yin et Yang en utilisant les données de tweet des membres Holo Live. Je pense qu'environ la moitié d'entre eux ont une forme similaire au résultat de la distribution, mais 7 ou 8 personnes ont été classées comme des personnages différents. Les causes possibles et les spéculations sont les suivantes. ・ ** Caractère Yin Il peut être influencé par le taux de collaboration et l'amitié plutôt que par le caractère positif ** (par exemple, membre de 3e génération. Personnellement, je pense que le capitaine Marin est un personnage positif) ・ ** La quantité de tweets est encore plus petite pour les nouveaux membres ** (en particulier, le nombre total de tweets pour les membres de 4e génération n'est que de 2000-3000, y compris RT, donc la quantité de données a un effet plus important que les autres membres) ・ ** Bien qu'il soit influencé par des caractères positifs et négatifs, il y a une forte possibilité qu'il y ait d'autres variables interdépendantes ** (élément geek, genre de jeu distribué, temps d'activité, etc.) ・ ** Le taux de remarque du caractère yin du représentant du caractère yin est élevé en premier lieu ...? ** (Sweat sans commentaire)
En outre, en tant qu'élément à effectuer pour la vérification des effets futurs, ・ ** Par exemple, introduisez de nouvelles étiquettes telles que "Geek / Non-Geek" ** ・ ** Obtenez les données de tweet de l'auditeur à partir des balises de hachage ainsi que de Twitter, et intégrez les discussions de l'auditeur sur youtube comme données d'entraînement ** ・ ** Je réessayerai après que le nombre de tweets des membres aura augmenté un peu plus ** ・ Effectuer correctement l'évaluation des performances (paresseux) Etc. ont été considérés.
Cette fois, nous avons vérifié le résultat de la classification sur la base des données de tweet du membre, en se référant aux résultats de classification yin et yang du membre que les membres hololive ont effectivement essayés lors de la distribution.
Dans l'analyse matérielle précédente, nous avons visualisé le réseau des acteurs de la voix, mais nous aimerions continuer à fournir diverses analyses matérielles, alors merci.
Cliquez ici pour l'analyse des matériaux précédente: Analyse du réseau des acteurs de la voix (à l'aide de word2vec et networkx) (1/2) Analyse du réseau des acteurs de la voix (à l'aide de word2vec et networkx) (2/2)
Recommended Posts