Ich möchte zuerst das Endergebnis zeigen. Die repräsentativen Zeichen sind die Mitglieder, die während des Trainings des Lerngeräts ausgewählt wurden, und die positiven Zeichen sind von einem roten Rahmen und die negativen Zeichen von einem blauen Rahmen umgeben (alle anderen Mitglieder werden als unabhängige Daten verifiziert). Was ich tatsächlich getan habe war "** Ich habe jedes hololive Mitglied als Yin-Charakter oder Yang-Charakter klassifiziert **". Einzelheiten finden Sie in den folgenden Kapiteln.
Als ich mir zur Zeit von GW den Ausschnitt des Holos live auf Youtube ansah, fand ich etwas, das interessant aussah. Holo Live-Mitglied Yin und Yang Klassifizierungsübersicht, die plötzlich um Mitternacht beginnt
Klicken Sie hier für das Originalvideo) [[#Holo Midnight Girls'Association] ♡ GWs Dubbing Evening Drink Chat Mädchenverband ♡ [Kiryu Coco / Sakura Miko / Amane Kanata / Heitsuki Choco]](https://www.youtube.com/watch?v= HytCW6Yi8IM)
Es scheint, dass es bei der Mitternachtsmädchenvereinigung von Hololive verifiziert wurde und die Yin- und Yang-Charaktere von Hololive-Mitgliedern in der obigen Form klassifiziert wurden. Zu dieser Zeit dachte ich plötzlich.
Also habe ich tatsächlich versucht, die Klassifizierung von Yin- und Yang-Charakteren von Holo Live-Mitgliedern zu überprüfen **.
** Die verwendeten Daten sind die Textdaten des Twitter der Mitglieder **. Die Textdaten des Tweets werden mit Tweepy abgerufen. Basierend auf den tatsächlich in der Verteilung durchgeführten Klassifizierungsergebnissen haben wir den Yin-Zeichenrepräsentanten und den Yang-Zeichenrepräsentanten in der folgenden Form ausgewählt und Tweet-Daten gesammelt. ** Dieses Mal gehen wir von den Ergebnissen aus, die in der Yin- und Yang-Klassifizierung für die Verteilung angegeben sind **.
Wir haben 8000 Tweet-Daten für jedes Mitglied in der letzten Bestellung gesammelt (wenn es weniger ist, erhalten wir den Höchstbetrag). Von den Tweet-Daten werden auch keine Daten in Bezug auf RT und Antwort erfasst. Es werden also nur die Tweets der Menschen selbst erfasst.
Darüber hinaus wird die Verzeichnisstruktur in der folgenden Form in Google Colab erstellt und ausgeführt.
Bist du wirklich ein Idol oder eine Frau ... ** Die Tweet-Daten enthielten viele Gesichtsbuchstaben, Piktogramme und URLs ** (schrie, als ich die Daten sah). Nachdem ich so viel wie möglich in der Vorbehandlung eliminiert habe, teile ich es mit Mecab (leider etwas Schweiß). Außerdem wurden ** Trainingsdaten und Testdaten im Verhältnis 8: 2 ** zufällig aufgeteilt.
Die Analysemethode war LSTM. Es ist in PyTorch implementiert und unterstützt parallele GPUs und Batches.
Die Gesamtzahl der durch Mecab geteilten Vokabeln betrug 17462. Wenn der Text Wörter enthält, die nicht in diesem Vokabular für die Validierungsdaten enthalten sind, tritt ein Fehler auf.
Als Ergebnis des Trainings mit 100 Epochen betrug die Vorhersagegenauigkeit in den Testdaten 76%. Ich habe den Eindruck, dass es für die Datenmenge auf Twitter ziemlich teuer ist.
Das Ergebnis des Verlusts pro Epoche ist wie folgt.
Zuvor haben wir eindeutig Vertreter positiver und negativer Charaktere für die Verteilung festgelegt und Schulungen durchgeführt. Als nächstes werden die Tweet-Daten der anderen Mitglieder als der als Vertreter festgelegten Mitglieder als unabhängige Daten als Yin-Zeichen oder positive Zeichen klassifiziert. Ich habe überprüft, was passieren würde, wenn ich 8000 Tweet-Daten jedes Mitglieds mit derselben Methode erfassen und analysieren würde.
Es ist ein Klassifizierungsstandard für das tatsächliche Yin-Zeichen und das Yin-Zeichen, aber ** Ein Lerngerät, das die Tweet-Daten jedes Mitglieds als Satz für jeden Zeilenumbruch trennt und trainiert, ob es sich um eine Yin-Zeichen-ähnliche Bemerkung oder eine Yin-Zeichen-ähnliche Bemerkung für jeden Satz handelt Klassifizieren Sie mit **. Dann werden alle Textdaten jedes Mitglieds klassifiziert, und das Folgende wird als Index berechnet, um zu klassifizieren, inwieweit die Bemerkung ein positives oder ein negatives Zeichen ist.
Für Sätze, für die das Klassifizierungsergebnis vom Lernenden nicht zurückgegeben wurde, dh für Wörter, die während des Trainings nicht gelernt wurden, wird das Ergebnis jedoch für kein Mitglied zurückgegeben (vorerst für mehr als die Hälfte der Satzdaten). Das Klassifizierungsergebnis wird zurückgegeben.
Als Ergebnis der Überprüfung mit unabhängigen Daten ist dies wie folgt.
Nachfolgend sind die tatsächlichen Ergebnisse wie Bewertungsindikatoren für jedes Mitglied aufgeführt. Die Ausgabe eines positiven oder negativen Zeichens wird danach beurteilt, ob der Indexwert größer oder kleiner als 0,5 ist.
#------------------------------
#Beispiel für das Ausgabeergebnis
#hogehoge ist ○
# (Klassifizierungsindexwert) (Die Gesamtzahl der Sätze, für die das Klassifizierungsergebnis vom Lernenden zurückgegeben wurde) (Anzahl der positiven Zeichenbemerkungen) (Gesamtzahl der für jeden Zeilenumbruch extrahierten Satzdaten)
#------------------------------
Toki no Sora ist ein positiver Charakter
0.7045305318450427 3046 2146 4870
----------------------------
Hoshigai Suisei ist ein Schatten
0.4129251700680272 2940 1214 4634
----------------------------
Yozora Mel ist positiv
0.5901213171577123 1154 681 1844
----------------------------
Fubuki Shirakami ist ein positiver Charakter
0.5638173302107728 1708 963 3570
----------------------------
Das Sommerfarbenfest ist positiv
0.5016304347826087 1840 923 2562
----------------------------
Himemori Luna ist Yin und Yang
0.36826524570751923 1689 622 2306
----------------------------
Silver Noel ist Yin und Yang
0.42934293429342935 3333 1431 4976
----------------------------
Akirose ist ein Yin Yang
0.470281124497992 2490 1171 4158
----------------------------
AZK ist positiv
0.862909090909091 2750 2373 2821
----------------------------
Shiranui Flare ist positiv
0.5693251533742332 1630 928 2525
----------------------------
Roboko ist ein positiver Charakter
0.5026868588177821 2047 1029 3153
----------------------------
Nekomata Okayu ist ein Yin Yang
0.41079199303742386 2298 944 3219
----------------------------
Kiryu Coco ist ein positiver Charakter
0.5164619164619164 2035 1051 2676
----------------------------
Towa ist ein Schatten
0.41897720271102895 1623 680 2307
----------------------------
Akai ist auch positiv
0.542777970211292 2887 1567 4144
----------------------------
Shisaki Zion ist ein Yin Yang
0.3823224468636599 3858 1475 4662
----------------------------
Hyakuki Ayame ist ein positiver Charakter
0.6027054108216433 1996 1203 2961
----------------------------
Treasure Bell Marine ist ein Yin Yang
0.40594059405940597 1515 615 2230
----------------------------
Junba Rushia ist ein Yin Yang
0.4146341463414634 861 357 1421
----------------------------
Dieses Mal haben wir Yin- und Yang-Charaktere anhand der Tweet-Daten von Holo Live-Mitgliedern klassifiziert. Ich denke, ungefähr die Hälfte von ihnen hat eine ähnliche Form wie das Ergebnis der Verteilung, aber 7 oder 8 Personen wurden als verschiedene Charaktere klassifiziert. Die möglichen Ursachen und Spekulationen sind wie folgt. ・ ** Yin-Charakter Es kann eher von der Kollaborationsrate und der Freundschaft als vom positiven Charakter beeinflusst werden ** (Zum Beispiel Mitglied der 3. Generation. Ich persönlich denke, Captain Marin ist ein positiver Charakter) ・ ** Die Anzahl der Tweets ist für neue Mitglieder immer noch geringer ** (Insbesondere beträgt die Gesamtmenge der Tweets für Mitglieder der 4. Generation nur 2000-3000 einschließlich RT, sodass die Datenmenge einen größeren Effekt hat als bei anderen Mitgliedern). ・ ** Obwohl es von positiven und negativen Charakteren beeinflusst wird, besteht eine hohe Wahrscheinlichkeit, dass es einige andere miteinander verbundene Variablen gibt ** (Geek-Element, Genre des verteilten Spiels, Aktivitätszeit usw.) ・ ** Die Yin-Zeichen-Bemerkungsrate des Yin-Zeichen-Vertreters ist an erster Stelle hoch ...? ** (Schweiß ohne Kommentar)
Als ein Element, das für die zukünftige Überprüfung der Wirkung ausgeführt werden soll, ・ ** Führen Sie beispielsweise neue Labels wie „Geek / Non-Geek“ ein ** ・ ** Holen Sie sich Listener-Tweet-Daten von Hash-Tags sowie von Twitter und integrieren Sie Listener-Chats auf Youtube als Trainingsdaten ** ・ ** Ich werde es erneut versuchen, nachdem die Anzahl der Tweets der Mitglieder etwas mehr gestiegen ist ** ・ Führen Sie die Leistungsbewertung ordnungsgemäß durch ... (faul) Usw. wurden berücksichtigt.
Dieses Mal haben wir das Klassifizierungsergebnis anhand der Tweet-Daten des Mitglieds überprüft und dabei auf die Yin- und Yang-Klassifizierungsergebnisse des Mitglieds verwiesen, die die hololiven Mitglieder tatsächlich während der Verteilung ausprobiert haben.
In der vorherigen Materialanalyse haben wir das Netzwerk der Sprachschauspieler visualisiert, möchten aber weiterhin verschiedene Materialanalysen bereitstellen. Vielen Dank.
Klicken Sie hier für die vorherige Materialanalyse: Netzwerkanalyse für Sprachschauspieler (unter Verwendung von word2vec und networkx) (1/2) Netzwerkanalyse für Sprachschauspieler (unter Verwendung von word2vec und networkx) (2/2)
Recommended Posts