[PYTHON] Ich habe versucht, die Yin- und Yang-Klassifikation hololiver Mitglieder durch maschinelles Lernen zu überprüfen

Überblick

Ich möchte zuerst das Endergebnis zeigen. Die repräsentativen Zeichen sind die Mitglieder, die während des Trainings des Lerngeräts ausgewählt wurden, und die positiven Zeichen sind von einem roten Rahmen und die negativen Zeichen von einem blauen Rahmen umgeben (alle anderen Mitglieder werden als unabhängige Daten verifiziert). Was ich tatsächlich getan habe war "** Ich habe jedes hololive Mitglied als Yin-Charakter oder Yang-Charakter klassifiziert **". Einzelheiten finden Sie in den folgenden Kapiteln.

結果.png

Der Grund für den Start der Analyse

Bist du ein Yin Yang? Oder ist es positiv?

Als ich mir zur Zeit von GW den Ausschnitt des Holos live auf Youtube ansah, fand ich etwas, das interessant aussah. Holo Live-Mitglied Yin und Yang Klassifizierungsübersicht, die plötzlich um Mitternacht beginnt

Klicken Sie hier für das Originalvideo) [[#Holo Midnight Girls'Association] ♡ GWs Dubbing Evening Drink Chat Mädchenverband ♡ [Kiryu Coco / Sakura Miko / Amane Kanata / Heitsuki Choco]](https://www.youtube.com/watch?v= HytCW6Yi8IM)

9a82f8e7-s.jpg

Es scheint, dass es bei der Mitternachtsmädchenvereinigung von Hololive verifiziert wurde und die Yin- und Yang-Charaktere von Hololive-Mitgliedern in der obigen Form klassifiziert wurden. Zu dieser Zeit dachte ich plötzlich.

Kann es daher mit maschinellem Lernen gut reproduziert werden?

Also habe ich tatsächlich versucht, die Klassifizierung von Yin- und Yang-Charakteren von Holo Live-Mitgliedern zu überprüfen **.

Nutzungsdaten

** Die verwendeten Daten sind die Textdaten des Twitter der Mitglieder **. Die Textdaten des Tweets werden mit Tweepy abgerufen. Basierend auf den tatsächlich in der Verteilung durchgeführten Klassifizierungsergebnissen haben wir den Yin-Zeichenrepräsentanten und den Yang-Zeichenrepräsentanten in der folgenden Form ausgewählt und Tweet-Daten gesammelt. ** Dieses Mal gehen wir von den Ergebnissen aus, die in der Yin- und Yang-Klassifizierung für die Verteilung angegeben sind **.

Wir haben 8000 Tweet-Daten für jedes Mitglied in der letzten Bestellung gesammelt (wenn es weniger ist, erhalten wir den Höchstbetrag). Von den Tweet-Daten werden auch keine Daten in Bezug auf RT und Antwort erfasst. Es werden also nur die Tweets der Menschen selbst erfasst.

Darüber hinaus wird die Verzeichnisstruktur in der folgenden Form in Google Colab erstellt und ausgeführt.

図1.png

Analytische Methode

Vorverarbeitung

Bist du wirklich ein Idol oder eine Frau ... ** Die Tweet-Daten enthielten viele Gesichtsbuchstaben, Piktogramme und URLs ** (schrie, als ich die Daten sah). Nachdem ich so viel wie möglich in der Vorbehandlung eliminiert habe, teile ich es mit Mecab (leider etwas Schweiß). Außerdem wurden ** Trainingsdaten und Testdaten im Verhältnis 8: 2 ** zufällig aufgeteilt.

Spezifizierte Analysemethode

Die Analysemethode war LSTM. Es ist in PyTorch implementiert und unterstützt parallele GPUs und Batches.

Die Gesamtzahl der durch Mecab geteilten Vokabeln betrug 17462. Wenn der Text Wörter enthält, die nicht in diesem Vokabular für die Validierungsdaten enthalten sind, tritt ein Fehler auf.

Trainingsergebnisse

Als Ergebnis des Trainings mit 100 Epochen betrug die Vorhersagegenauigkeit in den Testdaten 76%. Ich habe den Eindruck, dass es für die Datenmenge auf Twitter ziemlich teuer ist.

Das Ergebnis des Verlusts pro Epoche ist wie folgt.

スクリーンショット 2020-05-12 17.02.13.png

Validiert mit unabhängigen Daten

Sind die anderen Mitglieder Yin Charaktere? Positiver Charakter?

スクリーンショット 2020-05-04 21.33.16.png

Zuvor haben wir eindeutig Vertreter positiver und negativer Charaktere für die Verteilung festgelegt und Schulungen durchgeführt. Als nächstes werden die Tweet-Daten der anderen Mitglieder als der als Vertreter festgelegten Mitglieder als unabhängige Daten als Yin-Zeichen oder positive Zeichen klassifiziert. Ich habe überprüft, was passieren würde, wenn ich 8000 Tweet-Daten jedes Mitglieds mit derselben Methode erfassen und analysieren würde.

Es ist ein Klassifizierungsstandard für das tatsächliche Yin-Zeichen und das Yin-Zeichen, aber ** Ein Lerngerät, das die Tweet-Daten jedes Mitglieds als Satz für jeden Zeilenumbruch trennt und trainiert, ob es sich um eine Yin-Zeichen-ähnliche Bemerkung oder eine Yin-Zeichen-ähnliche Bemerkung für jeden Satz handelt Klassifizieren Sie mit **. Dann werden alle Textdaten jedes Mitglieds klassifiziert, und das Folgende wird als Index berechnet, um zu klassifizieren, inwieweit die Bemerkung ein positives oder ein negatives Zeichen ist.

Klassifizierungsindex = (Anzahl der positiven Zeichen) / (Anzahl der positiven Zeichen + Anzahl der negativen Zeichen)

Für Sätze, für die das Klassifizierungsergebnis vom Lernenden nicht zurückgegeben wurde, dh für Wörter, die während des Trainings nicht gelernt wurden, wird das Ergebnis jedoch für kein Mitglied zurückgegeben (vorerst für mehr als die Hälfte der Satzdaten). Das Klassifizierungsergebnis wird zurückgegeben.

Endergebnis

Als Ergebnis der Überprüfung mit unabhängigen Daten ist dies wie folgt.

結果.png

Nachfolgend sind die tatsächlichen Ergebnisse wie Bewertungsindikatoren für jedes Mitglied aufgeführt. Die Ausgabe eines positiven oder negativen Zeichens wird danach beurteilt, ob der Indexwert größer oder kleiner als 0,5 ist.

#------------------------------
#Beispiel für das Ausgabeergebnis
#hogehoge ist ○
# (Klassifizierungsindexwert) (Die Gesamtzahl der Sätze, für die das Klassifizierungsergebnis vom Lernenden zurückgegeben wurde) (Anzahl der positiven Zeichenbemerkungen) (Gesamtzahl der für jeden Zeilenumbruch extrahierten Satzdaten)
#------------------------------

Toki no Sora ist ein positiver Charakter
0.7045305318450427 3046 2146 4870
----------------------------
Hoshigai Suisei ist ein Schatten
0.4129251700680272 2940 1214 4634
----------------------------
Yozora Mel ist positiv
0.5901213171577123 1154 681 1844
----------------------------
Fubuki Shirakami ist ein positiver Charakter
0.5638173302107728 1708 963 3570
----------------------------
Das Sommerfarbenfest ist positiv
0.5016304347826087 1840 923 2562
----------------------------
Himemori Luna ist Yin und Yang
0.36826524570751923 1689 622 2306
----------------------------
Silver Noel ist Yin und Yang
0.42934293429342935 3333 1431 4976
----------------------------
Akirose ist ein Yin Yang
0.470281124497992 2490 1171 4158
----------------------------
AZK ist positiv
0.862909090909091 2750 2373 2821
----------------------------
Shiranui Flare ist positiv
0.5693251533742332 1630 928 2525
----------------------------
Roboko ist ein positiver Charakter
0.5026868588177821 2047 1029 3153
----------------------------
Nekomata Okayu ist ein Yin Yang
0.41079199303742386 2298 944 3219
----------------------------
Kiryu Coco ist ein positiver Charakter
0.5164619164619164 2035 1051 2676
----------------------------
Towa ist ein Schatten
0.41897720271102895 1623 680 2307
----------------------------
Akai ist auch positiv
0.542777970211292 2887 1567 4144
----------------------------
Shisaki Zion ist ein Yin Yang
0.3823224468636599 3858 1475 4662
----------------------------
Hyakuki Ayame ist ein positiver Charakter
0.6027054108216433 1996 1203 2961
----------------------------
Treasure Bell Marine ist ein Yin Yang
0.40594059405940597 1515 615 2230
----------------------------
Junba Rushia ist ein Yin Yang
0.4146341463414634 861 357 1421
----------------------------

Dieses Mal haben wir Yin- und Yang-Charaktere anhand der Tweet-Daten von Holo Live-Mitgliedern klassifiziert. Ich denke, ungefähr die Hälfte von ihnen hat eine ähnliche Form wie das Ergebnis der Verteilung, aber 7 oder 8 Personen wurden als verschiedene Charaktere klassifiziert. Die möglichen Ursachen und Spekulationen sind wie folgt. ・ ** Yin-Charakter Es kann eher von der Kollaborationsrate und der Freundschaft als vom positiven Charakter beeinflusst werden ** (Zum Beispiel Mitglied der 3. Generation. Ich persönlich denke, Captain Marin ist ein positiver Charakter) ・ ** Die Anzahl der Tweets ist für neue Mitglieder immer noch geringer ** (Insbesondere beträgt die Gesamtmenge der Tweets für Mitglieder der 4. Generation nur 2000-3000 einschließlich RT, sodass die Datenmenge einen größeren Effekt hat als bei anderen Mitgliedern). ・ ** Obwohl es von positiven und negativen Charakteren beeinflusst wird, besteht eine hohe Wahrscheinlichkeit, dass es einige andere miteinander verbundene Variablen gibt ** (Geek-Element, Genre des verteilten Spiels, Aktivitätszeit usw.) ・ ** Die Yin-Zeichen-Bemerkungsrate des Yin-Zeichen-Vertreters ist an erster Stelle hoch ...? ** (Schweiß ohne Kommentar)

Als ein Element, das für die zukünftige Überprüfung der Wirkung ausgeführt werden soll, ・ ** Führen Sie beispielsweise neue Labels wie „Geek / Non-Geek“ ein ** ・ ** Holen Sie sich Listener-Tweet-Daten von Hash-Tags sowie von Twitter und integrieren Sie Listener-Chats auf Youtube als Trainingsdaten ** ・ ** Ich werde es erneut versuchen, nachdem die Anzahl der Tweets der Mitglieder etwas mehr gestiegen ist ** ・ Führen Sie die Leistungsbewertung ordnungsgemäß durch ... (faul) Usw. wurden berücksichtigt.

Zusammenfassung

Dieses Mal haben wir das Klassifizierungsergebnis anhand der Tweet-Daten des Mitglieds überprüft und dabei auf die Yin- und Yang-Klassifizierungsergebnisse des Mitglieds verwiesen, die die hololiven Mitglieder tatsächlich während der Verteilung ausprobiert haben.

In der vorherigen Materialanalyse haben wir das Netzwerk der Sprachschauspieler visualisiert, möchten aber weiterhin verschiedene Materialanalysen bereitstellen. Vielen Dank.

Klicken Sie hier für die vorherige Materialanalyse: Netzwerkanalyse für Sprachschauspieler (unter Verwendung von word2vec und networkx) (1/2) Netzwerkanalyse für Sprachschauspieler (unter Verwendung von word2vec und networkx) (2/2)

Recommended Posts

Ich habe versucht, die Yin- und Yang-Klassifikation hololiver Mitglieder durch maschinelles Lernen zu überprüfen
Ich habe versucht, die Beschleunigung von Python durch Cython zu verifizieren und zu analysieren
Ich habe versucht, das Vorhandensein oder Nichtvorhandensein von Schnee durch maschinelles Lernen vorherzusagen.
[Maschinelles Lernen] Ich habe versucht, die Theorie von Adaboost zusammenzufassen
Ich habe versucht, das Ergebnis des A / B-Tests mit dem Chi-Quadrat-Test zu überprüfen
Ich habe versucht, die Veränderung der Schneemenge für 2 Jahre durch maschinelles Lernen vorherzusagen
Ich habe versucht, das Bild zu verarbeiten und zu transformieren und die Daten für maschinelles Lernen zu erweitern
Ich habe versucht, das Bild mithilfe von maschinellem Lernen zu komprimieren
[Keras] Ich habe versucht, das Problem der Klassifizierung des Donut-Typ-Bereichs durch maschinelles Lernen zu lösen. [Studie]
Versuchen Sie, die Leistung des Modells für maschinelles Lernen / Klassifizierung zu bewerten
Ich habe versucht, die Genauigkeit von Modellen für maschinelles Lernen mit Kaggle als Thema zu vergleichen.
Ich habe versucht, Othello AI mit Tensorflow zu machen, ohne die Theorie des maschinellen Lernens zu verstehen ~ Einführung ~
[Qiita API] [Statistik • Maschinelles Lernen] Ich habe versucht, die bisher veröffentlichten Artikel zusammenzufassen und zu analysieren.
Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services mit Python zu überprüfen. # 1
Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services in Python zu überprüfen. # 2
Ich habe versucht, Othello AI mit Tensorflow zu erstellen, ohne die Theorie des maschinellen Lernens zu verstehen ~ Implementierung ~
Ich habe versucht, das Bild durch Klicken mit der rechten und linken Maustaste in den angegebenen Ordner zu verschieben
Ich habe versucht, die Altersgruppe und die Ratenverteilung von Atcoder zu visualisieren
Ich habe versucht, die Vorhersage-API des maschinellen Lernmodells von WordPress aus aufzurufen
Ich habe versucht, die optimale Route des Traumlandes durch (Quanten-) Tempern zu finden
Ich habe versucht, die Phase der Geschichte mit COTOHA zu extrahieren und zu veranschaulichen
Ich habe versucht, das Modell mit der Low-Code-Bibliothek für maschinelles Lernen "PyCaret" zu visualisieren.
[Linux] Ich habe versucht, die sichere Bestätigungsmethode von FQDN (CentOS7) zu überprüfen.
Ich habe versucht, Oba Hanana und Otani Emiri durch tiefes Lernen zu klassifizieren
Ich habe die übliche Geschichte ausprobiert, Deep Learning zu verwenden, um den Nikkei-Durchschnitt vorherzusagen
Ich habe versucht, Othello AI mit Tensorflow zu erstellen, ohne die Theorie des maschinellen Lernens zu verstehen ~ Battle Edition ~
Klassifizierung von Gitarrenbildern durch maschinelles Lernen Teil 1
Klassifizierung von Gitarrenbildern durch maschinelles Lernen Teil 2
Ich habe versucht, die Texte von Hinatazaka 46 zu vektorisieren!
Ich habe versucht, das Update von "Hameln" mit "Beautiful Soup" und "IFTTT" zu benachrichtigen.
Ich habe versucht, die beim maschinellen Lernen verwendeten Bewertungsindizes zu organisieren (Regressionsmodell).
Ich habe versucht, die Daten des Laptops durch Booten unter Ubuntu zu retten
Ich habe versucht, den G-Test und die E-Qualifikation durch Training ab 50 zu bestehen
Ich habe versucht, Hanana Oba und Emiri Otani durch tiefes Lernen zu klassifizieren (Teil 2)
Ich habe versucht, die Genauigkeit der japanischen BERT- und der japanischen Distil-BERT-Satzklassifizierung mit PyTorch & Einführung der BERT-Technik zur Verbesserung der Genauigkeit zu vergleichen
Ich habe versucht, die Lernfunktion im neuronalen Netzwerk sorgfältig zu verstehen, ohne die Bibliothek für maschinelles Lernen zu verwenden (erste Hälfte).
Ich habe versucht, maschinelles Lernen (Objekterkennung) mit TouchDesigner zu verschieben
Ich habe versucht, die Grundform von GPLVM zusammenzufassen
Ich habe versucht, die Spacha-Informationen von VTuber zu visualisieren
Ich habe versucht, den negativen Teil von Meros zu löschen
Ich habe die einfachste Methode zur Klassifizierung von Dokumenten mit mehreren Etiketten ausprobiert
Ich habe versucht, die Stimmen der Sprecher zu klassifizieren
Ich habe versucht, die String-Operationen von Python zusammenzufassen
Ich habe versucht, das Update von "Werde ein Romanautor" mit "IFTTT" und "Werde ein Romanautor API" zu benachrichtigen.
Ich habe "Lobe" ausprobiert, mit dem das von Microsoft veröffentlichte Modell des maschinellen Lernens problemlos trainiert werden kann.
Ich habe versucht, das Artikel-Update des Livedoor-Blogs mit Python und Selen zu automatisieren.
Ich habe versucht, die Verarbeitungsgeschwindigkeit mit dplyr von R und pandas von Python zu vergleichen
Ich habe versucht, die Entropie des Bildes mit Python zu finden
[Pferderennen] Ich habe versucht, die Stärke des Rennpferdes zu quantifizieren
Ich habe versucht, die Standortinformationen des Odakyu-Busses zu erhalten
Ich habe versucht, zum Zeitpunkt der Bereitstellung mit Fabric und ChatWork Api automatisch in ChatWork zu posten
Versuchen Sie, die Leistung des Modells für maschinelles Lernen / Regression zu bewerten
Ich habe versucht, mit TensorFlow den Durchschnitt mehrerer Spalten zu ermitteln
Ich habe versucht, die Erkennung von Anomalien durch spärliches Strukturlernen zu implementieren
[Pokemon-Schwertschild] Ich habe versucht, die Urteilsgrundlage des tiefen Lernens anhand der Drei-Familien-Klassifikation als Beispiel zu visualisieren
Ich habe versucht, die Anzahl der Todesfälle pro Kopf von COVID-19 (neues Koronavirus) nach Ländern zu tabellieren
Ich habe versucht, es sorgfältig zu verstehen, während ich den Algorithmus Adaboost beim maschinellen Lernen implementiert habe (+ ich habe mein Verständnis der Array-Berechnung vertieft)