[PYTHON] Ich möchte sagen, dass es eine Datenvorverarbeitung gibt ~

Hallo, das ist Sunfish. Hast du einen Lieblings-YouTuber? Sind Sie besorgt über die Zunahme der Anzahl der Registranten? Wenn ja, schauen wir uns die Daten an.

Daten

Insgesamt 52 Kanäle

Wurde von YouTube API erworben und akkumuliert. ↓ Kanalinformationen スクリーンショット 2020-10-26 19.22.03.png ↓ Gepostete Videoinformationen スクリーンショット 2020-10-26 19.22.46.png

1-Strong-Format wird vorverarbeitet

スクリーンショット 2020-10-26 19.24.20.png Dies sind die Daten, die die Länge des Videos darstellen und im ISO-Standardformat vorliegen. Wenn Sie damit vertraut sind, werden Sie feststellen, dass ** "PT24M18S" -> 24 Minuten 18 Sekunden **. Videos von 1 Stunde oder mehr werden übrigens als ** "PT2H24M57S" ** geschrieben. Und ja, ich kann damit nicht so umgehen, wie es ist, also muss ich es in Sekunden oder Minuten machen, das heißt, einen numerischen Wert.

wird bearbeitet

In Analysis Tool nehan sind 4 Schritte erforderlich, um einen Bruch aus dieser Zeichenfolge zu erhalten. (Ich habe diesmal die Anzahl der Sekunden ignoriert) Die Idee ist, eine Reihe von Zahlen **, die mit ** M oder H enden, aus dem Format ** (Stunden) H (Minuten) M (Sekunden) S ** zu nehmen. スクリーンショット 2020-10-26 19.29.52.png

Der Punkt ist der Teil, der Minuten und Stunden mit ** Zeichenkette extrahieren ** extrahiert und mit den folgenden Einstellungen sehr einfach extrahiert werden kann. スクリーンショット 2020-10-26 19.36.00.png

Ich multiplizierte die Anzahl der Stunden mit 60 und gab sie auf Minuten zurück, und ich konnte die Gesamtzahl der Minuten ermitteln. スクリーンショット 2020-10-26 19.38.07.png Abhängig von der Sprache scheint dieses Format einfach zu handhaben zu sein, aber wenn Sie versuchen, es ohne Programmierung zu tun, wird es ziemlich schwierig.

Es gibt Vorverarbeitung 2 - Ich möchte nur die neuesten Daten

Da wir jeden Tag Kanalinformationen erhalten, werden natürlich die Daten desselben Kanals gesammelt. So können Sie ein Diagramm wie dieses erstellen. (Kanal: Hidetaka Kano [Offizieller Kanal] EIKO! GO !!) スクリーンショット 2020-10-26 19.44.13.png Wenn Sie jedoch viele Kanäle vergleichen möchten, benötigen Sie nur die neuesten Daten für jeden Kanal.

wird bearbeitet

Dies erfolgt in einem Schritt. Verwenden Sie ** Wählen Sie n Zeilen von Anfang / Ende ** aus. ↓ Sortieren Sie in absteigender Reihenfolge nach Datenerfassungsdatum und nehmen Sie die erste Zeile für jeden Kanalnamen (Titel). スクリーンショット 2020-10-26 19.47.33.png

So konnte ich mit den neuesten Daten ein solches Diagramm erstellen. スクリーンショット 2020-10-26 19.48.44.png

Es gibt Vorverarbeitung 3 - Viele Zeichen sind zusammengeklebt

Für den Kanal können mehrere Schlüsselwörter festgelegt werden, die durch Leerzeichen in den Daten getrennt gespeichert werden. スクリーンショット 2020-10-26 19.54.37.png Bei dieser Rate kann die Anzahl der Wörter nicht gezählt werden, daher ist es notwendig, jedes Wort zu trennen.

wird bearbeitet

Dies ist ebenfalls in einem Schritt erledigt. Verwenden Sie ** Split String **. ↓ Fügen Sie ein Leerzeichen in die Zeichenfolge des Teilungsstandards ein und aktivieren Sie die Option, um die geteilte Zeichenfolge vertikal zu halten. スクリーンショット 2020-10-26 19.58.31.png

Dann können Sie es in Wörter zerlegen und vertikal machen. スクリーンショット 2020-10-26 19.57.58.png Ich habe versucht, die Wörter zusammenzufassen, aber es scheint, dass es keine Wörter gibt, die vielen Kanälen gemeinsam sind. .. .. Da wir viele Daten zu Kochkanälen haben, haben wir die meisten Gerichte. スクリーンショット 2020-10-26 20.42.59.png

Zusammenfassung

Wie wäre es mit. War dort? Das Analysetool nehan ist ein Tool, das zur Erleichterung der Vorverarbeitung erstellt wurde. Ich hoffe, Sie können das Konzept so gut wie möglich vermitteln.

Recommended Posts

Ich möchte sagen, dass es eine Datenvorverarbeitung gibt ~
Ich möchte, dass CAPTCHA HIWAI-Wörter sagt
Wie auch immer, ich möchte JSON-Daten einfach überprüfen
Ich möchte 100 Datenwissenschaften mit Colaboratory schlagen
Datenvorverarbeitung (2) Ändern Sie die Daten von "Kategorisch" in "Numerisch".
Ich möchte die Daten von League of Legends ② erhalten
Ich möchte League of Legends-Daten erhalten ①
Ich möchte eine WEB-Anwendung mit den Daten von League of Legends ① erstellen
Eine Bibliothek für Datenwissenschaft "Ich möchte das tun" auf dem Jupyter Notebook
Ich möchte einem Pandas-Datenrahmen eine group_id geben
Ich möchte widerlegen "Das ist in Ruby nicht cool"
Ich möchte SUDOKU lösen
Ich möchte Daten mit Python analysieren können (Teil 3)
Ich möchte initialisieren, wenn der Wert leer ist (Python)
Ich möchte Daten mit Python analysieren können (Teil 1)
Ich möchte Daten mit Python analysieren können (Teil 4)
Ich möchte Daten mit Python analysieren können (Teil 2)
Ich habe versucht, SQLAlchemy kurz zusammenzufassen (es gibt auch TIPPS)
Ich möchte einen Platzhalter verwenden, den ich mit Python entfernen möchte
Ich möchte systemd grob verstehen
Wollen Sie nicht sagen, dass Sie ein Gesichtserkennungsprogramm erstellt haben?
Qiskit: Ich möchte eine Schaltung erstellen, die beliebige Zustände erzeugt! !!
Ich möchte japanische Bestandsdaten erfassen und auflisten, ohne sie zu kratzen
Ich möchte Bilder kratzen und trainieren
Ich möchte ○○ mit Pandas machen
Ich möchte mit Python debuggen
Ich möchte vertikal gehaltene Daten (langer Typ) in horizontal gehaltene Daten (breiter Typ) konvertieren.
Ich möchte eine Datei, die keine bestimmte Zeichenfolge ist, als logrotate Ziel angeben, aber ist es unmöglich?
Ich möchte wütend auf meine Mutter werden, wenn die Erinnerung knapp ist
Ich habe versucht, Deep Learning zu implementieren, das nicht nur mit NumPy tiefgreifend ist
"CSI", das ich Anfängern der interaktiven Konsolenanwendungsproduktion beibringen möchte
Ich habe Airbnb-Daten für diejenigen analysiert, die in Amsterdam bleiben möchten
Ich hatte das Gefühl, dass Mock for Object über Patch leichter zu erkennen ist.
Ich möchte Spyder an die Taskleiste anheften
Ich möchte Objekte mit OpenCV erkennen
SIGNATE Quest ① Vom Lesen der Daten bis zur Vorverarbeitung
Ich möchte kühl auf die Konsole ausgeben
Ich möchte sie alle zusammen kratzen.
Ich möchte mit dem Reim Teil1 umgehen
Ich möchte wissen, wie LINUX funktioniert!
Ich möchte einen Blog mit Jupyter Notebook schreiben
Ich möchte mit dem Reim part3 umgehen
Ich möchte ein Glas aus Python verwenden
Ich möchte eine Python-Umgebung erstellen
Ich möchte Linux auf dem Mac verwenden
Ich möchte eine Pip-Installation mit PythonAnywhere durchführen
Ich möchte mit aws mit Python spielen
Ich möchte IPython Qt Console verwenden
Ich möchte den Fortschrittsbalken anzeigen
Ich möchte ein Automatisierungsprogramm erstellen!
Ich möchte Matplotlib in PySimpleGUI einbetten
Ich möchte mit dem Reim part2 umgehen
Ich möchte Android-Apps auf Android entwickeln
Ich möchte mit dem Reim part5 umgehen
Ich möchte mit dem Reim part4 umgehen
Es gibt kein Telnet! Zu jener Zeit
Ich ging zu "Der Sommer ist in vollem Gange! Spark + Python + Data Science Festival".
Ich möchte den Pfad des Verzeichnisses abrufen, in dem die laufende Datei gespeichert ist.
Die Geschichte der IPv6-Adresse, die ich auf ein Minimum beschränken möchte
Ich möchte eine Prioritätswarteschlange erstellen, die mit Python (2.7) aktualisiert werden kann.