[PYTHON] Je veux dire qu'il y a un prétraitement des données ~

Bonjour, c'est sunfish. Avez-vous un YouTuber préféré? Êtes-vous préoccupé par l'augmentation du nombre d'inscrits? Si tel est le cas, examinons les données.

Les données

52 chaînes au total

A été acquis par l'API YouTube et accumulé. ↓ Informations sur la chaîne スクリーンショット 2020-10-26 19.22.03.png ↓ Informations vidéo publiées スクリーンショット 2020-10-26 19.22.46.png

Il y a une habitude de pré-traitement de format 1-Strong

スクリーンショット 2020-10-26 19.24.20.png Ce sont les données qui représentent la longueur de la vidéo et sont au format standard ISO. Si vous le connaissez, vous remarquerez que ** "PT24M18S" -> 24 minutes 18 secondes **. À propos, les vidéos d'une heure ou plus sont écrites comme ** "PT2H24M57S" **. Et oui, je ne peux pas le gérer tel quel, donc je dois le transformer en secondes ou en minutes, c'est-à-dire une valeur numérique.

En traitement

Dans Analysis Tool nehan, il faut 4 étapes pour obtenir une fraction de cette chaîne. (J'ai ignoré le nombre de secondes cette fois) L'idée est de prendre une série de nombres ** se terminant par ** M ou H du format ** (heures) H (minutes) M (secondes) S **. スクリーンショット 2020-10-26 19.29.52.png

Le point est la partie qui extrait les minutes et les heures avec ** Extraire la chaîne de caractères **, et elle peut être extraite très facilement avec les paramètres suivants. スクリーンショット 2020-10-26 19.36.00.png

J'ai multiplié le nombre d'heures par 60 et je l'ai retourné en minutes, et j'ai pu obtenir le nombre total de minutes. スクリーンショット 2020-10-26 19.38.07.png Selon la langue, ce format semble être facile à gérer, mais si vous essayez de le faire sans programmation, ce sera assez difficile.

Il y a un prétraitement 2 - je ne veux que les dernières données

Étant donné que nous obtenons des informations sur le canal tous les jours, naturellement, les données du même canal seront accumulées. Vous pouvez donc créer un graphique comme celui-ci. (Chaîne: Hidetaka Kano [Chaîne officielle] EIKO! GO !!) スクリーンショット 2020-10-26 19.44.13.png Cependant, si vous souhaitez comparer de nombreux canaux, vous n'avez besoin que des dernières données pour chaque canal.

En traitement

Cela se fait en une seule étape. Utilisez ** Sélectionnez n lignes à partir du début / de la fin **. ↓ Triez par ordre décroissant de date d'acquisition des données et prenez la première ligne pour chaque nom de canal (Titre). スクリーンショット 2020-10-26 19.47.33.png

J'ai donc pu faire un tel graphique avec les dernières données. スクリーンショット 2020-10-26 19.48.44.png

Il y a un prétraitement 3 - De nombreux personnages sont collés ensemble

Plusieurs mots-clés peuvent être définis pour le canal et ils sont stockés séparés par des espaces dans les données. スクリーンショット 2020-10-26 19.54.37.png À ce rythme, le nombre de mots ne peut pas être compté, il est donc nécessaire de séparer chaque mot.

En traitement

Ceci est également réalisé en une seule étape. Utilisez ** Split String **. ↓ Mettez un espace dans la chaîne de caractères de la norme de division et cochez l'option permettant de maintenir la chaîne de caractères divisée verticalement. スクリーンショット 2020-10-26 19.58.31.png

Ensuite, vous pouvez le décomposer en mots et le rendre vertical. スクリーンショット 2020-10-26 19.57.58.png J'ai essayé d'agréger les mots, mais il semble qu'il n'y ait pas de mots communs à de nombreuses chaînes. .. .. Puisque nous avons beaucoup de données sur les canaux de cuisson, nous avons le plus de plats. スクリーンショット 2020-10-26 20.42.59.png

Sommaire

Que diriez-vous. Était là? L'outil d'analyse nehan est un outil créé pour faciliter le prétraitement. J'espère que vous pourrez transmettre le concept autant que possible.

Recommended Posts

Je veux dire qu'il y a un prétraitement des données ~
Je veux que CAPTCHA dise des mots HIWAI
Quoi qu'il en soit, je veux vérifier facilement les données JSON
Je veux frapper 100 sciences des données avec Colaboratory
Prétraitement des données (2) Changez les données de catégorielles à numériques.
Je veux obtenir les données de League of Legends ②
Je veux obtenir les données de League of Legends ①
Je souhaite créer une application WEB en utilisant les données de League of Legends ①
Une bibliothèque pour la science des données "Je veux faire ça" sur le bloc-notes Jupyter
Je veux donner un group_id à une trame de données pandas
Je veux réfuter "Ce n'est pas cool en Ruby"
Je veux résoudre SUDOKU
Je veux pouvoir analyser des données avec Python (partie 3)
Je veux initialiser si la valeur est vide (python)
Je veux pouvoir analyser des données avec Python (partie 1)
Je veux pouvoir analyser des données avec Python (partie 4)
Je veux pouvoir analyser des données avec Python (partie 2)
J'ai essayé de résumer brièvement SQLAlchemy (il y a aussi des CONSEILS)
Je souhaite utiliser un caractère générique que je souhaite décortiquer avec Python remove
Je veux comprendre à peu près systemd
Vous ne voulez pas dire que vous avez créé un programme de reconnaissance faciale?
Qiskit: Je veux créer un circuit qui crée des états arbitraires! !!
Je souhaite acquérir et répertorier les données boursières japonaises sans grattage
Je veux gratter des images et les former
Je veux faire ○○ avec les Pandas
Je veux déboguer avec Python
Je souhaite convertir des données détenues verticalement (type long) en données détenues horizontalement (type large)
Je souhaite spécifier un fichier qui n'est pas une certaine chaîne de caractères comme cible logrotate, mais est-ce impossible?
Je veux me mettre en colère contre ma mère quand la mémoire est serrée
J'ai essayé de mettre en œuvre un apprentissage en profondeur qui n'est pas profond avec uniquement NumPy
"CSI" que je souhaite enseigner aux débutants en production d'applications pour console interactive
J'ai analysé les données Airbnb pour ceux qui veulent rester à Amsterdam
J'ai senti que la simulation d'objet était plus facile à voir via un patch.
Je veux épingler Spyder à la barre des tâches
Je veux détecter des objets avec OpenCV
SIGNATURE Quête ① De la lecture des données au prétraitement
Je veux sortir froidement sur la console
Je veux les gratter tous ensemble.
Je veux gérer la rime part1
Je veux savoir comment fonctionne LINUX!
Je veux écrire un blog avec Jupyter Notebook
Je veux gérer la rime part3
Je veux utiliser jar de python
Je veux créer un environnement Python
Je veux utiliser Linux sur mac
Je veux installer Python avec PythonAnywhere
Je veux jouer avec aws avec python
Je souhaite utiliser la console IPython Qt
Je veux afficher la barre de progression
Je veux faire un programme d'automatisation!
Je veux intégrer Matplotlib dans PySimpleGUI
Je veux gérer la rime part2
Je souhaite développer des applications Android sur Android
Je veux gérer la rime part5
Je veux gérer la rime part4
Il n'y a pas de telnet! À ce moment-là
Je suis allé à "L'été bat son plein! Spark + Python + Data Science Festival".
Je veux obtenir le chemin du répertoire où le fichier en cours d'exécution est stocké.
L'histoire de l'adresse IPv6 que je souhaite conserver au minimum
Je souhaite créer une file d'attente prioritaire pouvant être mise à jour avec Python (2.7)