[PYTHON] Comment collecter des données Twitter sans programmation

salutation

Bonjour, c'est sunfish. En tant que premier message, j'ai essayé une série d'analyses de tweets liées à la corona. Je suis fatigué de Python, alors j'ai analysé les données avec nehan (Corona, est-ce que ce mot est maintenant?) J'en ai marre de Python, alors j'ai essayé d'analyser les données avec nehan (je veux aller vivre même avec la maladie de Corona - Partie 2) Je suis fatigué de Python, alors j'ai essayé d'analyser les données avec nehan (je veux aller vivre même avec le mal de Corona - Partie 1)

Cette fois, je voudrais conclure avec ** Comment collecter des données Twitter en premier lieu **. Bien sûr, en utilisant Analysis Tool nehan.

Utilisez Amazon S3 comme stockage pour le stockage. tweet_data_flow.png

Demander l'utilisation de l'API

Tout d'abord, vous devez demander l'utilisation de l'API Twitter. Si vous effectuez une recherche sur Google, il existe de nombreuses façons de le faire, je vais donc l'omettre. C'est juste un processus de candidature, mais c'est un peu difficile d'écrire diverses choses et de parler anglais en premier lieu.

Frappez l'API Twitter

nehan dispose de nombreux connecteurs pour capturer des données externes. スクリーンショット 2020-10-19 15.38.46.png Puisque Pilote Cdata est adopté, les données des services Web peuvent également être importées. スクリーンショット 2020-10-19 15.38.55.png Si vous sélectionnez Twitter et entrez les informations API acquises, vous pouvez acquérir des données de tweet avec une requête SQL. twitter1.png

Accumuler les données de tweet acquises

Ajoutez des efforts aux données acquises et stockez-les dans Amazon S3. Ajoutez une colonne pour ajouter du temps de traitement afin que vous puissiez voir quand les données ont été acquises. スクリーンショット 2020-10-19 16.20.37.png C'est là que la fonction variable est utile. L'heure et la date d'exécution sont définies dynamiquement. スクリーンショット 2020-10-19 16.20.06.png Ensuite, si vous exportez enfin vers S3, l'accumulation est terminée. J'ai mis une variable dans le nom du fichier à exporter pour que je puisse connaître la date de traitement. スクリーンショット 2020-10-19 16.20.49.png

Traitez et accumulez des données chaque jour

Puisqu'il n'est pas possible d'exécuter manuellement le processus ci-dessus chaque jour, définissez le paramètre de mise à jour automatique. Le flux de mise à jour des données de tweet et de stockage dans S3 est défini pour être automatiquement exécuté à 0h00 tous les jours. スクリーンショット 2020-10-19 16.21.57.png Parfois, l'API Twitter ne répond pas et je ne peux pas obtenir les données, donc cela échoue parfois. .. .. スクリーンショット 2020-10-19 16.22.14.png

Acquérir et analyser à nouveau les données accumulées

Collectez les données quotidiennes accumulées dans Amazon S3 dans un lot et importez-les dans nehan. twitter3.png J'ai analysé les données capturées de cette manière.

Résumé

Bien que cela me donne envie de collecter des données externes et de les voir en les multipliant par mes propres données, leur collecte peut être très gênante. Avec nehan, vous pouvez vous connecter directement à l'analyse ainsi qu'à la collecte. Bien sûr, aucune programmation requise. Pour les analystes qui en ont assez de collecter des données et d'écrire en Python, pourquoi ne pas vivre une vie analytique confortable avec nehan?

Recommended Posts

Comment collecter des données Twitter sans programmation
Comment collecter des données d'apprentissage automatique
Comment gérer les trames de données
[Python] Comment FFT des données mp3
Comment lire les données de la sous-région e-Stat
Comment collecter des images en Python
Comment gérer les données déséquilibrées
Comment augmenter les données avec PyTorch
Comment collecter des images de visage relativement facilement
Comment utiliser "deque" pour les données Python
Comment gérer les données de séries chronologiques (mise en œuvre)
Comment lire les données de problème avec Paiza
Dédié aux débutants! Comment apprendre la programmation avec le moins d'argent possible
Comment créer des exemples de données CSV avec hypothèse
Comment profiter de la programmation avec Minecraft (Ruby, Python)
Comment supprimer le journal avec Docker, ne pas collecter le journal
[Django] Comment obtenir des données en spécifiant SQL.
[Python] Comment lire les données de CIFAR-10 et CIFAR-100
Comment récupérer des données de courses de chevaux avec Beautiful Soup
Comment utiliser les outils d'analyse de données pour les débutants
[Introduction à Python] Comment gérer les données au format JSON
Comment obtenir des données d'article à l'aide de l'API Qiita
Comment créer des données à mettre dans CNN (Chainer)
Comment lire les données de séries chronologiques dans PyTorch
Comment rechercher des données HTML à l'aide de Beautiful Soup
Nettoyage des données Comment gérer les valeurs manquantes et aberrantes
[Pour les débutants] Comment étudier la programmation Mémo privé
Comment appliquer des marqueurs uniquement à des données spécifiques avec matplotlib
[Pour les débutants] Comment étudier le test d'analyse de données Python3
Comment récupérer des données d'image de Flickr avec Python
Comment récupérer des données de courses de chevaux à l'aide de pandas read_html
Comment créer rapidement des exemples de données pour un tableau pendant le codage
Comment convertir des données détenues horizontalement en données détenues verticalement avec des pandas
Comment obtenir plus de 1000 données avec SQLAlchemy + MySQLdb
Comment extraire des données qui ne manquent pas de valeur nan avec des pandas
Comment effectuer un apprentissage avec SageMaker sans délai d'expiration de session
Essayez de diviser les données Twitter en SPAM et HAM
J'ai réfléchi à la façon d'apprendre la programmation gratuitement.
Comment profiter de Python sur Android !! Programmation en déplacement !!
Comment extraire des données qui ne manquent pas de valeur nan avec des pandas
Comment utiliser xml.etree.ElementTree
Comment utiliser virtualenv
Grattage 2 Comment gratter
Comment utiliser Seaboan
Comment utiliser la correspondance d'image
Comment utiliser le shogun
Comment installer Python
Comment utiliser Pandas 2
Comment lire PyPI
Comment installer pip
Comment utiliser Virtualenv
Comment utiliser numpy.vectorize
Comment mettre à jour easy_install
Comment installer Archlinux
Comment utiliser pytest_report_header
Comment redémarrer gunicorn
Comment installer python
Comment héberger virtuel
Comment déboguer le sélénium
Comment utiliser partiel