Bonjour, c'est sunfish. En tant que premier message, j'ai essayé une série d'analyses de tweets liées à la corona. Je suis fatigué de Python, alors j'ai analysé les données avec nehan (Corona, est-ce que ce mot est maintenant?) J'en ai marre de Python, alors j'ai essayé d'analyser les données avec nehan (je veux aller vivre même avec la maladie de Corona - Partie 2) Je suis fatigué de Python, alors j'ai essayé d'analyser les données avec nehan (je veux aller vivre même avec le mal de Corona - Partie 1)
Cette fois, je voudrais conclure avec ** Comment collecter des données Twitter en premier lieu **. Bien sûr, en utilisant Analysis Tool nehan.
Utilisez Amazon S3 comme stockage pour le stockage.
Tout d'abord, vous devez demander l'utilisation de l'API Twitter. Si vous effectuez une recherche sur Google, il existe de nombreuses façons de le faire, je vais donc l'omettre. C'est juste un processus de candidature, mais c'est un peu difficile d'écrire diverses choses et de parler anglais en premier lieu.
nehan dispose de nombreux connecteurs pour capturer des données externes. Puisque Pilote Cdata est adopté, les données des services Web peuvent également être importées. Si vous sélectionnez Twitter et entrez les informations API acquises, vous pouvez acquérir des données de tweet avec une requête SQL.
Ajoutez des efforts aux données acquises et stockez-les dans Amazon S3. Ajoutez une colonne pour ajouter du temps de traitement afin que vous puissiez voir quand les données ont été acquises. C'est là que la fonction variable est utile. L'heure et la date d'exécution sont définies dynamiquement. Ensuite, si vous exportez enfin vers S3, l'accumulation est terminée. J'ai mis une variable dans le nom du fichier à exporter pour que je puisse connaître la date de traitement.
Puisqu'il n'est pas possible d'exécuter manuellement le processus ci-dessus chaque jour, définissez le paramètre de mise à jour automatique. Le flux de mise à jour des données de tweet et de stockage dans S3 est défini pour être automatiquement exécuté à 0h00 tous les jours. Parfois, l'API Twitter ne répond pas et je ne peux pas obtenir les données, donc cela échoue parfois. .. ..
Collectez les données quotidiennes accumulées dans Amazon S3 dans un lot et importez-les dans nehan. J'ai analysé les données capturées de cette manière.
Bien que cela me donne envie de collecter des données externes et de les voir en les multipliant par mes propres données, leur collecte peut être très gênante. Avec nehan, vous pouvez vous connecter directement à l'analyse ainsi qu'à la collecte. Bien sûr, aucune programmation requise. Pour les analystes qui en ont assez de collecter des données et d'écrire en Python, pourquoi ne pas vivre une vie analytique confortable avec nehan?
Recommended Posts