[PYTHON] Comment collecter les tweets de tweetid dès que possible (72000 tweets / heure)

Comment collecter les tweets de tweetid dès que possible (72000 tweets / heure)

environnement

MacOS, Linux python v3.4.3 PHP v2.5.0

Aperçu

La distribution des données est souvent tweetid, mais les explorations Twitter sont limitées et souvent fastidieuses à collecter. Cette fois, je vais vous montrer comment collecter les tweets de tweetid. Celui que j'utilise est celui qui reçoit 100 tweets officiellement annoncés par requête appelée GET statuses / lookup. (Je ne connais pas les détails)

L'exploration nécessite un compte Twitter

Comme beaucoup d'entre vous le savent peut-être, vous avez besoin d'un compte pour explorer Twitter. De plus, vous devez obtenir les quatre informations suivantes auprès des développeurs Twitter. L'explication roule ici, alors veuillez la récupérer vous-même.

Code et utilisation

Veuillez vous référer au script publié sur Github. Script d'exploration de Twitter

Utilisez Github si nécessaire

git clone https://github.com/ace12358/twitter/

Veuillez l'utiliser car vous pouvez préparer les scripts nécessaires dans. Voici un exemple d'utilisation du code dans le src / repository.

Ensuite, ajoutez les quatre informations que vous avez obtenues au script dans tweetid2json.php.

Une fois que c'est fait

php tweetid2json.php 418033807850496002

Si vous le faites, vous pouvez analyser au format json. ici

php tweetid2json.php 418033807850496002 | python json_reader3.4.3.py

alors

418033807850496002 Bonne année! La sortie est possible avec des délimiteurs de tabulation tels que. En passant, vous pouvez demander jusqu'à 100 tweetids tels que 418033807850496002, séparés par des virgules. Il existe un script shell qui résume ces

bash make_tweet.sh ../data/tweet_id_list.txt

Lit et explore une ligne (tweetid (s)) du fichier toutes les 6 secondes en exécutant. Toutes les 6 secondes, c'est parce qu'il n'atteint pas la limite.

C'est tout pour l'explication. Pour collecter le plus efficacement possible 100 tweetids concaténés avec ',' créent un fichier sur une ligne

bash make_tweet.sh ../data/tweet_id_list.txt

Ce serait bien de courir.

Il faut environ une journée pour collecter les données d'environ 1 million de tweets. Sur le serveur etc.

nohop bash make_tweet.sh ../data/tweet_id_list.txt > tweetid_tweet.txt &

Il est bon de le laisser tel quel. Si vous êtes pressé, vous pouvez créer plusieurs comptes et les traiter en parallèle.

Si l'appel à la fonction non définie curl_init () donne une erreur après l'installation de php

Les références

si tu as des problèmes

Veuillez contacter @ Ace12358. Je pense pouvoir vous répondre bientôt.

Recommended Posts

Comment collecter les tweets de tweetid dès que possible (72000 tweets / heure)
Comment rendre le sélénium aussi léger que possible
Étude de Python Hour7: Comment utiliser les classes
Comment résoudre l'erreur survenue dans toimage (à partir de PIL.Image import fromarray as toimage)
Comment obtenir un ingénieur de la trentaine
Comment utiliser SWIG de WAF
Comment collecter des images en Python
Comment lancer Explorer à partir de WSL
Comment accéder à wikipedia depuis python
Comment convertir .mgz en .nii.gz
Comment collecter des données d'apprentissage automatique
Dédié aux débutants! Comment apprendre la programmation avec le moins d'argent possible
Comment créer un clone depuis Github
Comment collecter des données Twitter sans programmation
Comment convertir facilement le format de Markdown
Comment mettre à jour Google Sheets à partir de Python
Comment installer CatBoost [à partir de janvier 2020]
[TF] Comment utiliser Tensorboard de Keras
Comment utiliser le multicœur du point de vue de plusieurs langues
Comment accéder à RDS depuis Lambda (python)
Comment faire fonctionner Linux depuis la console
Comment collecter des images de visage relativement facilement
Comment créer un référentiel à partir d'un média
Comment accéder à la banque de données de l'extérieur