[PYTHON] [Notes] ① Obtenez et enregistrez des tweets ~ Je veux identifier les tweets d'actualité qui seront diffusés ~

Environnement de développement

Windows10 Anaconda3 ( jupyter notebook )

Description et objectif

Un mémorandum de thèse de fin d'études d'un étudiant universitaire Le thème est de créer un discriminateur entre ce qui se propage et ce qui ne se propage pas dans les tweets d'actualité. Cette fois, j'écris sur le fait d'y intégrer un Tweet.

Conditions préalables

・ Développeur Tweet certifié ・ Tweepy installé

référence

https://qiita.com/i_am_miko/items/a2e5168e619ed37afeb9

Recevez des tweets

Le compte à obtenir est @livedoornews. La raison en est qu'il excelle dans le nombre d'adeptes et la sensibilité de ces adeptes (s'il faut améliorer RT).

`get_newstweet.ipynb`


#Importer les bibliothèques requises
import tweepy
import pandas as pd

`get_newstweet.ipynb`



#Paramètres de clé du consommateur et de jeton d'accès pour l'utilisation de l'API Twitter
Consumer_key = "API key"
Consumer_secret = "API secret Key"
Access_token = "Access token"
Access_secret = "Access token secret"

#Authentification
auth = tweepy.OAuthHandler(Consumer_key,Consumer_secret)
auth.set_access_token(Access_token, Access_secret)
api = tweepy.API(auth)

`get_newstweet.ipynb`


#Spécifiez le nom du compte
acount = "@livedoornews"
"""
Contenu de l'acquisition: numéro du Tweet, heure, texte du tweet, nombre de likes, nombre de RT
"""
def get_tweets(acount):
    tweet_data = [] #Liste vide pour stocker les données à récupérer
    for tweet in tweepy.Cursor(api.user_timeline,screen_name = acount,exclude_replies = True).items():
        tweet_data.append([tweet.id,tweet.created_at,tweet.text.replace('\n',''),tweet.favorite_count,tweet.retweet_count])
        df = pd.DataFrame(tweet_data,columns=['tweet_no', 'time', 'text', 'favorite_count', 'RT_count']) #Stocké dans pandas DataFrame
    return df

df = get_tweets(acount)

Sauvegarder les tweets récupérés (csv)

Si vous souhaitez continuer à prendre des tweets avec la fonction ci-dessus, vous devez en enregistrer davantage. Par conséquent, j'ai créé deux méthodes de sauvegarde, l'une pour une nouvelle sauvegarde et l'autre pour une économie supplémentaire.

Tout d'abord, enregistrez le nouveau

`get_newstweet.ipynb`


#Enregistrer nouveau
file_name = "../data/tweet_{}.csv".format(acount)
df.to_csv(file_name, index=False) #l'index n'est souvent pas nécessaire

Deuxièmement, écraser enregistrer

`get_newstweet.ipynb`


#écraser enregistrer
file_name = "../data/tweet_{}.csv".format(acount)
pre_df = pd.read_csv(file_name) #Charger le csv précédent
df = pd.concat([df, pre_df])
df = df.drop_duplicates(subset=['tweet_no']) #Supprimer les doublons avec Tweet No.(Laissez les nouvelles données)
df.to_csv(file_name, index=False)

Résumé et contenu suivant

C'est tout pour obtenir et enregistrer des tweets. Je pense qu'il existe une meilleure façon d'enregistrer de nouveaux ou de les écraser. La prochaine fois, je voudrais supprimer RT et URL.

Recommended Posts

[Notes] ① Obtenez et enregistrez des tweets ~ Je veux identifier les tweets d'actualité qui seront diffusés ~

Je veux visualiser où et combien de personnes se trouvent dans l'usine

Je veux obtenir le nom du fichier, le numéro de ligne et le nom de la fonction dans Python 3.4

Je veux obtenir des informations sur le fonctionnement de Yahoo Route

Je souhaite mapper le code EDINET et le numéro de valeur

Keras Je veux obtenir la sortie de n'importe quelle couche !!

Je veux obtenir des informations de fstab à la destination de la connexion ssh et exécuter la commande

Je veux obtenir le nom de la fonction / méthode en cours d'exécution

Je souhaite enregistrer l'heure d'exécution et conserver un journal.

[Pour les débutants] Je veux obtenir l'index d'un élément qui satisfait une certaine expression conditionnelle

Mémorandum Expression régulière Lorsqu'il y a plusieurs caractères que vous souhaitez séparer dans la chaîne de caractères