[Python] J'ai essayé de collecter des données en utilisant l'API de wikipedia

introduction

Je n'en avais pas besoin car il y a une grande quantité de données wikipedia localement, mais quand je voulais un peu de données, je suis tombé sur l'API wikipedia, donc c'est un record à ce moment-là.

environnement

OS utilisable (fonctionne sur Windows et Mac) ┗mac OS Catalina 10.15.7 ┗Widows 10 Python 3.8.3

Installation

Seulement ça. pip install wikipedia

Récupérez la partie récapitulative de wikipedia

Lorsque vous entrez un mot de recherche, il recherchera des articles liés à ce mot sans autorisation. ** mot de recherche python3 wikipedia_data.py ** Vous pouvez le faire avec. Le résultat de l'exécution, c'est-à-dire les données d'article de wikipdia sont enregistrées dans wikipedia.txt.

Si vous rencontrez un problème avec votre terme de recherche ** wikipedia.exceptions.DisambiguationError: "mot de recherche" peut faire référence à: ** Après la phrase, il proposera des candidats, donc une nouvelle recherche avec ce mot fonctionnera.

Dans de rares cas, une erreur longue peut se produire, mais en raison de la nature de l'API, il y a probablement une erreur de communication due à une certaine influence. Donc, si vous obtenez une erreur autre que celle ci-dessus, ignorez-la et réessayez pour réussir.

wikipedia_data.py


import sys
import wikipedia

#Définir la langue sur le japonais
wikipedia.set_lang("jp")
#Ouvrir un fichier texte
f = open('wikipedia.txt', 'a')

args = sys.argv
word = args[1]
#Rechercher à l'aide de mots de recherche
words = wikipedia.search(word)

if not words:
    print("Pas de correspondance")
else:
    #Obtenez un résumé si le mot recherché rencontre
    line = str(wikipedia.summary(words[0]))
    f.write(line.rstrip())
    print("success!")

f.write("\n" + "endline" + "\n")
f.close()

Comment utiliser l'API wikipedia

Tutoriel officiel en anglais ↓ https://wikipedia.readthedocs.io/en/latest/code.html

Il n'a pas bon goût en soi, alors j'ai brièvement extrait et résumé ce que je pense que je vais utiliser. (Je pense qu'il suffit de le savoir, mais il y a beaucoup de pièces cassées, donc si vous voulez le maîtriser, veuillez consulter le tutoriel vous-même)

méthode Présentation
wikipedia.search ("mot de recherche", résultats = 10) Renvoie une liste de 10 résultats de recherche maximum pour un mot recherché
wikipedia.summary ("mot de recherche", phrases = 0) Obtenir le résumé de l'article pour le mot recherché
wikipedia.page ("mot de recherche") Obtenir l'article entier pour le mot recherché sous forme d'objet
Si vous ajoutez .content à l'objet généré, vous pouvez obtenir l'article entier sous forme de données texte
# À la fin Merci pour votre travail acharné cette fois également. Vous pouvez facilement obtenir une grande quantité de données wikipedia, mais si vous ne voulez que quelques dizaines ou plus, cette méthode peut être bonne. Si quelqu'un sait comment le faire, faites-le moi savoir dans les commentaires. J'écris des articles à chaque fois, donc je ne sais pas quoi écrire ensuite, mais j'écrirai encore quelque chose. Eh bien.

Recommended Posts

[Python] J'ai essayé de collecter des données en utilisant l'API de wikipedia
J'ai essayé d'utiliser l'API de Sakenowa Data Project
J'ai essayé d'utiliser l'API checkio
J'ai essayé d'utiliser l'API BigQuery Storage
[Python] J'ai essayé d'obtenir diverses informations en utilisant l'API de données YouTube!
vprof - J'ai essayé d'utiliser le profileur pour Python
J'ai essayé d'utiliser le module Datetime de Python
J'ai essayé d'utiliser le filtre d'image d'OpenCV
J'ai essayé d'obtenir le code d'authentification de l'API Qiita avec Python.
J'ai essayé d'obtenir les informations sur le film de l'API TMDb avec Python
J'ai essayé de regrouper les données ECG en utilisant la méthode K-Shape
J'ai essayé d'utiliser Python (3) au lieu d'un calculateur de fonctions
J'ai essayé de frapper l'API avec le client python d'echonest
J'ai essayé de résumer les opérations de chaîne de Python
[Python] J'ai essayé de juger l'image du membre du groupe d'idols en utilisant Keras
J'ai essayé de trouver l'entropie de l'image avec python
J'ai essayé la "correction gamma" de l'image avec Python + OpenCV
J'ai essayé de rechercher des vidéos à l'aide de l'API de données Youtube (débutant)
J'ai essayé d'utiliser la bibliothèque Python de Ruby avec PyCall
Acquisition de données à l'aide de l'API googlemap de python
J'ai essayé le roman Naro API 2
J'ai essayé de notifier la mise à jour de "Devenir romancier" en utilisant "IFTTT" et "Devenir un romancier API"
J'ai essayé de refactoriser le modèle CNN de TensorFlow en utilisant TF-Slim
Python pratique 100 coups J'ai essayé de visualiser l'arbre de décision du chapitre 5 en utilisant graphviz
J'ai essayé la reconnaissance faciale du problème du rire en utilisant Keras.
J'ai essayé d'utiliser Thonny (Python / IDE)
Notes diverses sur l'utilisation de python pour les projets
J'ai essayé l'API du roman Naruro
[Pour les débutants] J'ai essayé d'utiliser l'API Tensorflow Object Detection
J'ai essayé d'automatiser la construction d'un environnement pratique à l'aide de l'API SoftLayer d'IBM Cloud
J'ai essayé d'obtenir l'index de la liste en utilisant la fonction énumérer
J'ai essayé d'utiliser Kwant, un module python pour le calcul du transport quantique
[Python] J'ai écrit la route du typhon sur la carte en utilisant le folium
J'ai essayé de créer une expression régulière de "montant" en utilisant Python
J'ai essayé de créer une expression régulière de "temps" en utilisant Python
J'ai essayé de créer une expression régulière de "date" en utilisant Python
J'ai essayé d'utiliser l'API COTOHA (il y a aussi du code sur GitHub)
J'ai essayé d'améliorer l'efficacité du travail quotidien avec Python
Essayez d'utiliser l'API Wunderlist en Python
J'ai essayé le serveur asynchrone de Django 3.0
Tweet à l'aide de l'API Twitter en Python
J'ai essayé d'utiliser l'optimisation bayésienne de Python
Je ne connaissais pas les bases de Python
Obtenez des données Youtube en Python à l'aide de l'API Youtube Data
J'ai essayé de toucher l'API COTOHA
Python: j'ai essayé le problème du voyageur de commerce
Le modèle de projet Python auquel je pense.
Créer une feuille de calcul Google à l'aide de l'API Python / Google Data
Connaissance de l'utilisation de l'API de données Aurora Severless
J'ai essayé le framework de test Python Tornado
J'ai essayé de vérifier l'identification du locuteur par l'API de reconnaissance du locuteur d'Azure Cognitive Services avec Python. # 1
J'ai essayé de vérifier l'identification du locuteur par l'API de reconnaissance du locuteur d'Azure Cognitive Services avec Python. # 2
J'ai essayé d'utiliser des données PDF de soins médicaux en ligne basés sur la propagation d'une nouvelle infection à coronavirus
J'ai essayé de transformer l'image du visage en utilisant sparse_image_warp de TensorFlow Addons
J'ai essayé d'obtenir les résultats de Hachinai en utilisant le traitement d'image