[Python] Ich habe versucht, Daten mit der API von Wikipedia zu sammeln

Einführung

Ich brauchte es nicht, weil es lokal eine große Menge an Wikipedia-Daten gibt, aber als ich ein wenig Daten wollte, bin ich auf die Wikipedia-API gestoßen, also ist es zu dieser Zeit ein Datensatz.

Umgebung

Betriebssystem (funktioniert sowohl unter Windows als auch unter Mac) ┗mac OS Catalina 10.15.7 ┗Widows 10 Python 3.8.3

Installation

Nur das. pip install wikipedia

Sammle den zusammenfassenden Teil von Wikipedia

Wenn Sie ein Suchwort eingeben, wird ohne Erlaubnis nach Artikeln gesucht, die sich auf dieses Wort beziehen. ** python3 wikipedia_data.py Suchwort ** Sie können es mit tun. Das Ausführungsergebnis, dh die Artikeldaten von wikipdia, werden in wikipedia.txt gespeichert.

Wenn Sie ein Problem mit Ihrem Suchbegriff haben ** wikipedia.exceptions.DisambiguationError: "Suchwort" kann sich beziehen auf: ** Nach dem Satz werden Kandidaten vorgeschlagen, sodass die erneute Suche mit diesem Wort funktioniert.

In seltenen Fällen kann ein langer Fehler auftreten, aber aufgrund der Art der API liegt wahrscheinlich ein Kommunikationsfehler aufgrund eines gewissen Einflusses vor. Wenn Sie also einen anderen als den oben genannten Fehler erhalten, ignorieren Sie ihn und versuchen Sie erneut, erfolgreich zu sein.

wikipedia_data.py


import sys
import wikipedia

#Stellen Sie die Sprache auf Japanisch ein
wikipedia.set_lang("jp")
#Textdatei öffnen
f = open('wikipedia.txt', 'a')

args = sys.argv
word = args[1]
#Suche mit Suchwörtern
words = wikipedia.search(word)

if not words:
    print("Keine Übereinstimmung")
else:
    #Holen Sie sich eine Zusammenfassung, wenn das Suchwort trifft
    line = str(wikipedia.summary(words[0]))
    f.write(line.rstrip())
    print("success!")

f.write("\n" + "endline" + "\n")
f.close()

Verwendung der Wikipedia-API

Offizielles Englisch-Tutorial ↓ https://wikipedia.readthedocs.io/en/latest/code.html

Es schmeckt alleine nicht gut, deshalb habe ich kurz extrahiert und zusammengefasst, was ich denke, dass ich verwenden werde. (Ich denke, es reicht aus, dies zu wissen, aber es gibt viele defekte Teile. Wenn Sie es also beherrschen möchten, lesen Sie bitte das Tutorial selbst.)

Methode Übersicht
wikipedia.search ("Suchwort", Ergebnisse = 10) Gibt eine Liste mit bis zu 10 Suchergebnissen für ein Suchwort zurück
wikipedia.summary ("Suchwort", Sätze = 0) Ruft die Artikelzusammenfassung für das Suchwort ab
wikipedia.page ("Suchwort") Den gesamten Artikel für das Suchwort als Objekt abrufen
Wenn Sie dem generierten Objekt .content hinzufügen, können Sie den gesamten Artikel als Textdaten abrufen
# Am Ende Vielen Dank auch für Ihre harte Arbeit. Sie können leicht eine große Menge an Wikipedia-Daten abrufen, aber wenn Sie nur ein paar Dutzend oder so möchten, ist diese Methode möglicherweise gut. Wenn jemand weiß, wie es geht, lass es mich in den Kommentaren wissen. Ich schreibe jedes Mal Artikel, daher weiß ich nicht, was ich als nächstes schreiben soll, aber ich werde wieder etwas schreiben. Na dann.

Recommended Posts

[Python] Ich habe versucht, Daten mit der API von Wikipedia zu sammeln
Ich habe versucht, die API von Sakenowa Data Project zu verwenden
Ich habe versucht, die checkio-API zu verwenden
Ich habe versucht, die BigQuery-Speicher-API zu verwenden
[Python] Ich habe versucht, mithilfe der YouTube-Daten-API verschiedene Informationen abzurufen!
vprof - Ich habe versucht, den Profiler für Python zu verwenden
Ich habe versucht, das Datetime-Modul von Python zu verwenden
Ich habe versucht, den Bildfilter von OpenCV zu verwenden
Ich habe versucht, den Authentifizierungscode der Qiita-API mit Python abzurufen.
Ich habe versucht, die Filminformationen der TMDb-API mit Python abzurufen
Ich habe versucht, EKG-Daten mit der K-Shape-Methode zu gruppieren
Ich habe versucht, Python (3) anstelle eines Funktionsrechners zu verwenden
Ich habe versucht, die API mit dem Python-Client von echonest zu erreichen
Ich habe versucht, die String-Operationen von Python zusammenzufassen
[Python] Ich habe versucht, das Mitgliederbild der Idolgruppe mithilfe von Keras zu beurteilen
Ich habe versucht, die Entropie des Bildes mit Python zu finden
Ich habe versucht, das Bild mit Python + OpenCV "gammakorrektur" zu machen
Ich habe versucht, Videos mit der Youtube Data API (Anfänger) zu suchen.
Ich habe versucht, die Python-Bibliothek von Ruby mit PyCall zu verwenden
Datenerfassung mit Python Googlemap API
Ich habe die Naro-Roman-API 2 ausprobiert
Ich habe versucht, das Update von "Werde ein Romanautor" mit "IFTTT" und "Werde ein Romanautor API" zu benachrichtigen.
Ich habe versucht, das CNN-Modell von TensorFlow mit TF-Slim umzugestalten
Python-Übung 100 Schläge Ich habe versucht, den Entscheidungsbaum von Kapitel 5 mit graphviz zu visualisieren
Ich habe versucht, das Lachproblem mit Keras zu erkennen.
Ich habe versucht, Thonny (Python / IDE) zu verwenden.
Verschiedene Hinweise zur Verwendung von Python für Projekte
Ich habe die neuartige API von Naruro ausprobiert
[Für Anfänger] Ich habe versucht, die Tensorflow-Objekterkennungs-API zu verwenden
Ich habe versucht, die Erstellung einer praktischen Umgebung mithilfe der SoftLayer-API der IBM Cloud zu automatisieren
Ich habe versucht, den Index der Liste mithilfe der Aufzählungsfunktion abzurufen
Ich habe versucht, Kwant zu verwenden, ein Python-Modul für die Quantentransportberechnung
[Python] Ich habe die Route des Taifuns mit Folium auf die Karte geschrieben
Ich habe versucht, mit Python einen regulären Ausdruck für "Betrag" zu erstellen
Ich habe versucht, mit Python einen regulären Ausdruck von "Zeit" zu erstellen
Ich habe versucht, mit Python einen regulären Ausdruck von "Datum" zu erstellen
Ich habe versucht, die COTOHA-API zu verwenden (es gibt auch Code auf GitHub).
Ich habe versucht, die Effizienz der täglichen Arbeit mit Python zu verbessern
Versuchen Sie es mit der Wunderlist-API in Python
Ich habe den asynchronen Server von Django 3.0 ausprobiert
Tweet mit der Twitter-API in Python
Ich habe versucht, die Bayes'sche Optimierung von Python zu verwenden
Ich kannte die Grundlagen von Python nicht
Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API
Ich habe versucht, die COTOHA-API zu berühren
Python: Ich habe das Problem des Handlungsreisenden ausprobiert
Die Python-Projektvorlage, an die ich denke.
Erstellen einer Google-Tabelle mit der Python / Google Data-API
Kenntnis der Verwendung der Aurora Severless Data API
Ich habe das Python Tornado Testing Framework ausprobiert
Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services mit Python zu überprüfen. # 1
Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services in Python zu überprüfen. # 2
Ich habe versucht, PDF-Daten der medizinischen Online-Versorgung zu verwenden, die auf der Ausbreitung einer neuen Coronavirus-Infektion basieren
Ich habe versucht, das Gesichtsbild mit sparse_image_warp von TensorFlow Addons zu transformieren
Ich habe versucht, die Trefferergebnisse von Hachinai mithilfe der Bildverarbeitung zu erhalten