Sprachverarbeitung 100 Schläge 2015 ["Kapitel 3: Reguläre Ausdrücke"](http: //www.cl.ecei.tohoku) Dies ist der Datensatz von 20. "Lesen von JSON-Daten" von .ac.jp / nlp100 / # ch3). Es war eine Überprüfung dessen, was ich vor über einem Jahr getan habe, aber ich erinnerte mich kaum daran. Ich habe jedes Mal, wenn ich sie brauchte, reguläre Ausdrücke googelt, aber mir wurde klar, dass es für mich bedeutungslos wäre, wenn ich sie nicht zumindest in Artikeln ausgeben würde. Der 20. ist sehr einfach, eine JSON-Datei zu lesen, um sich auf eine Aufgabe mit regulären Ausdrücken vorzubereiten. Ich lade mit "Pandas", aber ich erkenne wieder die Bequemlichkeit von "Pandas".
Verknüpfung | Bemerkungen |
---|---|
020.JSON-Daten lesen.ipynb | Antwortprogramm GitHub Link |
100 Klicks Amateur-Sprachverarbeitung:20 | Kopieren Sie die Quelle vieler Quellteile und fügen Sie sie ein |
Lernen Sie die Grundlagen und Tipps der kanonischen Python-Ausdrücke von Grund auf neu | Ich habe organisiert, was ich in diesem Klopfen gelernt habe |
Regulärer Ausdruck HOWTO | Python offizieller regulärer Ausdruck How To |
re ---Operation mit regulären Ausdrücken | Python offizielle Re-Paketbeschreibung |
Art | Ausführung | Inhalt |
---|---|---|
OS | Ubuntu18.04.01 LTS | Es läuft virtuell |
pyenv | 1.2.15 | Ich benutze pyenv, weil ich manchmal mehrere Python-Umgebungen benutze |
Python | 3.6.9 | python3 auf pyenv.6.Ich benutze 9 3.7 oder 3.Es gibt keinen tiefen Grund, keine 8er-Serie zu verwenden Pakete werden mit venv verwaltet |
In der obigen Umgebung verwende ich die folgenden zusätzlichen Python-Pakete. Einfach mit normalem Pip installieren.
Art | Ausführung |
---|---|
pandas | 0.25.3 |
Verschiedene Informationen und Kenntnisse können extrahiert werden, indem reguläre Ausdrücke auf die Markup-Beschreibung auf der Wikipedia-Seite angewendet werden.
Reguläre Ausdrücke, JSON, Wikipedia, InfoBox, Webdienste
Eine Datei jawiki-country.json.gz, die Wikipedia-Artikel im folgenden Format exportiert Es gibt.
- Eine Artikelinformation pro Zeile wird im JSON-Format gespeichert
- In jeder Zeile wird der Artikelname im Schlüssel "title" und der Artikelkörper im Wörterbuchobjekt mit dem Schlüssel "text" gespeichert, und dieses Objekt wird im JSON-Format ausgeschrieben.
- Die gesamte Datei wird komprimiert
Erstellen Sie ein Programm, das die folgende Verarbeitung ausführt.
Lesen Sie die JSON-Datei des Wikipedia-Artikels und zeigen Sie den Artikeltext zu "UK" an. Führen Sie in den Problemen 21-29 den hier extrahierten Artikeltext aus.
from pprint import pprint
import pandas as pd
df_wiki = pd.read_json('./jawiki-country.json', lines=True)
pprint(df_wiki[(df_wiki['title'] == 'England')]['text'].values.item())
Die JSON-Datei wird von der Funktion "read_json" gelesen. Sie können das Format JSON-Zeilen laden, indem Sie True an den Parameter lines
übergeben.
df_wiki = pd.read_json('./jawiki-country.json', lines=True)
Der geladene DataFrame
sieht so aus. Der Ländername ist in "Titel" enthalten.
Das Ergebnis wird am Ende ausgegeben. Ich benutze die Funktion "pprint", weil ich eine Linie brechen wollte.
pprint(df_wiki[(df_wiki['title'] == 'England')]['text'].values.item())
Ausgabeergebnis
('{{redirect|UK}}\n'
'{{Grundlegende Informationen Land\n'
'|Kurzbezeichnung=England\n'
Unterlassung
'[[Category:Souveränes Land]]\n'
'[[Category:Inselstaat|Kureito Furiten]]\n'
'[[Category:Staat / Region gegründet 1801]]')