[PYTHON] 100 natürliche Sprachverarbeitung klopft Kapitel 3 Reguläre Ausdrücke (erste Hälfte)

Eine Aufzeichnung zur Lösung der Probleme in der ersten Hälfte von Kapitel 3. Wie Sie auf der Webseite sehen können, lautet die Zieldatei jawiki-country.json, eine Erweiterung von jawiki-country.json.gz.

Es gibt eine Datei jawiki-country.json.gz, die Wikipedia-Artikel im folgenden Format exportiert. Informationen zu einem Artikel pro Zeile werden im JSON-Format gespeichert In jeder Zeile wird der Artikelname im Schlüssel "title" und der Artikelkörper im Wörterbuchobjekt mit dem Schlüssel "text" gespeichert, und dieses Objekt wird im JSON-Format ausgeschrieben. Die gesamte Datei wird komprimiert Erstellen Sie ein Programm, das die folgende Verarbeitung ausführt.

[PYTHON] 100 natürliche Sprachverarbeitung klopft Kapitel 3 Reguläre Ausdrücke (erste Hälfte)

</ i> 20. Lesen von JSON-Daten

</ i> 21. Extrahieren Sie Zeilen mit Kategorienamen

</ i> 22. Extraktion des Kategorienamens

</ i> 23. Abschnittsstruktur

</ i> 24. Extrahieren von Dateiverweisen