([Ergänzung] Wie Sie im Kommentar sehen können, wurden in Zusammenarbeit mit gc373 die Problemdaten als JSON korrigiert.) Daten sind wichtig. Gute Daten bieten einen guten Wert für die Gesellschaft. Gute Daten sind nicht nur wichtig, um wertvolle Informationen zu haben, sondern auch, um einfach zu handhaben zu sein. Einfach zu handhaben bedeutet, dass Sie leicht auf die Daten zugreifen und diese lesen können. Es kann unangenehm sein, ein spezielles Softwareformat oder etwas Besonderes zu haben, das Menschen vor dem Lesen lesen müssen. SHIFT_JIS ist ebenfalls ein Problem.
Es kann jedoch nur mit den Daten etwas getan werden, und es sollte anerkannt werden, dass die Regierung begonnen hat, die Daten als offene Daten zu veröffentlichen. Es gibt jedoch nicht genügend Know-how darüber, welche Art von Daten veröffentlicht werden sollen.
Übrigens gibt es eine Website namens http://www.data.go.jp/, und es scheint, dass unzählige Daten abgerufen werden können. Ich bin sicher, dass es vergrabene Daten gibt, die unser Land verbessern können. In Erwartung ... berührte ich es für einen Moment. Vorläufig habe ich [Metadatenliste für Juli 2016] gesehen (http://www.data.go.jp/data/dataset/cas_20160704_0005), also habe ich mich gefragt, was geschrieben wurde. Also habe ich den JSON heruntergeladen.
import json
text = "".join(open("hoge.json").readlines())
data = json.loads(text)
Wenn Sie dies tun, können Sie es lesen. Es sollte sein. Aber es funktioniert nicht. Ich konnte nicht anders, also schaute ich mir die Akte an. Was ist es dann?
[{u'license_title': None, u'maintainer': None,・ ・ ・
JSON sind Daten, die dem Javascript-Format entsprechen. Es gibt jedoch keine in Javascript. Es gibt keine Grammatik wie u'hoge '. Ja, das ist nicht JSON.
Vielmehr wäre keiner Python. Es bestand der Verdacht, dass dies die Python-Daten ausgegeben haben könnte, ohne sie in json zu konvertieren. Also, ohne Rücksicht auf die Gefahr,
data = eval(text)
Als ich es versuchte, konnten die Daten ohne Fehler gelesen werden. Natürlich ist diese Methode sehr gefährlich. Wenn es schädliche Teile enthält, gibt es keine Klumpen. Es ist nicht in Ordnung, weil es Daten sind, die von der Regierung herausgegeben wurden, aber ich habe beschlossen, der Regierung die Schuld zu geben, wenn etwas passiert ist. Ein gutes Kind sollte nicht nachahmen. Tatsächlich hat die CPU-Auslastung 100% erreicht und 16 GB Speicher wurden verbraucht.
Speichern wir nun die gelesenen Daten dieses Mal in JSON.
with open("out.json", "w") as f:
f.write(json.dumps(data))
Sie haben es erfolgreich als json gespeichert. Ich bin glücklich.
Danach dachte ich, ich würde mich beschweren, dass die Daten selbst an der Meinungsrezeption falsch waren, aber als ich dem Link zur Meinungsrezeption folgte, stand dort "Es ist keine sichere Verbindung" und bat um Korrektur. Das kann ich nicht machen Also habe ich hier so etwas geschrieben.
Gibt es nicht irgendwo gute Daten ...
Recommended Posts