――Ich fasse den Übergang der Anzahl der Downloads und der Anzahl der positiven Registrierungen des Kontaktbestätigungsantrags (COCOA) in einer Grafik zusammen. Ich besuchte die offizielle Website jeden Tag gegen 18:00 Uhr, schrieb die Daten in Google Sheet und erstellte ein Diagramm. ―― Da diese Zeit und Mühe jedoch schwierig geworden sind, habe ich mich gefragt, ob es möglich ist, einfache Aufgaben zu automatisieren. ――Die vom Ministerium für Gesundheit, Arbeit und Soziales veröffentlichten Informationen sind ein Bild des Textes, und ich dachte, wenn diese Daten automatisch analysiert werden könnten, wäre es möglich, das Ganze zu automatisieren, also habe ich es als Test gemacht.
COCOA-Sonderstandort des Ministeriums für Gesundheit, Arbeit und Soziales (Stand 8/11)
――Da die veröffentlichten Informationen nicht als Textdaten veröffentlicht werden, war es erforderlich, ein Bild zu erfassen und eine Zeichenerkennung (OCR) durchzuführen. Daher wurden "GCP Cloud Vision" und "** Tesseract **" als Kandidaten für OCR-Tools aufgeführt.
――Dieses Mal wurde gesagt, dass Tesseract mithilfe der PyOCR-Bibliothek in Python problemlos verwendet werden kann. Daher werden wir dies übernehmen und die Erkennungsgenauigkeit überprüfen. In Zukunft möchte ich versuchen, CloudVision zu verwenden und die Genauigkeit der Zeichenerkennung auf beiden Seiten zu berücksichtigen.
--Scraping-Funktion --OCR-Funktion
Open Source-Software, die auf einer Vielzahl von Betriebssystemen ausgeführt wird und unter der Apache License 2.0 vertrieben wird. Es verfügt über eine Bibliothek zur Zeichenerkennung und eine Befehlszeilenschnittstelle, die diese verwendet. Ab Version 4.0 wird zusätzlich zur herkömmlichen Erkennungs-Engine eine Erkennungs-Engine installiert, die ein LSTM-basiertes neuronales Netzwerk verwendet. Entwickler: Google
Die Kontaktbestätigungs-App ist derzeit "1" für iOS und Android..1.2 "ist verteilt.
Wenn Sie eine ältere Version von Appli verwenden, rufen Sie den App Store oder Google Play auf
Bitte suchen Sie nach "genehmigte App" und aktualisieren Sie.
Die Anzahl der Downloads ist der 7. August, 17:Ab 00 insgesamt ca. 1.Es gibt 2,05 Millionen Fälle.
・ Dies ist die Gesamtzahl von iOS und Android.
・ Wenn Sie es nach dem Herunterladen löschen und erneut herunterladen, wird es mehrmals gezählt.
Es gibt ein Streichholz.
Die Anzahl der positiven Registrierungen ist der 7. August, 17:Ab 00 gibt es insgesamt 165 Fälle.
Der einzige typografische Fehler besteht darin, dass die "App" in der zweiten Zeile als "Appuri" erkannt wird. Daher wurde festgestellt, dass es kein Problem gibt, Daten über die Anzahl der Downloads und die Anzahl der positiven Registrierungen beim Extrahieren von Daten zu extrahieren. Wir haben die OCR-Verarbeitung auf mehreren Blättern durchgeführt, aber sie war ziemlich stabil und die Datenextraktion wurde genau durchgeführt.
――Dieses System funktioniert bis auf die Twitter-Posting-Funktion normal. Wir konnten die Aktualisierungsarbeit vereinfachen, indem wir automatisch Diagramme aus der Datenextraktion erstellt haben. ―― Derzeit ist nur das Posten von Tweets manuell. ――Aus Zukunft möchten wir die Tweet-Funktion nach der Ausgabe der Twitter-API aktivieren, um den Prozess von der Analyse bis zur Informationsübertragung zu automatisieren.
Diagramm der Änderungen der Anzahl der Downloads und der Anzahl der positiven Registrierungen, die automatisch von Google Sheet erfasst wurden
Recommended Posts