[PYTHON] Analysieren Sie den Nutzungsstatus der Kontaktbestätigungsanwendung (COCOA), die in "Image" / Tesseract veröffentlicht ist

Aufbau eines Programms zur Analyse des Nutzungsstatus von COCOA, das in "Image" vom Ministerium für Gesundheit, Arbeit und Soziales angekündigt wurde

Einführung

――Ich fasse den Übergang der Anzahl der Downloads und der Anzahl der positiven Registrierungen des Kontaktbestätigungsantrags (COCOA) in einer Grafik zusammen. Ich besuchte die offizielle Website jeden Tag gegen 18:00 Uhr, schrieb die Daten in Google Sheet und erstellte ein Diagramm. ―― Da diese Zeit und Mühe jedoch schwierig geworden sind, habe ich mich gefragt, ob es möglich ist, einfache Aufgaben zu automatisieren. ――Die vom Ministerium für Gesundheit, Arbeit und Soziales veröffentlichten Informationen sind ein Bild des Textes, und ich dachte, wenn diese Daten automatisch analysiert werden könnten, wäre es möglich, das Ganze zu automatisieren, also habe ich es als Test gemacht.


COCOA-Sonderstandort des Ministeriums für Gesundheit, Arbeit und Soziales (Stand 8/11) 厚生労働省cocoa

Diesmal ist es soweit

――Da die veröffentlichten Informationen nicht als Textdaten veröffentlicht werden, war es erforderlich, ein Bild zu erfassen und eine Zeichenerkennung (OCR) durchzuführen. Daher wurden "GCP Cloud Vision" und "** Tesseract **" als Kandidaten für OCR-Tools aufgeführt.

――Dieses Mal wurde gesagt, dass Tesseract mithilfe der PyOCR-Bibliothek in Python problemlos verwendet werden kann. Daher werden wir dies übernehmen und die Erkennungsgenauigkeit überprüfen. In Zukunft möchte ich versuchen, CloudVision zu verwenden und die Genauigkeit der Zeichenerkennung auf beiden Seiten zu berücksichtigen.

Implementierte Funktionen (alle in Python integriert)

--Scraping-Funktion --OCR-Funktion

Was ist Tesseract?

Open Source-Software, die auf einer Vielzahl von Betriebssystemen ausgeführt wird und unter der Apache License 2.0 vertrieben wird. Es verfügt über eine Bibliothek zur Zeichenerkennung und eine Befehlszeilenschnittstelle, die diese verwendet. Ab Version 4.0 wird zusätzlich zur herkömmlichen Erkennungs-Engine eine Erkennungs-Engine installiert, die ein LSTM-basiertes neuronales Netzwerk verwendet. Entwickler: Google

Ergebnisse der durchgeführten OCR

Die Kontaktbestätigungs-App ist derzeit "1" für iOS und Android..1.2 "ist verteilt.
Wenn Sie eine ältere Version von Appli verwenden, rufen Sie den App Store oder Google Play auf
Bitte suchen Sie nach "genehmigte App" und aktualisieren Sie.

Die Anzahl der Downloads ist der 7. August, 17:Ab 00 insgesamt ca. 1.Es gibt 2,05 Millionen Fälle.

・ Dies ist die Gesamtzahl von iOS und Android.

・ Wenn Sie es nach dem Herunterladen löschen und erneut herunterladen, wird es mehrmals gezählt.
Es gibt ein Streichholz.

Die Anzahl der positiven Registrierungen ist der 7. August, 17:Ab 00 gibt es insgesamt 165 Fälle.

Die OCR-Erkennungsgenauigkeit ist hoch und stabil

Der einzige typografische Fehler besteht darin, dass die "App" in der zweiten Zeile als "Appuri" erkannt wird. Daher wurde festgestellt, dass es kein Problem gibt, Daten über die Anzahl der Downloads und die Anzahl der positiven Registrierungen beim Extrahieren von Daten zu extrahieren. Wir haben die OCR-Verarbeitung auf mehreren Blättern durchgeführt, aber sie war ziemlich stabil und die Datenextraktion wurde genau durchgeführt.

Zusammenfassung

――Dieses System funktioniert bis auf die Twitter-Posting-Funktion normal. Wir konnten die Aktualisierungsarbeit vereinfachen, indem wir automatisch Diagramme aus der Datenextraktion erstellt haben. ―― Derzeit ist nur das Posten von Tweets manuell. ――Aus Zukunft möchten wir die Tweet-Funktion nach der Ausgabe der Twitter-API aktivieren, um den Prozess von der Analyse bis zur Informationsübertragung zu automatisieren.


Diagramm der Änderungen der Anzahl der Downloads und der Anzahl der positiven Registrierungen, die automatisch von Google Sheet erfasst wurden sheet_date0810

Über die Details dieses Projekts

Referenzlink

Recommended Posts

Analysieren Sie den Nutzungsstatus der Kontaktbestätigungsanwendung (COCOA), die in "Image" / Tesseract veröffentlicht ist
Visualisierte den Nutzungsstatus der Spüle im Unternehmen
Ich habe versucht, den Text in der Bilddatei mit Tesseract der OCR-Engine zu extrahieren
[Blender] Kennen Sie den Auswahlstatus von versteckten Objekten im Outliner
Lassen Sie uns den Entwicklungsstatus der Stadt anhand des Satellitenbildes erraten.
Finden Sie den Durchschnitt / die Standardabweichung der Helligkeitswerte im Bild