[PYTHON] Analyser l'état d'utilisation de l'application de confirmation de contact (COCOA) publiée dans "Image" / Tesseract

Construction d'un programme d'analyse du statut d'utilisation du COCOA annoncé dans "Image" du Ministère de la Santé, du Travail et du Bien-être

introduction

――Je résume moi-même la transition du nombre de téléchargements et du nombre d'inscriptions positives de l'application de confirmation de contact (COCOA) dans un graphique. J'ai visité le site officiel vers 18h00 tous les jours, écrit les données sur Google Sheet et créé un graphique. Cependant, puisque ce temps et cet effort sont devenus difficiles, je me suis demandé s'il serait possible d'automatiser des tâches simples. «Les informations publiées par le ministère de la Santé, du Travail et du Bien-être sont une image du texte, et j'ai pensé que si ces données pouvaient être analysées automatiquement, il serait possible d'automatiser l'ensemble, alors je l'ai fait à titre d'essai.


Site spécial COCOA du ministère de la Santé, du Travail et du Bien-être (à partir du 8/11) 厚生労働省cocoa

Le point de cette fois

―― Étant donné que les informations publiées ne sont pas publiées sous forme de données texte, il était nécessaire d'acquérir une image et d'effectuer la reconnaissance de caractères (OCR). Par conséquent, "GCP Cloud Vision" et "** Tesseract **" ont été répertoriés comme candidats pour les outils OCR.

Cette fois, il a été dit que Tesseract peut être facilement utilisé en utilisant la bibliothèque PyOCR en Python, nous allons donc l'adopter et vérifier l'exactitude de la reconnaissance. À l'avenir, j'aimerais essayer d'utiliser CloudVision et examiner la précision de la reconnaissance des caractères des deux côtés.

Fonctions implémentées (toutes intégrées en Python)

Qu'est-ce que Tesseract

Logiciel open source qui fonctionne sur une variété de systèmes d'exploitation et est distribué sous la licence Apache 2.0. Il dispose d'une bibliothèque pour la reconnaissance de caractères et d'une interface de ligne de commande qui l'utilise. À partir de la version 4.0, en plus du moteur de reconnaissance conventionnel, un moteur de reconnaissance utilisant un réseau de neurones basé sur LSTM est installé. Développeur: Google

Résultats de l'OCR effectué

--Avant le traitement OCR (image obtenue à partir du site) cocoa_info_0810.png --Après traitement OCR

L'application de confirmation de contact est actuellement "1" pour iOS et Android..1.2 "est distribué.
Si vous utilisez une ancienne version d'Appli, accédez à l'App Store ou à Google Play
Veuillez rechercher «application approuvée» et mettre à jour.

Le nombre de téléchargements est le 7 et 17 août:En 00, environ 1 au total.Il y a 2,05 millions de cas.

・ C'est le nombre total d'iOS et d'Android.

・ Si vous le supprimez après le téléchargement et le téléchargez à nouveau, il sera compté plusieurs fois.
Il y a un match.

Le nombre d'inscriptions positives est le 7, 17 août:En 00, il y avait un total de 165 cas.

La précision de la reconnaissance OCR est élevée et stable

La seule erreur typographique est que le "app" sur la deuxième ligne est reconnu comme "appuri". Par conséquent, il a été constaté qu'il n'y avait aucun problème pour extraire des données sur le nombre de téléchargements et le nombre d'enregistrements positifs lors de l'extraction des données. Nous avons effectué un traitement OCR sur plusieurs feuilles, mais il était assez stable et l'extraction des données a été effectuée avec précision.

Résumé

―― Ce système fonctionne normalement à l'exception de la fonction de publication Twitter, et nous avons pu simplifier le travail de mise à jour en créant automatiquement des graphiques à partir de l'extraction de données. Actuellement, seule la publication de tweets est manuelle. À l'avenir, nous aimerions activer la fonction de tweet après la publication de l'API Twitter pour automatiser le processus de l'analyse à la transmission des informations.


Graphique de l'évolution du nombre de téléchargements et du nombre d'inscriptions positives acquises automatiquement depuis Google Sheet sheet_date0810

À propos des détails de ce projet

Lien de référence

Recommended Posts

Analyser l'état d'utilisation de l'application de confirmation de contact (COCOA) publiée dans "Image" / Tesseract
Visualisation de l'état d'utilisation de l'évier dans l'entreprise
J'ai essayé d'extraire le texte du fichier image en utilisant Tesseract du moteur OCR
[Blender] Connaître l'état de sélection des objets cachés sur l'outliner
Devinons l'état de développement de la ville à partir de l'image satellite.
Trouvez l'écart moyen / standard des valeurs de luminosité dans l'image