Es gibt einen Dienst namens Azure Form Recognition. https://azure.microsoft.com/ja-jp/services/cognitive-services/form-recognizer/

Es ist ein ausgezeichnetes, das das Formular gut liest und die Zieldaten extrahiert. Da es auch eine API gibt, habe ich ein Python-Skript geschrieben, das mehrere Formulare gleichzeitig verarbeiten kann https://github.com/yosukearaiMS13/formrecognizerbatch/blob/master/fy.py

Der Inhalt des Skripts und seine Verwendung werden unten erläutert.

Inhalt des Skripts

Das Skript wird erstellt, indem das Beispiel im Dokument erweitert wird https://docs.microsoft.com/ja-jp/azure/cognitive-services/form-recognizer/quickstarts/python-labeled-data?tabs=v2-0

Das Skript besteht aus 4 Abschnitten https://github.com/yosukearaiMS13/formrecognizerbatch/blob/master/fy.py

`fr.py`



# Configurations:Verschiedene Einstellparameter

#Post-Analyse-Ziel-PDF-Abschnitt
##Veröffentlichen Sie alle zu analysierenden Daten im Formularerkenner

# Get analyze results section
##Rufen Sie das Analyseergebnis (einschließlich der extrahierten Daten) der zuvor veröffentlichten Daten ab.

#CSV-Ausgabeabschnitt des Extraktionsergebnisses
##Das Extraktionsergebnis wird ausgegeben. Entfernen Sie zusätzlichen Leerraum und ersetzen Sie unzuverlässige extrahierte Werte
##(Wenn es unter dem Schwellenwert liegt, wird der extrahierte Wert nicht übernommen und stattdessen die Zuverlässigkeit verwendet.[]Ausgabe in Box)
##Macht gerade

Der Abschnitt Get-Analyseergebnisse und CSV-Ausgabe der Extraktionsergebnisse analysiert den vom Formularerkenner zurückgegebenen JSON. Klicken Sie hier für das JSON-Format https://github.com/Azure-Samples/cognitive-services-REST-api-samples/blob/master/curl/form-recognizer/Invoice_1.pdf.ocr.json

Das Format der Ausgabe-CSV ist wie folgt.

Erste Spalte: Name der zu analysierenden Formulardatei
Zweite und nachfolgende Spalten: Alle im Analysemodell festgelegten Beschriftungen (Tags) und die entsprechenden extrahierten Werte

Die in den einzelnen Abschnitten verwendeten APIs lauten wie folgt --Postanalysiertes PDF: Formular analysieren

Get analyze results: Get Analyze Form Result
CSV-Ausgabeabschnitt: Benutzerdefiniertes Modell abrufen
Erhalten Sie alle in der API definierten Beschriftungen und verwenden Sie sie als Header-Wert von csv.

Verwendung des Skripts

1. Umwelt

Win10 Enterprise, Python 3.8.5, IDE ist optional

2. Vorbereitung der Datenextraktion

(* Von der erforderlichen Arbeit bis zur Vorbereitung der Datenextraktion 1 ist dieser Qiita-Artikel ebenfalls hilfreich.)

Voraussetzungen: Führen Sie zuerst die folgenden Schritte aus
[Formularerkennungsressource erstellen](https://docs.microsoft.com/ja-jp/azure/cognitive-services/form-recognizer/quickstarts/label-tool?tabs=v2-0#create-a-form -recognizer-resource)
Azure-Blob erstellen (Speicherkonto erstellen-> Container erstellen)
Azure-Blob-Einstellungen (Signatur für freigegebenen Zugriff erstellen) -access-signatures) (Nützlich im Menü Storage Explorer im Azure-Portal)

(Alle Berechtigungsfelder überprüfen)![Image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/327770/aaae5370-fc5e-688e -b454-39a60518978e.png)
(Der generierte URL-Wert wird später verwendet, speichern Sie ihn also)![1.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/ 0/327770 / 705f3739-b5be-ddbe-0001-915d953131b5.png)

Vorbereitung der Datenextraktion 1 (nur zum ersten Mal implementiert)
Speichern Sie Trainingsdaten für die Modellerstellung im Azure-Blob: Platzieren Sie mindestens 5 Dateien (in diesem Fall Rechnung_1 ~ 5.pdf) in der folgenden Form (xx.json ist eine später erstellte Datei, ignorieren Sie sie daher hier).
Einstellungen des Etikettenwerkzeugs (Tagging):

Klicken Sie hier, um die Beschriftungstools anzuzeigen https://fott.azurewebsites.net/
Beschriftungsverfahren: Befolgen Sie die Schritte im folgenden Dokument, um eine Verbindung zum Beschriftungswerkzeug herzustellen -> erstellen Sie ein Projekt. + https://docs.microsoft.com/ja-jp/azure/cognitive-services/form-recognizer/quickstarts/label-tool?tabs=v2-0#connect-to-the-sample-labeling-tool

Einstellung auf Python-Skript Nr. 1

`fr.py`


## Configurations
endpoint = r"https://xxxxx.cognitiveservices.azure.com/"
apim_key = "xxxxx"
model_id = "xxxxx"
sourceDir = r"C:\xxxxx\*"
confidence_setting = 0.9 # 0~1.Wird nicht übernommen, wenn die Zuverlässigkeit unter diesem Wert liegt

--endpoint: Formularerkennungsendpunkt --apim_key: Formularerkennungsschlüssel 1 oder 2![Image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/327770/21e50af5-135e-a847-6040 -233601fdfbbf.png) --sourceDir: Beschreiben Sie den Speicherort der zu analysierenden Formulardatei mit dem vollständigen Pfad --confidence_setting: Setzen Sie einen Wert von 0 bis 1 (* Wenn die Zuverlässigkeit als Skriptspezifikation kleiner oder gleich diesem Wert ist, wird der extrahierte Wert nicht übernommen, sondern der Zuverlässigkeitsbewertungswert wird in [] ausgegeben. Ist)

Vorbereitung der Datenextraktion 2 (wird jedes Mal durchgeführt, wenn ein Etikett hinzugefügt oder geändert wird)
Beschriften Sie die geladenen Trainingsdaten (Formular) mit dem Etikettentool (Tagging) (https://fott.azurewebsites.net/). .. Trainiere, wenn du fertig bist und generiere ein Modell

Schritte im folgenden Dokument: Beschriften Sie das Formular-> Trainieren Sie Ihr benutzerdefiniertes Modell, fahren Sie fort + https://docs.microsoft.com/ja-jp/azure/cognitive-services/form-recognizer/quickstarts/label-tool?tabs=v2-0#label-your-forms
[Dieser Qiita-Artikel](https://qiita.com/komiyasa/items/afee82f7baddcd820251#%E3%82%AB%E3%82%B9%E3%82%BF%E3%83%9E%E3%82 Das Verfahren von% A4% E3% 82% BA% E3% 82% 92% E5% AE% 9F% E8% A1% 8C% E3% 81% 99% E3% 82% 8B) ist ebenfalls hilfreich.
Nach dem Zug wird die Modell-ID generiert (siehe unten). Dieser Wert wird später verwendet![Image.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws. com% 2F0% 2F149921% 2Ffa4048dc-c641-38e0-6ad9-d1a6e2b291bf.png?

Einstellung auf Python-Skript Nr. 2: model_id

`fr.py`


## Configurations
endpoint = r"https://xxxxx.cognitiveservices.azure.com/"
apim_key = "xxxxx"
model_id = "xxxxx"
sourceDir = r"C:\xxxxx\*"
confidence_setting = 0.9 # 0~1.Wird nicht übernommen, wenn die Zuverlässigkeit unter diesem Wert liegt

--Model_id: Legen Sie die oben erhaltene Modell-ID fest

3. Datenextraktion

Platzieren Sie die zu analysierende Formulardatei in sourceDir --Laufen Sie fr.py. --Datenextraktionsergebnis csv wird in denselben Ordner wie das Skript ausgegeben

4. Einschränkungen usw.

――Es ist ein Dateiformat des zu trainierenden und zu analysierenden Formulars, aber ich habe nur PDF ausprobiert

Ich mache es basierend auf der aktuellen Version v2.0 von Form Recognition. Wenn Sie es in anderen Versionen verwenden, müssen Sie die API-URL entsprechend ändern und auf die vom Formularerkenner zurückgegebene Änderung des JSON-Formats reagieren.

[PYTHON] Stapelverarbeitungsformulare mit Azure Form Recognizer

Inhalt des Skripts

fr.py

Verwendung des Skripts

1. Umwelt

2. Vorbereitung der Datenextraktion

fr.py

fr.py

3. Datenextraktion

4. Einschränkungen usw.

`fr.py`

`fr.py`

`fr.py`