Extrahieren Sie die Tabelle der Bilddateien mit OneDrive & Python

Ich möchte die Tabelle aus dem Bild extrahieren

Möglicherweise möchten Sie die Tabelle ** in der Bilddatei ** als Tabellendaten extrahieren.

Beispiel: "Scannen Sie ein Papierbuch oder Dokument und digitalisieren Sie es als Bilddatei oder PDF-Datei".

(PDF_original.png

Die Tabelle in dieser Tabelle wird nicht OCR-verarbeitet ** nur ein Bild **, daher wird sie nicht als Zeichen erkannt, geschweige denn als Tabelle.

Daher kann es natürlich nicht so wie es ist als Tabellendaten behandelt werden. Gibt es dann keine andere Wahl, als die Daten aufzugeben und stetig zu tabellieren? Nein, ** gib nicht auf! ** ** **

So extrahieren Sie Tabellendaten aus einem Bild

Selbst aus solchen Bildern (jpg, png, pdf usw.) kann die Tabelle im nächsten Schritt als Daten extrahiert werden.

Vorbereitung Registrieren Sie sich für Microsoft OneDrive (kostenlos) 0. Konvertieren Sie Bilddateien (JPG, PNG usw.) in PDF-Dateien (dieser Schritt ist für PDF von Anfang an nicht erforderlich).

  1. Speichern Sie die PDF-Datei in OneDrive, konvertieren Sie sie in Word und wenden Sie die OCR-Verarbeitung an
  2. Speichern Sie OCR-verarbeitetes Word als PDF
  3. Extrahieren Sie die Tabelle als PDF mit Python

Ich werde unterwegs Word verwenden, aber ich werde das kostenlose Office Online verwenden, damit Microsoft Word nicht auf Ihrem PC installiert sein muss.

Dann werde ich diesmal anhand der PDF-Datei von ↓ erklären. (PDF_original.png

Wenn Sie eine Tabelle aus einer Bilddatei (jpg, png usw.) extrahieren möchten, konvertieren Sie sie zuerst in eine PDF-Datei. Es gibt auch einen kostenlosen Webdienst, der Bilddateien in PDF konvertiert. Der einfachste ist jedoch [Klicken Sie mit der rechten Maustaste auf die Bilddatei-> Drucken> Wählen Sie im zu druckenden Drucker "Microcoft Print to PDF" aus].

Vorbereitung Registrieren Sie ein Konto bei OneDrive

Registrieren Sie Ihr Konto bei Microsoft OneDrive. Frei.

[Holen Sie sich ein Microsoft-Konto] (https://www.microsoft.com/ja-jp/office/homeuse/onedrive-guide.aspx)

1. Speichern Sie die PDF-Datei in OneDrive

Laden Sie die Ziel-PDF-Datei auf OneDrive hoch. onedrive_upload.png

Klicken Sie mit der rechten Maustaste auf die Datei und wählen Sie Öffnen. onedrive_open.png

Wenn Sie zu diesem Zeitpunkt versuchen, in der Tabelle eine Auswahl zu treffen, können Sie die Zeichen als Text auswählen. Die Tabellenstruktur wird ebenfalls erkannt.

Klicken Sie auf die Schaltfläche "Mit Desktop App bearbeiten". Dann werden Sie gefragt, ob Sie die Datei konvertieren möchten. Klicken Sie daher auf die Schaltfläche "Konvertieren".

onedrive_edit.png

Dann erfolgt die Konvertierung. Wenn die Konvertierung abgeschlossen ist, wird ein Bestätigungsbildschirm angezeigt. Drücken Sie daher auf "Bearbeiten". onedrive_edit_comp.png

Dadurch wird Word in Ihrem Browser geöffnet. Es wird ordnungsgemäß als Tabellendaten konvertiert. onedrive_word.png

Es kann einige Stellen geben, an denen die Zeichen nicht richtig erkannt werden. Wenn Sie dies an dieser Stelle beheben können, beheben Sie es manuell. In diesem Fall kann "Kopieren" "Coby" sein, aber die Konvertierung ist fast korrekt. Es ist eine ziemliche Erkennungsgenauigkeit!

2. Speichern Sie OCR-verarbeitetes Word als PDF

PDF-Dateien sind in Python einfacher zu handhaben als Word-Dateien. Konvertieren Sie sie daher in PDF und laden Sie sie herunter.

Wählen Sie oben links "Datei" und dann Speichern unter → Als PDF herunterladen. onedrive_word_download_as_pdf.png

3. Extrahieren Sie die Tabelle in PDF mit Python

Öffnen wir die heruntergeladene PDF-Datei. Im Gegensatz zum Original-PDF wird die Tabelle ordnungsgemäß als Tabelle erkannt. Es ist nicht gut, die Schriftart zu sehen, weil sie groß oder klein ist, aber Sie müssen sich keine Sorgen machen, da sie als DataFrame von Pandas extrahiert wird.

PDF_ocr.png

Übrigens, wenn Sie zu diesem Punkt kommen, ist der Rest eine einfache Tabelle, die Python nach der im Artikel "Tabelle in PDF mit Python extrahieren" eingeführten Methode verwendet. Kann extrahiert werden.

python


import pandas as pd
import tabula
 
# lattice=True, um die Zelle anhand der Tabellenachse zu bestimmen
dfs = tabula.read_pdf("PDF_ocr.pdf", lattice=True, pages='1')
for df in dfs:
    display(df)

Ausführungsergebnis PDF_ocr_df.png

Recommended Posts

Extrahieren Sie die Tabelle der Bilddateien mit OneDrive & Python
[Automatisierung] Extrahieren Sie die Tabelle als PDF mit Python
Sortieren von Bilddateien mit Python (2)
Sortieren von Bilddateien mit Python (3)
Bilddateien mit Python sortieren
Extrahieren Sie die xz-Datei mit Python
Ich habe versucht, die Entropie des Bildes mit Python zu finden
[Python] Mit OpenCV können Sie problemlos Bilddateien mit Seriennummern lesen
Grundlagen der binärisierten Bildverarbeitung durch Python
Überprüfen Sie die Existenz der Datei mit Python
Laden Sie mit Python Dateien im Web herunter
Zeichnen mit Matrix-Reinventor von Python Image Processing-
So schneiden Sie den unteren rechten Teil des Bildes mit Python OpenCV
Versuchen Sie, die Höhendaten des National Land Research Institute mit Python abzubilden
Ich habe versucht, das Bild mit Python + OpenCV zu "glätten"
[Python] Holen Sie sich die Dateien mit Python in den Ordner
Bereiten Sie die Ausführungsumgebung von Python3 mit Docker vor
2016 Todai Mathematik mit Python gelöst
Ich habe versucht, das Bild mit Python + OpenCV zu "differenzieren"
[Hinweis] Exportieren Sie das HTML der Site mit Python.
Berechnen Sie die Gesamtzahl der Kombinationen mit Python
Überprüfen Sie das Datum der Flaggenpflicht mit Python
Bildverarbeitung? Die Geschichte, Python für zu starten
Ich habe versucht, das Bild mit Python + OpenCV zu "binarisieren"
Automatisieren einfacher Aufgaben mit Python Inhaltsverzeichnis
Konvertieren Sie den Zeichencode der Datei mit Python3
[Python] Bestimmen Sie den Typ der Iris mit SVM
[Python + OpenCV] Malen Sie den transparenten Teil des Bildes weiß
der Zen von Python
Bildverarbeitung mit Python
Extrahieren Sie die Farbe des Objekts im Bild mit Mask R-CNN und K-Means Clustering
So erhalten Sie mit Python eine Liste der Dateien im selben Verzeichnis
Bildverarbeitung durch Matrix Basics & Contents-Reinventor der Python-Bildverarbeitung-
Lerne Nim mit Python (ab Anfang des Jahres).
Kennen Sie den Speicherort der Python-Klassendefinitionsdatei.
[Python] Holen Sie sich die Zahlen im Diagramm mit OCR
Zerstören Sie den Zwischenausdruck der Sweep-Methode mit Python
[OpenCV / Python] Ich habe versucht, Bilder mit OpenCV zu analysieren
Visualisieren Sie den Bereich der internen und externen Einfügungen mit Python
Konvertieren Sie das Bild in .zip mit Python in PDF
Berechnen Sie den Regressionskoeffizienten der einfachen Regressionsanalyse mit Python
Extrahieren Sie Dateien mit dem Befehl scp aus dem EC2-Speicher
Erstellen von BINGO "Web Tools" mit Python (Inhaltsverzeichnis)
Zusammenfassung des grundlegenden Ablaufs des maschinellen Lernens mit Python
[Python] So schreiben Sie den Tabellenstil mit python-pptx um [python-pptx]
Holen Sie sich mit Python den Betriebsstatus von JR West
Extrahieren Sie Bilder und Tabellen mit Python aus PDF, um die Berichtslast zu verringern
Auf dem Weg zum Ruhestand von Python2
Bildbearbeitung mit Python OpenCV
Sortieren Sie große Dateien mit Python
Bildverarbeitung mit Python (Teil 1)
Tweet mit Bild in Python
Integrieren Sie PDF-Dateien in Python
Bildverarbeitung mit Python (3)
TXT-Dateien mit Python lesen
Rufen Sie die API mit python3 auf.
Über die Funktionen von Python