[PYTHON] Konvertieren Sie mit pdfplumber von PDF in CSV

pdfplumber

Gepunktete Linie als durchgezogene Linie mit Camelot verarbeiten (Huff-Konvertierung) https://qiita.com/barobaro/items/af850ac29dbc983eb39b

Auch hier kann Camelot keine anderen Tabellen als durchgezogene Linien extrahieren. Es scheint, dass es leicht mit pdfplumber extrahiert werden kann

Konnte nicht konvertiert werden

Zur offiziellen EAT Business-Website der Präfektur Shiga Zeichen werden nicht erkannt, können mit camelot extrahiert werden

Ich konnte konvertieren

Liste der medizinischen Einrichtungen, die medizinische Versorgung mit Telefonen sowie Informations- und Kommunikationsgeräten anbieten

Liste der medizinischen Einrichtungen, die medizinische Versorgung mit Telefonen sowie Informations- und Kommunikationsgeräten (Präfektur Hyogo) anbieten

wget https://www.mhlw.go.jp/content/000691131.pdf -O data.pdf
pip install pdfplumber
import pdfplumber
import pandas as pd

with pdfplumber.open("data.pdf") as pdf:

    dfs = []

    for page in pdf.pages:

        data = page.extract_table()
        df_tmp = pd.DataFrame(data[2:], columns=data[1])

        dfs.append(df_tmp)

df = pd.concat(dfs)

df.to_csv("hyogo.csv", encoding="utf_8_sig")

PDF von Go To EaT in der Präfektur Chiba

https://www.chiba-gte.jp/downloads/store_list.pdf

wget https://www.chiba-gte.jp/downloads/store_list.pdf -O data.pdf
import pdfplumber
import pandas as pd

with pdfplumber.open("data.pdf") as pdf:

    dfs = []

    for page in pdf.pages:

        data = page.extract_table()
        df_tmp = pd.DataFrame(data)

        dfs.append(df_tmp)

df = pd.concat(dfs)

df1 = df.mask(df.isna() | (df == "")).dropna(thresh=4)

df2 = df1[df1[0] != "Papier-"].reset_index(drop=True)

df2.set_axis(["Papier-", "Elektronisch", "Speichername", "Adresse", "TEL"], axis=1, inplace=True)

df2.index += 1

df2.to_csv("data.csv")

Recommended Posts

Konvertieren Sie mit pdfplumber von PDF in CSV
Konvertierung von pdf nach txt 2 [pyocr]
Konvertieren Sie PDF in Image mit ImageMagick
Konvertieren Sie PDF-Dateien mit GIMP in PNG-Dateien
Konvertieren Sie 202003 bis 2020-03 mit Pandas
Konvertieren Sie PDF in Bilder (JPEG / PNG) mit Python
[Python] Konvertieren von DICOM in PNG oder CSV
Mit matplotlib erstellte Bilder werden von dvi nach pdf verschoben
[Python] Konvertiert PDF-Text für jede Seite in CSV (2/24 Postscript)
Konvertieren Sie das Bild in .zip mit Python in PDF
So konvertieren Sie eine JSON-Datei mit Python Pandas in eine CSV-Datei
Schreiben Sie mit Python in csv
Konvertieren Sie SDF schnell in CSV
Konvertieren Wählen Sie die von Postgre erhaltene Abfrage mit Gehe zu JSON
Konvertieren Sie den Farbraum von RGB nach CIELAB mit PIL (Pillow)
Konvertieren Sie verstümmelte gescannte Bilder mit Pillow und PyPDF in PDF
Konvertieren Sie .ipynb in .html (mit BatchFile)
Konvertieren Sie Markdown in Python in PDF
[Python] Mit Python in eine CSV-Datei schreiben
Konvertierung von pdf nach txt 1 [pdfminer]
Ausgabe in eine CSV-Datei mit Python
Konvertieren Sie die Liste mit Python in DataFrame
Konvertieren Sie Sätze mit gensim in Vektoren
So konvertieren Sie von .mgz nach .nii.gz
Konvertieren Sie in Python usw. geschriebene Dateien in PDF mit Syntax-Hervorhebung
Konvertieren Sie das PDF der Händlerliste der Go To Eat Hokkaido-Kampagne in CSV
Konvertieren Sie Bilder aus dem PIL-Format, die mit Django aus dem Formular gelesen wurden, in das base64-Format
[Python] So konvertieren Sie eine Datenbankdatei in CSV
Konvertieren Sie Memos sofort mit Python 2to3
So konvertieren Sie das Format einfach aus Markdown
So konvertieren Sie csv in tsv in CLI
[Python] Konvertieren Sie CSV-Dateibegrenzer in Tabulatortrennzeichen
Konvertieren Sie Zeichenketten mit RoBERTa in Merkmalsmengen
Konvertieren Sie Excel-Daten mit Python in JSON
Konvertiere Hiragana mit Python (Beta) in Romaji
Konvertieren Sie von Katakana zu Vokal Kana [Python]
Extrahieren Sie japanischen Text aus PDF mit PDFMiner
Konvertieren Sie an E-Mails angehängte PDF-Dateien in das Textformat
Konvertieren Sie ein Array (struct) mit golang in json
[Teil1] Scraping mit Python → Organisieren Sie bis zu CSV!
Python> Ausgaben von 1 bis 100, 501 bis 600> Für CSV
Konvertieren Sie chinesische Zahlen mit Python in arabische Zahlen
In Python von Markdown in HTML konvertieren
Beispiel für die Wavelet-Konvertierung von Bildern in Python
[Data Science-Grundlagen] Ich habe versucht, mit Python von CSV auf MySQL zu speichern
Konvertieren Sie PDFs der verfügbaren Geschäfte von Go To EAT in der Präfektur Kagoshima in CSV
Ich möchte eine in Python in PDF konvertierte Tabelle wieder in CSV konvertieren
Konvertieren Sie eine Tabelle in CSV und laden Sie sie mit Cloud-Funktionen in den Cloud-Speicher hoch
Konvertieren Sie das PDF der Go To EAT-Mitgliedergeschäftsliste in der Präfektur Kumamoto in CSV
Lesen Sie die CSV-Datei mit Python und konvertieren Sie sie unverändert in DataFrame
Konvertieren Sie PDF-Dateien von Go To EAT-Mitgliedsgeschäften in der Präfektur Ishikawa in CSV
Konvertieren Sie das PDF des neuen Corona-Ausbruchs in der Präfektur Aichi in CSV
Vorverarbeitung mit Python. Konvertieren Sie die Tag-Suchergebnisse von Nico Nico-Videos in das CSV-Format
Erstellen von CSV-Beispieldaten mit Hypothese
Lesen einer CSV-Datei mit Python 2/3
CSV-Ausgabe der Google-Suche mit [Python]! 【Einfach】