[PYTHON] Konvertieren Sie das PDF der Händlerliste der Go To Eat Hokkaido-Kampagne in CSV

Konvertieren Sie das PDF der Händlerliste von Go To Eat Hokkaido Campaign in CSV

Die Buchstaben verschwinden

cubepdf.png

font.png

shin.png

kuma.png

Programm

import camelot

import requests
from bs4 import BeautifulSoup

from urllib.parse import urljoin

import pandas as pd

url = "https://gotoeat-hokkaido.jp/general/particStores/"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"
}

r = requests.get(url, headers=headers)
r.raise_for_status()

soup = BeautifulSoup(r.content, "html.parser")

dfs = []

for li in soup.select("ul.cf > li > a"):

    link = urljoin(url, li.get("href"))

    area = li.get_text(strip=True)

    tables = camelot.read_pdf(link, split_text=True, pages="all", strip_text="\n", )

    for table in tables:

        df_tmp = pd.DataFrame(table.data[1:], columns=table.data[0])
        df_tmp.columns = df_tmp.columns.map(lambda s: "".join(s.split()))
        df_tmp["Bereich"] = area

        dfs.append(df_tmp)

df

df = pd.concat(dfs)

df = df.fillna("").applymap(
    lambda s: s.replace("(cid:1279)", "Ja")
    .replace("(cid:1535)", "Han")
    .replace("(cid:1791)", "Bär")
    .replace("(cid:2303)", "Gekocht")
    .replace("(cid:2559)", "Neu")
    .replace("(cid:2815)", "Laut")
    .replace("(cid:3071)", "Kran")
)

#CJK-Manager/Ersetzte Kang Hee
tbl = str.maketrans(
    "_ _ _ Wasser _ ⿌ ⿍ ⿎ ⿏ ⿐ ⿑ ⿑ ⿒ ⿓ ⿕ ⿕ 戶 黑",
    "旡 亻 刂 㔾 兀 尣 尢 巳 幺 彑 忄 忄 旡 旡 Mutter 氵 氺 灬 丬 犭 罒 礻 罓 轒 耂 耂 Schwertkraft 凵 躠 儿 儿 儿 儿 儿 儿 夊 凵 冖 冫 power Schwertkraft 勹 匕 匚 卜 10 卜 卩 厂 厶 Yumiko 彡 彳 戈 戈 蔴 蔴 蔴 蔴 薤 薤 虤 虤 虤 虤 虤 虤 虤 虤 虤 虤 褤 Schwertkämpfer Steine, Löcher, Bambusreis, Fadendosen, Schwerter, Schwerter, Schwerter, Schwerter, Schwerter, Schwerter, Schwerter, Schwerter, Schwerter, Schwerter 鬲 酉 釆 鹵 辆 辆 隶 隹 隹 靹 韶 韭 蟭 蟭 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 鬲 Utsudo Schwarz",
)

df = df.applymap(lambda s: s.translate(tbl))

df.reset_index(drop=True, inplace=True)

df.index += 1

df.to_csv("gotoeat_hokkaido.csv", encoding="utf_8_sig")

Recommended Posts

Konvertieren Sie das PDF der Händlerliste der Go To Eat Hokkaido-Kampagne in CSV
Konvertieren Sie das PDF der Go To EAT-Mitgliedergeschäftsliste in der Präfektur Kumamoto in CSV
PDF der Präfektur Chiba konvertieren Gehe zur EAT-Mitgliedergeschäftsliste in CSV (Befehl)
Konvertieren Sie das PDF der Go To EAT-Mitgliedergeschäftsliste in der Präfektur Niigata in CSV
Konvertieren Sie PDFs der verfügbaren Geschäfte von Go To EAT in der Präfektur Kagoshima in CSV
Konvertieren Sie PDF-Dateien von Go To EAT-Mitgliedsgeschäften in der Präfektur Ishikawa in CSV
Konvertieren Sie das PDF der Produktliste mit wirksamen Tensiden für das neue Coronavirus in CSV
Konvertieren Sie mit pdfplumber von PDF in CSV
Verschrotten Sie die Liste der Go To EAT-Mitgliedsgeschäfte in der Präfektur Fukuoka und konvertieren Sie sie in CSV
Verschrotten Sie die Liste der Go To EAT-Mitgliedsspeicher in der Präfektur Niigata und konvertieren Sie sie in CSV
Konvertieren Sie das PDF des neuen Corona-Ausbruchs in der Präfektur Aichi in CSV
COCO'S Frühstücksbuffet Store Liste PDF konvertiert in CSV
Konvertieren Sie das Slice-Objekt in eine Liste mit Indexnummern
[Python] Konvertiert PDF-Text für jede Seite in CSV (2/24 Postscript)
Scraping Gehen Sie zu EAT-Mitgliedsgeschäften in der Präfektur Osaka und konvertieren Sie zu CSV
[Python] Liste in Pandas konvertieren [Pandas]
Konvertieren Sie SDF schnell in CSV
Konvertieren Sie eine große Anzahl von PDF-Dateien mit pdfminer in Textdateien
Konvertieren Sie Markdown in Python in PDF
Konvertieren Sie A4 PDF alle 2 Seiten in A3
Konvertieren Sie die Liste mit Python in DataFrame
Python> Liste> Doppelte Liste in einfache Liste konvertieren
Konvertierung von pdf nach txt 2 [pyocr]
Konvertieren Sie PDF in Image mit ImageMagick
Ich möchte eine in Python in PDF konvertierte Tabelle wieder in CSV konvertieren