[PYTHON] Konvertieren Sie das PDF der Produktliste mit wirksamen Tensiden für das neue Coronavirus in CSV

CSV PDF von Produktliste mit wirksamen Tensiden für neues Coronavirus der Incorporated Administrative Agency Product Evaluation Technology Infrastructure Organization Umstellung auf

apt install python3-tk ghostscript
pip install camelot-py[cv]

Schaben

from urllib.parse import urljoin

import requests
from bs4 import BeautifulSoup

url = "https://www.nite.go.jp/information/osirasedetergentlist.html"

r = requests.get(url)
r.raise_for_status()

soup = BeautifulSoup(r.content, "html.parser")

tag = soup.select_one("div.main div.cf ul > li > a")

link = urljoin(url, tag.get("href"))

Daten-Wrangling

import camelot
import pandas as pd

tables = camelot.read_pdf(
    link, pages="all", split_text=True, line_scale=40, copy_text=["v"]
)

df_tmp = pd.concat([table.df for table in tables[:-1]])

#Reinigungsmittel für Wohnmöbel usw.

df1 = df_tmp.iloc[1:].set_axis(df_tmp.iloc[0].to_list(), axis=1).reset_index(drop=True)
df1.index += 1
df1.to_csv("housing.csv", encoding="utf_8_sig")

#Synthetisches Waschmittel für die Küche usw.

df2 = tables[-1].df.iloc[1:].set_axis(tables[-1].df.iloc[0].to_list(), axis=1)
df2.to_csv("kitchen.csv", encoding="utf_8_sig")

Recommended Posts

Konvertieren Sie das PDF der Produktliste mit wirksamen Tensiden für das neue Coronavirus in CSV
Konvertieren Sie das PDF der Händlerliste der Go To Eat Hokkaido-Kampagne in CSV
Konvertieren Sie das PDF der Go To EAT-Mitgliedergeschäftsliste in der Präfektur Kumamoto in CSV
Konvertieren Sie das PDF des neuen Corona-Ausbruchs in der Präfektur Aichi in CSV
PDF der Präfektur Chiba konvertieren Gehe zur EAT-Mitgliedergeschäftsliste in CSV (Befehl)
Konvertieren Sie das PDF der Go To EAT-Mitgliedergeschäftsliste in der Präfektur Niigata in CSV
Konvertieren Sie PDFs der verfügbaren Geschäfte von Go To EAT in der Präfektur Kagoshima in CSV
Konvertieren Sie mit pdfplumber von PDF in CSV
Konvertieren Sie PDF-Dateien von Go To EAT-Mitgliedsgeschäften in der Präfektur Ishikawa in CSV
COCO'S Frühstücksbuffet Store Liste PDF konvertiert in CSV
Konvertieren Sie die Finanzinformationen aller börsennotierten Unternehmen der letzten 5 Jahre in eine CSV-Datei
Konvertieren Sie das Slice-Objekt in eine Liste mit Indexnummern
[Python] Konvertiert PDF-Text für jede Seite in CSV (2/24 Postscript)
[Befehl] Befehl zum Abrufen einer Liste von Dateien mit Zeichen voller Breite
Quantifizieren Sie den Grad der Selbstbeherrschung, der erforderlich ist, um das neue Koronavirus einzudämmen