[PYTHON] Convertir le PDF de la liste de produits contenant des surfactants efficaces pour le nouveau virus corona en CSV

CSV PDF de Liste de produits contenant des surfactants efficaces pour le nouveau coronavirus Conversion en

apt install python3-tk ghostscript
pip install camelot-py[cv]

Grattage

from urllib.parse import urljoin

import requests
from bs4 import BeautifulSoup

url = "https://www.nite.go.jp/information/osirasedetergentlist.html"

r = requests.get(url)
r.raise_for_status()

soup = BeautifulSoup(r.content, "html.parser")

tag = soup.select_one("div.main div.cf ul > li > a")

link = urljoin(url, tag.get("href"))

Data wrangling

import camelot
import pandas as pd

tables = camelot.read_pdf(
    link, pages="all", split_text=True, line_scale=40, copy_text=["v"]
)

df_tmp = pd.concat([table.df for table in tables[:-1]])

#Détergent pour meubles de maison, etc.

df1 = df_tmp.iloc[1:].set_axis(df_tmp.iloc[0].to_list(), axis=1).reset_index(drop=True)
df1.index += 1
df1.to_csv("housing.csv", encoding="utf_8_sig")

#Détergent synthétique pour la cuisine, etc.

df2 = tables[-1].df.iloc[1:].set_axis(tables[-1].df.iloc[0].to_list(), axis=1)
df2.to_csv("kitchen.csv", encoding="utf_8_sig")

Recommended Posts

Convertir le PDF de la liste de produits contenant des surfactants efficaces pour le nouveau virus corona en CSV
Convertir le PDF de la liste des concessionnaires de la campagne Go To Eat Hokkaido en CSV
Convertir le PDF de la liste des magasins membres Go To EAT dans la préfecture de Kumamoto en CSV
Convertir le PDF d'un nouveau cas d'épidémie corona dans la préfecture d'Aichi en CSV
Convertir le PDF de la préfecture de Chiba Aller à la liste des magasins des membres EAT en CSV (commande)
Convertir le PDF de la liste des magasins membres Go To EAT dans la préfecture de Niigata en CSV
Convertir le PDF des magasins disponibles de Go To EAT dans la préfecture de Kagoshima en CSV
Convertir de PDF en CSV avec pdfplumber
Convertir le PDF des magasins membres Go To EAT de la préfecture d'Ishikawa en CSV
PDF de la liste des magasins du buffet du petit-déjeuner COCO converti en CSV
Convertir les informations financières de toutes les sociétés cotées des 5 dernières années en fichier CSV
Convertir un objet de tranche en liste de numéros d'index
[Python] Convertir le texte PDF en CSV pour chaque page (2/24 postscript)
[Commande] Commande pour obtenir une liste de fichiers contenant des caractères pleine largeur
Quantifier le degré d'autolimitation nécessaire pour contenir le nouveau virus corona