[Python] Code qui peut être écrit avec la mort cérébrale au début lors du scraping en tant que débutant

Chaque fois que vous grattez

test.py


from bs4 import BeautifulSoup

Comme il est difficile d'écrire comme ça, je vais créer un modèle qui est sûr de l'utiliser pour le moment.

test.py


!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium
!pip install requests-html

Tout d'abord, lié à la bibliothèque. J'utilise habituellement clb, donc je vais mettre ça pour le moment.

test.py


import pandas as pd
import datetime
from tqdm.notebook import tqdm
import requests
from bs4 import BeautifulSoup
import time
import re
from urllib.request import urlopen
import urllib.request, urllib.error
from requests_html import HTMLSession
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

#Au point d'obtenir du HTML
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',options=options)
driver.implicitly_wait(10)
url="https://www.XXX.com"
driver.get(url)
html = driver.page_source.encode('utf-8')
soup = BeautifulSoup(html, "html.parser")

Oui, il est acceptable de copier et coller à cause de la mort cérébrale jusqu'à présent. plus tard

test.py


soup

Avec cela, vous pouvez atteindre le point où html est sorti pour le moment en quelques secondes.

À proprement parler, il y a des bibliothèques que je n'utilise pas, comme tqdm, mais j'emballe aussi tout le code qui importe les bibliothèques que j'utilise dans l'ensemble presque chaque fois que je gratte personnellement.

Je copie moi-même et l'utilise tout le temps.

Recommended Posts

[Python] Code qui peut être écrit avec la mort cérébrale au début lors du scraping en tant que débutant
Article qui peut être une ressource humaine qui comprend et maîtrise le mécanisme de l'API (avec du code Python)
[Python3] Code qui peut être utilisé lorsque vous souhaitez modifier l'extension d'une image à la fois
[Python] Créez un graphique qui peut être déplacé avec Plotly
J'ai fait un shuffle qui peut être réinitialisé (inversé) avec Python
Comprendre les probabilités et les statistiques qui peuvent être utilisées pour la gestion des progrès avec un programme python
À propos du fait que le résumé de la torche peut être vraiment utilisé lors de la construction d'un modèle avec Pytorch
[Python] Un programme qui trouve le nombre maximum de jouets pouvant être achetés avec votre argent
Un mémo lors de la création d'un environnement qui peut être débogué avec Lambda @ Edge pour le moment
[Python3] Code qui peut être utilisé lorsque vous souhaitez découper une image dans une taille spécifique
Puisque python est lu comme "Pichon", il peut être exécuté avec "Pichon" (c'est une histoire)
Confirmation que rkhunter peut être installé
Article qui peut être une ressource humaine qui comprend et maîtrise le mécanisme de l'API (avec du code Python)
Utilisez tkinter pour déplacer le code de sortie en tant que "A et prétendant être B" en python
[Python] Introduction au scraping WEB | Résumé des méthodes pouvant être utilisées avec webdriver
Notes sur les connaissances Python utilisables avec AtCoder
Un mémo que j'ai touché au magasin de données avec python
Limites qui peuvent être analysées à la fois avec MeCab
Peut être utilisé avec AtCoder! Une collection de techniques pour dessiner du code court en Python!
[Python3] Code qui peut être utilisé lorsque vous souhaitez redimensionner des images dossier par dossier
[Python] Un programme pour trouver le nombre de pommes et d'oranges qui peuvent être récoltées
Comme vous le savez peut-être, Python peut être écrit comme ceci
Obtenez UNIXTIME au début d'aujourd'hui avec une commande
Solution lorsque l'image ne peut pas être affichée avec tkinter [python]
Utilisez une macro qui s'exécute lors de l'enregistrement de python avec vscode
Code Python qui continue de tweeter "Bals" autant que vous le pouvez
Histoire que Python a cessé de travailler avec VS Code (Windows 10)
Scripts pouvant être utilisés lors de l'utilisation de Bottle en Python
Précautions à prendre lors de la construction d'un environnement PYTHON
J'ai étudié le prétraitement qui peut être fait avec PyCaret
Faisons un diagramme sur lequel on peut cliquer avec IPython
Exécutez le code de sortie sur le serveur Web local en tant que "A, faisant semblant d'être B" en python
Voici un résumé des choses qui pourraient être utiles pour traiter des nombres complexes en Python
J'ai acheté et analysé la loterie jumbo de fin d'année avec Python qui peut être exécutée dans Colaboratory
Une histoire qui n'a pas fonctionné lorsque j'ai essayé de me connecter avec le module de requêtes Python
・ <Slack> Ecrire une fonction pour notifier Slack afin qu'elle puisse être citée à tout moment (Python)
Web scraping débutant avec python
Prédisez le nombre de coussins qui peuvent être reçus en tant que répondants rires avec Word2Vec + Random Forest
[Python, Selenium, PhantomJS] Une histoire lors de la capture d'un site Web avec une charge paresseuse
J'ai fait un package qui peut comparer des analyseurs morphologiques avec Python
Créez une Spinbox qui peut être affichée en binaire avec Tkinter
À partir d'un livre que le programmeur peut apprendre ... (Python): trouver la valeur la plus fréquente
Un minuteur (ticker) qui peut être utilisé sur le terrain (peut être utilisé n'importe où)
Créez un graphique des devises qui peut être déplacé avec Plotly (2)
Créez une Spinbox pouvant être affichée dans HEX avec Tkinter
Module standard Python utilisable en ligne de commande
Créez un graphique des devises qui peut être déplacé avec Plotly (1)
L'histoire de la création d'un module qui ignore le courrier avec python
L'histoire de la création d'un slackbot qui génère un gif ou un png lorsque vous envoyez le code de traitement
[Python] Un programme qui trouve une paire qui peut être divisée par une valeur spécifiée
Résumé de base du scraping avec des requêtes que les débutants peuvent absolument comprendre [Python]
Le panneau Web LXC qui peut faire fonctionner LXC avec un navigateur était merveilleux
[Python] Un programme qui calcule le nombre de chaussettes jumelées
Créez une application Web qui peut être facilement visualisée avec Plotly Dash
Extraire les lignes qui correspondent aux conditions d'un fichier texte avec python
Optimisation mathématique pour un travail gratuit avec Python + PuLP
J'ai fait une simple minuterie qui peut être démarrée depuis le terminal
Fonction Eval () qui calcule une chaîne de caractères comme expression en python
Soyez prudent lorsque vous récupérez des tweets à intervalles réguliers avec l'API Twitter
VSCode peut-il être débogué si le chemin contient certains symboles? (Python)