JupyterLab
est un environnement d'exécution dans lequel vous pouvez facilement toucher python
.
git clone https://github.com/takiguchi-yu/python-jupyterLab.git
cd python-jupyterLab
docker-compose up -d
http://localhost:8888
docker-compose down
Écrivons un peu de web scraping. Un exemple qui lit l'URL décrite dans le fichier externe et renvoie le résultat dans le fichier externe tout en le frappant.
from bs4 import BeautifulSoup
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 12_0 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Mobile/15E148 Safari/604.1'
}
print('Commencer le traitement')
#Liste des URL(Fichier externe)Lis
with open('./input_urls.txt', mode='r', encoding='utf-8') as f:
for url in f:
result = requests.get(url.rstrip('\n'), headers=headers) #Remarque: supprimez le code de saut de ligne
print(result.status_code)
soup = BeautifulSoup(result.content, 'html.parser')
a = soup.find_all('Nom de la balise HTML ici', {'class': 'Nom de la classe ici'})
#a = soup.find_all('div', {'class': 'hoge-hoge'}) #Exemple
b = a[0].find(text=True) #Récupérez le texte de la balise HTML
#Fichier externe des résultats de scraping(output.txt)Sortie vers
with open('./output.txt', 'a') as f:
print(b, file=f)
print('Traitement terminé')
Vous pouvez librement mettre dans votre bibliothèque préférée
https://qiita.com/hgaiji/items/edf71435d0565257f980
Recommended Posts