Gratter les résultats de recherche de Google Actualités en Python (2) Utiliser Beautiful Soup

Juste en dessous

Cliquez sur ▶ pour ouvrir le calque inférieur

<classe de portée = ・・・

Le texte des premières lignes de l'article était affiché juste en dessous. Il n'a pas été affiché sur la page Web des résultats de recherche, mais il a été masqué ici. C'est ce qu'on appelle un résumé.

Le script pour obtenir ce texte summary = entry.find (" span "). Text.

Pour les informations sur la date de publication de l'article, cliquez sur ▶ de <div class = "Qmr ..." juste en dessous pour ouvrir la couche inférieure, et "datetime = 2019-12-13 ..." est directement sous "<time class =". eu.

Le script pour obtenir cette date / heure time_elm = entry.find (" heure ").

Enfin, l'url de la page de l'article, qui se trouve dans la partie bleu clair de la vérification. Cela signifie que les informations liées sont placées dans le titre de l'article.

<a class="VDXfz" jsname="hXuDdf" jslog="85008; 2:https://prtimes.jp/main/thml/rd/p/000001434.000011710.html;

C'est la partie de https: // ~. J'ai utilisé les deux scripts suivants. ~~ url_elm = entry.find("a")~~ ~~ url_elm = entry.find("a", class_= "VDXfz")~~ url_elm = entry.find("article") link = url_elm.get("jslog")

Introduisons le script à travers. Utilisez lstrip () et rstrip () pour supprimer les caractères inutiles à la fin des informations acquises. S'il n'y a pas d'informations sur la date de publication, "0000-00-00" est remplacé à la place dans le traitement des exceptions. Les informations acquises sont converties en trame de données par les pandas de la bibliothèque et enregistrées dans un fichier csv.

2. Script de récupération des résultats de recherche Google Actualités

environnement

Windows10 Python 3.6.2

scénario

google_news
#Appeler la bibliothèque requise
import pandas as pd    #Pour enregistrer le résultat du scraping dans un fichier cvs au format de bloc de données
import pprint    #Pour afficher une partie du bloc de données
from bs4 import BeautifulSoup  #Analyse et extraction des informations de page Web acquises
import requests     #Obtenir des informations sur les pages Web
import urllib       #Obtenir le codage de l'URL des mots clés

#Convertissez le mot de recherche "tapiru" en caractères et insérez-le entre les URL de la page de résultats de recherche.
s = "Tapiru"
s_quote = urllib.parse.quote(s)
url_b4 = 'https://news.google.com/search?q=' + s_quote + '&hl=ja&gl=JP&ceid=JP%3Aja'

#Obtenir des informations sur la page de résultats de recherche
res = requests.get(url_b4)
soup = BeautifulSoup(res.content, "html.parser")

#Sélectionnez les informations pour tous les articles
articles = soup.select(".xrnccd")

#Obtenez les informations de chaque article à plusieurs reprises pour ~ enumerate et attribuez-les à la liste
news = list()   #Créer une liste vide pour l'affectation

for i, entry in enumerate(articles, 1):
    title = entry.find("h3").text
    summary = entry.find("span").text
    summary = title + "。" + summary
    #url_elm = entry.find("a")Changé en
    url_elm = entry.find("article")
    link = url_elm.get("jslog")
    link = link.lstrip("85008; 2:")		#Supprimer le bord gauche
    link = link.rstrip("; track:click")	#Supprimer le bord droit
    time_elm = entry.find("time")
    try:	#Gestion des exceptions
        ymd = time_elm.get("datetime")
    except AttributeError:
	    ymd = "0000-00-00"
	ymd = ymd[0:10]
	ymd = ymd.replace("-", "/")		#Remplacement
	sortkey = ymd[0:4] + ymd[5:7] + ymd[8:10] #Pour trier par date
				
	tmp = {				#Stocké dans le type de dictionnaire
	    "title": title,
	    "summary": summary,
	    "link": link,
	    "published": ymd,
	    "sortkey": sortkey
        }

	news.append(tmp)  #Ajouter des informations pour chaque article à la liste
	
	#Convertir en bloc de données et enregistrer en tant que fichier csv
	news_df = pd.DataFrame(news)
	pprint.pprint(news_df.head())  #Affichez les 5 premières lignes pour vérifier les données
	filename = s + ".csv"
	news_df.to_csv(filename, encoding='utf-8-sig', index=False)	
Le script de recherche Google Actualités est utilisé pour les articles suivants.

[Trouvez les graines des succès alimentaires dans la science des données! (1) - Le secret du succès Baschi de Lawson](https://blog.hatena.ne.jp/yamtakumol/yamtakumol.hatenablog.com/edit?entry= 26006613407003507)

[Trouvons les graines des succès culinaires! (2) --- "Nourriture complète" et "Recette enfant météo" de juin à août 2019](https://blog.hatena.ne.jp/yamtakumol/ yamtakumol.hatenablog.com/edit?entry=26006613422742161)

[Trouvons les graines des succès alimentaires! (3) - Septembre 2019 est la nourriture de Taiwan qui suit Tapiocati, en particulier le «thé au fromage»](https://blog.hatena.ne.jp/yamtakumol/ yamtakumol.hatenablog.com/edit?entry=26006613447159392)

Trouvons les graines des succès alimentaires! - Tarte aux pommes de terre sucrée en octobre 2019

** Graines de succès alimentaires attendues en 2020-Boules de fromage - **

référence:

Qu'est-ce que HTML? Si vous lisez ceci, même les débutants peuvent certainement écrire du HTML! Qu'est-ce qu'une classe div HTML? Commentaire avec des exemples compréhensibles en 5 minutes

Recommended Posts
Gratter les résultats de recherche de Google Actualités en Python (2) Utiliser Beautiful Soup

[Sélénium Python] Titre et URL de la sortie CSV après avoir récupéré les résultats de recherche Google

Essayez de gratter avec Python + Beautiful Soup

Grattage avec Python et belle soupe

Gratter avec une belle soupe en 10 minutes

[Python] Gratter une table avec Beautiful Soup

Écrivez un "bot" de scraping web sans tête de base en Python avec Beautiful Soup 4

Utilisez Search Tweets: Archive complète / Sandbox en Python

Utilisez config.ini avec Python

Utiliser des dates en Python

Dichotomie avec Python

Utiliser Valgrind avec Python

Recherche linéaire en Python

Utiliser le profileur en Python

Gratter avec une belle soupe

Recherche binaire en Python

J'obtiens une erreur d'importation avec Python Beautiful Soup

Voyons comment utiliser def en python

Utiliser l'expression let en Python

Grattage au sélénium en Python

Utiliser le protocole de mesure avec Python

[Python] Scraping dans AWS Lambda

Grattage avec chromedriver en python

Utiliser la fonction de rappel en Python

Utiliser le magasin de paramètres en Python

Utiliser le cache HTTP en Python

Utilisez l'ODM de MongoDB avec Python

Utiliser un dict clé de liste en Python

Grattage avec du sélénium en Python

Utiliser Random Forest avec Python

Recherche binaire en Python / C ++

Algorithme en Python (dichotomie)

Grattage avec Tor en Python

[Python scraping] J'ai essayé la recherche Google Top10 en utilisant Beautifulsoup et sélénium

Google recherche la chaîne sur la dernière ligne du fichier en Python

Grattage de table avec belle soupe

Ecrire une dichotomie en Python

Racler plusieurs pages avec Beautiful Soup

Utilisez le tissu tel quel en python (fabric3)

Scraping avec Selenium en Python (Basic)

[Python] Un mémorandum de belle soupe4

Comment utiliser SQLite en Python

Téléchargez des fichiers Google Drive en Python

Algorithme en Python (recherche de priorité en profondeur, dfs)

Utiliser rospy avec virtualenv dans Python3

Extraits (scraping) enregistrés dans Google Colaboratory

Comment utiliser Mysql avec python

Utiliser Python mis en pyenv avec NeoVim

Écrire une recherche de priorité en profondeur en Python

Comment utiliser ChemSpider en Python

Comment utiliser PubChem avec Python

Web scraping pour les débutants en Python (1)

Utiliser OpenCV avec Python 3 dans Window

Web scraping pour les débutants en Python (4) -1

Grattage de site Web avec Beautiful Soup en Python

Recherche de priorité de profondeur à l'aide de la pile en Python

Gratter les résultats de recherche de Google Actualités en Python (2) Utiliser Beautiful Soup

1. Analyse des informations d'article sur la page de résultats de recherche par Google Chrome

2. Script de récupération des résultats de recherche Google Actualités

environnement

scénario

`google_news`

Le script de recherche Google Actualités est utilisé pour les articles suivants.

référence: