[PYTHON] [Mémo] Comment utiliser BeautifulSoup4 (2) Afficher l'en-tête de l'article avec les demandes

Le html des sites Web sur Internet contient diverses informations et il est difficile à analyser par vous-même. Par conséquent, nous utilisons une bibliothèque appelée Requests qui obtient du html.

Cette fois, nous allons apprendre à utiliser les requêtes en acquérant les en-têtes d'articles dans la section domestique de MSN Japon.

Dans [1] Importer de belles soupes, demandes et ré

In[1]


from bs4 import BeautifulSoup
import requests
import Re

Dans [2] Stockez les informations html dans la variable urlshutoku

In[2]


urlshutoku = requests.get("https://www.msn.com/ja-jp")

Dans [3] Essayez d'afficher la page entière

In[3]


urlshutoku.text

Lorsque In [3] est affiché, les informations inutiles sont plus visibles, donc seul le cap qui est l'information nécessaire cette fois est affiché. À cette fin, les informations de titre doivent être obtenues. C'est là qu'interviennent les outils de développement de Google Chrome.

Tout d'abord, faites un clic droit sur l'en-tête et cliquez sur Valider (I). Ensuite, l'écran suivant s'affiche. 2020-10-03_220938.png

Les informations utilisées pour le grattage sont uniquement des informations alphanumériques sur le côté gauche de l'écran ci-dessus. Assurez-vous que l'en-tête en haut de la partie où vous avez cliqué sur Vérifier plus tôt est bleu. Ensuite, vérifiez \ correspondant à l'url de l'en-tête de l'article. Les autres titres sont les mêmes, donc \ semble être un indice.

In [4] Analysé avec Beautiful Soup et html.parser

In[4]


soup = BeautifulSoup(urlshutoku.text,"html.parser")

Extraire les en-têtes nationaux en utilisant In [5] find_all

In[5]


midashi = soup.find_all(href=re.compile("/ja-jp/news/national"))

Si vous tapez midashi sur le bloc-notes jupyter, les informations d'en-tête seront affichées, mais les informations d'url sont également incluses. Comme il est difficile de le voir tel quel, seuls les caractères peuvent être affichés.

Afficher uniquement les caractères en utilisant In [6] pour l'instruction et la chaîne

In[6]


for ichiran in midashi:
    print(ichiran.string)

Désormais, seuls les titres sont affichés.

Recommended Posts

[Mémo] Comment utiliser BeautifulSoup4 (2) Afficher l'en-tête de l'article avec les demandes
[Mémo] Comment utiliser BeautifulSoup4 (3) Afficher l'en-tête de l'article avec class_
[Mémo] Comment utiliser BeautifulSoup4 (1) Afficher html
Comment utiliser le générateur
Comment utiliser le décorateur
Comment utiliser cron (mémo personnel)
Python: comment utiliser async avec
Comment utiliser la fonction zip
Comment utiliser le module optparse
Comment utiliser les requêtes (bibliothèque Python)
Pour utiliser virtualenv avec PowerShell
[Mémo] Comment utiliser Google MµG
Comment utiliser le module ConfigParser
[Python] Explique comment utiliser la fonction format avec un exemple
Comment utiliser le pipeline Spark ML
Comment utiliser ManyToManyField avec l'administrateur de Django
Comment utiliser OpenVPN avec Ubuntu 18.04.3 LTS
Comment utiliser Cmder avec PyCharm (Windows)
[Linux] Comment utiliser la commande echo
Comment utiliser Ass / Alembic avec HtoA
Comment utiliser le japonais avec le tracé NLTK
Comment afficher le japonais python avec lolipop
Comment utiliser le notebook Jupyter avec ABCI
Comment utiliser la commande CUT (avec exemple)
Comment utiliser le débogueur IPython (ipdb)
Comment utiliser SQLAlchemy / Connect avec aiomysql
Comment utiliser le pilote JDBC avec Redash
[Python] Explique comment utiliser la fonction range avec un exemple concret
Comment utiliser la bibliothèque C en Python
Comment utiliser la trace GCP avec la télémétrie ouverte
Comment utiliser MkDocs pour la première fois
[Python] Comment changer le format de la date (format d'affichage)
Spécifiez le fichier exécutable Python à utiliser avec virtualenv
Comment essayer l'algorithme des amis d'amis avec pyfof
Comment utiliser la bibliothèque de dessins graphiques Bokeh
Comment récupérer des données de courses de chevaux avec Beautiful Soup
Comment utiliser l'API Google Cloud Translation
Comment utiliser l'API du guide des programmes NHK
Le moyen le plus simple d'utiliser OpenCV avec python
[Algorithm x Python] Comment utiliser la liste
Comment utiliser tkinter avec python dans pyenv
Comment afficher des images en continu avec matplotlib Memo
Comment entraîner Kaldi avec JUST Corpus
Comment afficher dans toute la fenêtre lors de la définition de l'image d'arrière-plan avec tkinter
Comment utiliser xml.etree.ElementTree
Comment créer un article à partir de la ligne de commande
Comment utiliser virtualenv
Comment utiliser Seaboan
Comment utiliser la correspondance d'image
Comment supprimer la chaîne de caractères spécifiée avec la commande sed! !! !!
Comment utiliser le shogun
Remarques sur l'utilisation d'AIST Spacon ABCI
Comment utiliser Pandas 2
Comment utiliser Virtualenv
[Introduction à Python] Comment itérer avec la fonction range?
Comment utiliser numpy.vectorize
Comment créer un sous-menu avec le plug-in [Blender]
Comment utiliser pytest_report_header