[PYTHON] [Memo] Verwendung von Beautiful Soup4 (2) Zeigen Sie die Artikelüberschrift mit Anfragen an

Das HTML von Websites im Internet enthält verschiedene Informationen, und es ist schwierig, diese selbst zu analysieren. Daher verwenden wir eine Bibliothek namens Requests, die HTML erhält.

Dieses Mal lernen wir, wie Sie Anfragen verwenden, indem wir die Überschriften von Artikeln in der Inlandsspalte von MSN Japan abrufen.

In [1] Schöne Suppe importieren, Anfragen und Re

In[1]


from bs4 import BeautifulSoup
import requests
import Re

In [2] Speichern Sie HTML-Informationen in der Variablen urlshutoku

In[2]


urlshutoku = requests.get("https://www.msn.com/ja-jp")

Versuchen Sie in [3], die gesamte Seite anzuzeigen

In[3]


urlshutoku.text

Wenn In [3] angezeigt wird, werden unnötige Informationen stärker wahrgenommen, sodass diesmal nur die Überschrift angezeigt wird, die die erforderlichen Informationen enthält. Zu diesem Zweck müssen die Überschrifteninformationen eingeholt werden. Hier kommen die Entwicklertools von Google Chrome ins Spiel.

Klicken Sie zunächst mit der rechten Maustaste auf die Überschrift und klicken Sie auf Validieren (I). Dann wird der folgende Bildschirm angezeigt. 2020-10-03_220938.png

Die zum Scraping verwendeten Informationen sind nur alphanumerische Informationen auf der linken Seite des obigen Bildschirms. Stellen Sie sicher, dass die Überschrift oben in dem Teil, in dem Sie zuvor auf Überprüfen geklickt haben, blau ist. Überprüfen Sie als Nächstes \ , das der URL der Artikelüberschrift entspricht. Andere Überschriften sind die gleichen, daher scheint \ ein Hinweis zu sein.

In [4] Analysiert mit Beautiful Soup und html.parser

In[4]


soup = BeautifulSoup(urlshutoku.text,"html.parser")

Extrahieren Sie inländische Überschriften mit In [5] find_all

In[5]


midashi = soup.find_all(href=re.compile("/ja-jp/news/national"))

Wenn Sie Midashi auf dem Jupyter-Notizbuch eingeben, werden die Überschrifteninformationen angezeigt, aber auch die URL-Informationen. Da es schwer zu sehen ist, können nur Zeichen angezeigt werden.

Zeigen Sie nur Zeichen mit In [6] für Anweisung und Zeichenfolge an

In[6]


for ichiran in midashi:
    print(ichiran.string)

Jetzt werden nur die Überschriften angezeigt.

Recommended Posts

[Memo] Verwendung von Beautiful Soup4 (2) Zeigen Sie die Artikelüberschrift mit Anfragen an
[Memo] Verwendung von BeautifulSoup4 (3) Zeigen Sie die Artikelüberschrift mit class_ an
[Memo] Verwendung von BeautifulSoup4 (1) HTML anzeigen
Verwendung des Generators
Wie benutzt man den Dekorateur?
Verwendung von cron (persönliches Memo)
Python: So verwenden Sie Async mit
Verwendung der Zip-Funktion
Verwendung des optparse-Moduls
Verwendung von Anfragen (Python Library)
So verwenden Sie virtualenv mit PowerShell
[Memo] Verwendung von Google MµG
Verwendung des ConfigParser-Moduls
[Python] Erklärt anhand eines Beispiels, wie die Formatierungsfunktion verwendet wird
Verwendung der Spark ML-Pipeline
Verwendung von ManyToManyField mit Djangos Admin
Verwendung von OpenVPN mit Ubuntu 18.04.3 LTS
Verwendung von Cmder mit PyCharm (Windows)
[Linux] Verwendung des Befehls echo
Wie man Ass / Alembic mit HtoA benutzt
Verwendung von Japanisch mit NLTK-Plot
So zeigen Sie Python-Japanisch mit Lolipop an
Verwendung des Jupyter-Notebooks mit ABCI
Verwendung des CUT-Befehls (mit Beispiel)
Verwendung des IPython-Debuggers (ipdb)
Verwendung von SQLAlchemy / Connect mit aiomysql
Verwendung des JDBC-Treibers mit Redash
[Python] Erklärt anhand eines konkreten Beispiels, wie die Bereichsfunktion verwendet wird
Verwendung der C-Bibliothek in Python
Verwendung der GCP-Ablaufverfolgung mit offener Telemetrie
So verwenden Sie MkDocs zum ersten Mal
[Python] So ändern Sie das Datumsformat (Anzeigeformat)
Geben Sie die ausführbare Python-Datei an, die mit virtualenv verwendet werden soll
So testen Sie den Friends-of-Friends-Algorithmus mit pyfof
Verwendung der Grafikzeichnungsbibliothek Bokeh
So kratzen Sie Pferderenndaten mit Beautiful Soup
Verwendung der Google Cloud Translation API
Verwendung der NHK-Programmführer-API
Der einfachste Weg, OpenCV mit Python zu verwenden
[Algorithmus x Python] Verwendung der Liste
Wie man tkinter mit Python in Pyenv benutzt
So zeigen Sie Bilder kontinuierlich mit matplotlib Memo an
Wie man Kaldi mit JUST Corpus trainiert
So zeigen Sie im gesamten Fenster an, wenn Sie das Hintergrundbild mit tkinter einstellen
Verwendung von xml.etree.ElementTree
So erstellen Sie einen Artikel über die Befehlszeile
Verwendung von virtualenv
Wie benutzt man Seaboan?
Verwendung von Image-Match
So löschen Sie die angegebene Zeichenfolge mit dem Befehl sed! !! !!
Wie man Shogun benutzt
Hinweise zur Verwendung von AIST Spacon ABCI
Verwendung von Pandas 2
Verwendung von Virtualenv
[Einführung in Python] Wie iteriere ich mit der Bereichsfunktion?
Verwendung von numpy.vectorize
So erstellen Sie ein Untermenü mit dem Plug-In [Blender]
Verwendung von pytest_report_header