Das Extrahieren von mit Python gekratzten Daten ist für HTML-Tags oder spätere Minuten nicht hilfreich Zusätzliche Informationen werden häufig erhalten.
In einem solchen Fall benötigen Sie lediglich *** readability-lxml ***. Ich werde hier erklären
(env)$pip install readability-lxml
Erstellen Sie eine Dienstprogrammklasse wie die folgende
utils.py
# -*- coding:utf8 -*-
import lxml.html
import readability
def get_content(html):
"""
Aus HTML-Zeichenfolgen(Titel,Text)Holen Sie sich den Tapple von.
"""
document = readability.Document(html)
content_html = document.summary()
#Entfernen Sie HTML-Tags und erhalten Sie nur den Textkörper.
content_text = lxml.html.fromstring(content_html).text_content().strip()
short_title = document.short_title()
return short_title, content_text
Testen Sie, ob Sie den Titel und den Inhalt mithilfe der Utility-Klasse tatsächlich abrufen können (Ich habe einen Artikel von Yahoo News verwendet)
import utils
import requests
obj = requests.get('https://headlines.yahoo.co.jp/hl?a=20191230-00000310-oric-ent')
title,content = utils.get_content(obj.content)
print(title)
print(content)
Bitte bestätigen Sie, dass der Artikel wie folgt erworben wurde.
--2019 / 12/31 Neu erstellt
Recommended Posts