Holen Sie sich nur Artikel von Webseiten in Python

Eine Bibliothek, mit der Sie problemlos Text von Webseiten extrahieren können

Das Extrahieren von mit Python gekratzten Daten ist für HTML-Tags oder spätere Minuten nicht hilfreich Zusätzliche Informationen werden häufig erhalten.

In einem solchen Fall benötigen Sie lediglich *** readability-lxml ***. Ich werde hier erklären

Zuerst installieren

(env)$pip install readability-lxml 

Erstellen Sie eine Dienstprogrammklasse wie die folgende

utils.py


# -*- coding:utf8 -*-
import lxml.html
import readability
def get_content(html):
    """
Aus HTML-Zeichenfolgen(Titel,Text)Holen Sie sich den Tapple von.
    """

    document = readability.Document(html)
    content_html = document.summary()
    #Entfernen Sie HTML-Tags und erhalten Sie nur den Textkörper.
    content_text = lxml.html.fromstring(content_html).text_content().strip()
    short_title = document.short_title()
    return short_title, content_text

Testen Sie, ob Sie den Titel und den Inhalt mithilfe der Utility-Klasse tatsächlich abrufen können (Ich habe einen Artikel von Yahoo News verwendet)

import utils
import requests
obj = requests.get('https://headlines.yahoo.co.jp/hl?a=20191230-00000310-oric-ent')
title,content = utils.get_content(obj.content)
print(title)
print(content)

Bitte bestätigen Sie, dass der Artikel wie folgt erworben wurde. image.png

Änderungsprotokoll

--2019 / 12/31 Neu erstellt

Recommended Posts

Holen Sie sich nur Artikel von Webseiten in Python
Erhalten Sie Wechselkurse von offenen Wechselkursen in Python
Holen Sie sich den Batteriestand von SwitchBot mit Python
Holen Sie sich mit Python die Niederschlagswahrscheinlichkeit aus XML
Abrufen des Metrikverlaufs von MLflow in Python
Holen Sie sich mit Python Zeitreihendaten von k-db.com
Holen Sie sich mit Python Daten vom GPS-Modul mit 10 Hz
Holen Sie sich YouTube-Kommentare in Python
Holen Sie sich letzten Monat in Python
OCR aus PDF in Python
Holen Sie sich Evernote-Notizen in Python
Holen Sie sich japanische Synonyme mit Python
Holen Sie sich Ihre Herzfrequenz von der Fitbit-API in Python!
Rufen Sie den Wert ab, während Sie den Standardwert aus dict in Python angeben
Drücken Sie in Python auf REST, um Daten von New Relic abzurufen
Ruft Makrokonstanten aus der C (++) - Headerdatei (.h) in Python ab
Nachricht vom ersten Offset mit Kafka Consumer in Python abrufen
Holen Sie sich LeapMotion-Daten in Python.
Pythonweb Scraping-Get-Elemente in loser Schüttung
Holen Sie sich den Desktop-Pfad in Python
Holen Sie sich Web-Screen-Capture mit Python
Holen Sie sich den Skriptpfad in Python
Extrahieren Sie mit Python Text aus Bildern
Holen Sie sich ein Kommunikationsmemo in Python
Holen Sie sich den Desktop-Pfad in Python
Holen Sie sich den Hostnamen in Python
Webcodierer versucht Excel in Python
Beginnen Sie mit Python mit Blender
Extrahieren Sie mit Python Zeichenfolgen aus Dateien
So erhalten Sie eine Zeichenfolge aus einem Befehlszeilenargument in Python
Holen Sie sich mit Python zusätzliche Daten zu LDAP
[Python] Webanwendung von 0! Hands-on (2) -Hallo Welt-
[Python] Webanwendung von 0! Hands-on (3) -API-Implementierung-
Python VBA, um mit Selenium die gesamte WEB-Seite zu erfassen
Holen Sie sich HTML von Element mit Python-Selen
[Hinweis] Mit Python Daten von PostgreSQL abrufen
Holen Sie sich Suica Balance in Python (mit libpafe)
Holen Sie sich Tastenanschläge von / dev / input (python evdev)
Python: Lesen von JSON-Daten von der Web-API
Wiederbelebt von "kein Internetzugang" in Python
Verhindern Sie den doppelten Start von cron in Python
Holen Sie sich Google Fit API-Daten in Python
So erhalten Sie den Wert aus dem Parameterspeicher in Lambda (mit Python)
Wie bekomme ich Stacktrace in Python?
Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API
[Python] Webanwendung von 0! Hands-on (4) -Datenformung-
Holen Sie sich ein Zeichen für Conoha mit Python
Beginnen wir mit TopCoder in Python (Version 2020)
Generieren Sie eine Klasse aus einer Zeichenfolge in Python
Generieren Sie mit Python eine C-Sprache aus dem S-Ausdruck
Ruft die EDINET-Codeliste in Python ab
In Python von Markdown in HTML konvertieren
Holen Sie sich die Cloud-Protokollierung in Python in 10 Minuten
[Python] Webanwendung von 0! Hands-on (0) -Umweltbau-
[Python] Nur eine Liste der Ordner abrufen
[Python] Holen Sie sich die Hauptfarbe aus dem Screenshot
Entfernen Sie DICOM-Bilder in Python