Holen Sie sich nur Artikel von Webseiten in Python

Eine Bibliothek, mit der Sie problemlos Text von Webseiten extrahieren können

Das Extrahieren von mit Python gekratzten Daten ist für HTML-Tags oder spätere Minuten nicht hilfreich Zusätzliche Informationen werden häufig erhalten.

In einem solchen Fall benötigen Sie lediglich *** readability-lxml ***. Ich werde hier erklären

Zuerst installieren

(env)$pip install readability-lxml

Erstellen Sie eine Dienstprogrammklasse wie die folgende

`utils.py`


# -*- coding:utf8 -*-
import lxml.html
import readability
def get_content(html):
    """
Aus HTML-Zeichenfolgen(Titel,Text)Holen Sie sich den Tapple von.
    """

    document = readability.Document(html)
    content_html = document.summary()
    #Entfernen Sie HTML-Tags und erhalten Sie nur den Textkörper.
    content_text = lxml.html.fromstring(content_html).text_content().strip()
    short_title = document.short_title()
    return short_title, content_text

Testen Sie, ob Sie den Titel und den Inhalt mithilfe der Utility-Klasse tatsächlich abrufen können (Ich habe einen Artikel von Yahoo News verwendet)

import utils
import requests
obj = requests.get('https://headlines.yahoo.co.jp/hl?a=20191230-00000310-oric-ent')
title,content = utils.get_content(obj.content)
print(title)
print(content)

Bitte bestätigen Sie, dass der Artikel wie folgt erworben wurde.

Änderungsprotokoll

--2019 / 12/31 Neu erstellt

Recommended Posts

Holen Sie sich nur Artikel von Webseiten in Python

Erhalten Sie Wechselkurse von offenen Wechselkursen in Python

Holen Sie sich den Batteriestand von SwitchBot mit Python

Holen Sie sich mit Python die Niederschlagswahrscheinlichkeit aus XML

Abrufen des Metrikverlaufs von MLflow in Python

Holen Sie sich mit Python Zeitreihendaten von k-db.com

Holen Sie sich mit Python Daten vom GPS-Modul mit 10 Hz

Holen Sie sich YouTube-Kommentare in Python

Holen Sie sich letzten Monat in Python

OCR aus PDF in Python

Holen Sie sich Evernote-Notizen in Python

Holen Sie sich japanische Synonyme mit Python

Holen Sie sich Ihre Herzfrequenz von der Fitbit-API in Python!

Rufen Sie den Wert ab, während Sie den Standardwert aus dict in Python angeben

Drücken Sie in Python auf REST, um Daten von New Relic abzurufen

Ruft Makrokonstanten aus der C (++) - Headerdatei (.h) in Python ab

Nachricht vom ersten Offset mit Kafka Consumer in Python abrufen

Holen Sie sich LeapMotion-Daten in Python.

Pythonweb Scraping-Get-Elemente in loser Schüttung

Holen Sie sich den Desktop-Pfad in Python

Holen Sie sich Web-Screen-Capture mit Python

Holen Sie sich den Skriptpfad in Python

Extrahieren Sie mit Python Text aus Bildern

Holen Sie sich ein Kommunikationsmemo in Python

Holen Sie sich den Desktop-Pfad in Python

Holen Sie sich den Hostnamen in Python

Webcodierer versucht Excel in Python

Beginnen Sie mit Python mit Blender

Extrahieren Sie mit Python Zeichenfolgen aus Dateien

So erhalten Sie eine Zeichenfolge aus einem Befehlszeilenargument in Python

Holen Sie sich mit Python zusätzliche Daten zu LDAP

[Python] Webanwendung von 0! Hands-on (2) -Hallo Welt-

[Python] Webanwendung von 0! Hands-on (3) -API-Implementierung-

Python VBA, um mit Selenium die gesamte WEB-Seite zu erfassen

Holen Sie sich HTML von Element mit Python-Selen

[Hinweis] Mit Python Daten von PostgreSQL abrufen

Holen Sie sich Suica Balance in Python (mit libpafe)

Holen Sie sich Tastenanschläge von / dev / input (python evdev)

Python: Lesen von JSON-Daten von der Web-API

Wiederbelebt von "kein Internetzugang" in Python

Verhindern Sie den doppelten Start von cron in Python

Holen Sie sich Google Fit API-Daten in Python

So erhalten Sie den Wert aus dem Parameterspeicher in Lambda (mit Python)

Wie bekomme ich Stacktrace in Python?

Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API

[Python] Webanwendung von 0! Hands-on (4) -Datenformung-

Holen Sie sich ein Zeichen für Conoha mit Python

Beginnen wir mit TopCoder in Python (Version 2020)

Generieren Sie eine Klasse aus einer Zeichenfolge in Python

Generieren Sie mit Python eine C-Sprache aus dem S-Ausdruck

Ruft die EDINET-Codeliste in Python ab

In Python von Markdown in HTML konvertieren

Holen Sie sich die Cloud-Protokollierung in Python in 10 Minuten

[Python] Webanwendung von 0! Hands-on (0) -Umweltbau-

[Python] Nur eine Liste der Ordner abrufen

[Python] Holen Sie sich die Hauptfarbe aus dem Screenshot

Entfernen Sie DICOM-Bilder in Python