Obtenez uniquement des articles de pages Web en Python

Une bibliothèque qui vous permet d'extraire facilement du texte à partir de pages Web

L'extraction de données récupérées avec Python n'est pas utile pour les balises HTML ou les minutes ultérieures Des informations supplémentaires sont souvent obtenues.

Dans un tel cas, *** readability-lxml *** est tout ce dont vous avez besoin. Je vais expliquer ici

Installez d'abord

(env)$pip install readability-lxml 

Créez une classe utilitaire comme celle ci-dessous

utils.py


# -*- coding:utf8 -*-
import lxml.html
import readability
def get_content(html):
    """
À partir de chaînes HTML(Titre,Texte)Obtenez le tapple de.
    """

    document = readability.Document(html)
    content_html = document.summary()
    #Débarrassez-vous des balises HTML et obtenez uniquement le corps du texte.
    content_text = lxml.html.fromstring(content_html).text_content().strip()
    short_title = document.short_title()
    return short_title, content_text

Testez si vous pouvez réellement obtenir le titre et le contenu à l'aide de la classe utilitaire (J'ai utilisé un article de Yahoo News)

import utils
import requests
obj = requests.get('https://headlines.yahoo.co.jp/hl?a=20191230-00000310-oric-ent')
title,content = utils.get_content(obj.content)
print(title)
print(content)

Veuillez confirmer que l'article est acquis comme suit. image.png

Journal des modifications

--2019 / 12/31 nouvellement créé

Recommended Posts

Obtenez uniquement des articles de pages Web en Python
Obtenir des données de Quandl en Python
Obtenez des taux de change à partir des taux de change ouverts en Python
Obtenez le niveau de la batterie de SwitchBot avec Python
Obtenez la probabilité de précipitation de XML avec Python
Obtenir l'historique des métriques de MLflow en Python
Obtenez des données de séries chronologiques de k-db.com avec Python
Obtenez des données du module GPS à 10 Hz avec Python
Obtenez des commentaires YouTube en Python
Obtenez le mois dernier en Python
OCR à partir de PDF en Python
Obtenez des notes Evernote en Python
Obtenez des synonymes japonais avec Python
Obtenez votre fréquence cardiaque à partir de l'API fitbit en Python!
Obtenez la valeur tout en spécifiant la valeur par défaut de dict en Python
Appuyez sur REST en Python pour obtenir des données de New Relic
Obtenir des constantes de macro à partir du fichier d'en-tête C (++) (.h) en Python
Obtenir le message du premier offset avec le consommateur kafka en python
Obtenez des données LeapMotion en Python.
pythonweb scraping-get éléments en vrac
Obtenez le chemin du bureau en Python
Obtenez une capture d'écran Web avec python
Obtenez le chemin du script en Python
Extraire du texte d'images avec Python
Obtenir, publier un mémo de communication en Python
Obtenez le chemin du bureau en Python
Obtenez le nom d'hôte en Python
le codeur Web a essayé d'exceller en Python
Démarrez avec Python avec Blender
Extraire des chaînes de fichiers avec Python
Comment obtenir une chaîne à partir d'un argument de ligne de commande en python
Obtenez des données supplémentaires vers LDAP avec python
[Python] Application Web à partir de 0! Pratique (2) -Bonjour le monde-
[Python] Application Web à partir de 0! Pratique (3) - Mise en œuvre de l'API
Python VBA pour obtenir une capture de la page WEB entière avec Selenium
Obtenir le code HTML de l'élément avec du sélénium Python
[Note] Obtenir des données de PostgreSQL avec Python
Obtenir l'équilibre Suica en Python (en utilisant libpafe)
Récupérer les frappes de / dev / input (python evdev)
Python: lecture de données JSON à partir de l'API Web
Relancé de "pas d'accès Internet" en Python
Empêcher le double lancement de cron en Python
Obtenez les données de l'API Google Fit en Python
Comment obtenir la valeur du magasin de paramètres dans lambda (en utilisant python)
Comment obtenir stacktrace en python
Obtenez des données Youtube en Python à l'aide de l'API Youtube Data
[Python] Application Web à partir de 0! Pratique (4) - Mise en forme des données-
Obtenez un jeton pour conoha avec python
Commençons avec TopCoder en Python (version 2020)
Générer une classe à partir d'une chaîne en Python
Générer un langage C à partir d'une expression S avec Python
Obtenir la liste de codes EDINET en Python
Convertir de Markdown en HTML en Python
Obtenez Cloud Logging disponible en Python en 10 minutes
[Python] Application Web à partir de 0! Pratique (0) -Construction environnementale-
[Python] Obtenir une liste de dossiers uniquement
[Python] Obtenez la couleur principale de la capture d'écran
Débarrassez-vous des images DICOM en Python