[Grundlagen der Datenwissenschaft] Sammeln von Daten aus RSS mit Python

Sagte das Ding

Die Serie geht vorerst weiter. Ich plane, die Analyse der erfassten Daten in Zukunft weiter zu schreiben. (Pläne)

Dieses Mal erhalten wir Daten von Yahoo! News per RSS und geben Nachrichtenüberschriften und Links aus.

$ python yahoo_news_rss.py

damit,

Yahoo!Nachrichtenthemen-oben
http://dailynews.yahoo.co.jp/fc/world/nuclear_weapons/?id=6160968
Das kaputte NVV-Dokument konnte nicht angenommen und geschlossen werden
http://dailynews.yahoo.co.jp/fc/domestic/injury_case/?id=6160975
4 tote und verletzte Männer festgenommen
http://dailynews.yahoo.co.jp/fc/economy/coffee_chain/?id=6160962
Über tausend Menschen bei den Starba Tottori Open
http://dailynews.yahoo.co.jp/fc/economy/apparel/?id=6160961
Barbary geht es gut und sie beendet den Vertrag im Juni
http://dailynews.yahoo.co.jp/fc/science/life_on_earth/?id=6160969
Wird das Konzept der "Null" von Affen erkannt?
http://dailynews.yahoo.co.jp/fc/sports/prowrestling/?id=6160973
Erste Tigermaske Notfallchirurgie
http://dailynews.yahoo.co.jp/fc/entertainment/broad_casting/?id=6160945
Ablehnung der Live-Übertragung Yuko Ando verwirrt
http://dailynews.yahoo.co.jp/fc/domestic/obituary/?id=6160936
Das kämpfende Krankheitsidol Maruyama stirbt

Ich werde erklären, wie man RSS einfach bis zu dem Punkt verwendet, an dem es erscheint.

Was ist RSS?

RSS ist ein allgemeiner Begriff für verschiedene Dokumentformate zum einfachen Kompilieren und Verteilen von Updates auf verschiedenen Websites wie Nachrichten und Blogs.

Aus Wiki. Mit anderen Worten, es ist mühsam, echtes Scraping durchzuführen, aber es fühlt sich so an, als ob es leicht für die Informationsbeschaffung zusammengestellt werden kann.

Richten Sie die Module aus.

Installieren Sie feedparser

Verwenden Sie feedparser, um RSS-Feeds zu analysieren.

Installieren Sie also den Feed-Parser [this](http: // otiai10.hatenablog.com/entry/2012/05/04/180950)が参考になった。

Wie feedparser funktioniert

Wie Sie unter Dokumentation sehen können, sollten Sie die folgenden beiden Schlüssel berücksichtigen.

entries

A list of dictionaries. Each dictionary contains data from a different entry. Entries are listed in the order in which they appear in the original feed.

feed

A dictionary of data about the feed.

Eine Liste aller internen Schlüssel finden Sie unter Dokumentation.

RSS abrufen und anzeigen

Yahoo bietet RSS unter [Gefällt mir](http://headlines.yahoo.co.jp/rss/list http://headlines.yahoo.co.jp/rss/list). Hier erfahren Sie, wie Sie das zurückgegebene XML analysieren, indem Sie diese URL in ein Wörterbuch eingeben.

yahoo_news_rss.py


import feedparser

RSS_URL = "http://rss.dailynews.yahoo.co.jp/fc/rss.xml"

yahoo_news_dic = feedparser.parse(RSS_URL)

Die Nachrichten sind jetzt im Wörterbuch. In der Feedparser-Dokumentation finden Sie Informationen zur Struktur.

Im Folgenden werden der gesamte Titel sowie der Titel und der Link jedes Artikels angezeigt.

yahoo_news_rss.py


print yahoo_news_dic.feed.title

for entry in yahoo_news_dic.entries:
  title = entry.title
  link  = entry.link
  print link
  print title

Und wie es am Anfang war

Yahoo!Nachrichtenthemen-oben
http://dailynews.yahoo.co.jp/fc/world/nuclear_weapons/?id=6160968
Das kaputte NVV-Dokument konnte nicht angenommen und geschlossen werden
http://dailynews.yahoo.co.jp/fc/domestic/injury_case/?id=6160975
4 tote und verletzte Männer festgenommen
http://dailynews.yahoo.co.jp/fc/economy/coffee_chain/?id=6160962
Über tausend Menschen bei den Starba Tottori Open
http://dailynews.yahoo.co.jp/fc/economy/apparel/?id=6160961
Barbary geht es gut und sie beendet den Vertrag im Juni
http://dailynews.yahoo.co.jp/fc/science/life_on_earth/?id=6160969
Wird das Konzept der "Null" von Affen erkannt?
http://dailynews.yahoo.co.jp/fc/sports/prowrestling/?id=6160973
Erste Tigermaske Notfallchirurgie
http://dailynews.yahoo.co.jp/fc/entertainment/broad_casting/?id=6160945
Ablehnung der Live-Übertragung Yuko Ando verwirrt
http://dailynews.yahoo.co.jp/fc/domestic/obituary/?id=6160936
Das kämpfende Krankheitsidol Maruyama stirbt

Es kommt mit einem Gefühl heraus.

Wie oben erwähnt, ist der Quellcode auch hier.

Recommended Posts

[Grundlagen der Datenwissenschaft] Sammeln von Daten aus RSS mit Python
[Data Science-Grundlagen] Ich habe versucht, mit Python von CSV auf MySQL zu speichern
Erste Schritte mit Python Grundlagen von Python
Sammeln von Informationen von Twitter mit Python (Twitter API)
Grundlagen der binärisierten Bildverarbeitung durch Python
Empfangen Sie Textdaten von MySQL mit Python
[Hinweis] Mit Python Daten von PostgreSQL abrufen
Python-Grundlagen ①
Empfehlung von Altair! Datenvisualisierung mit Python
[Einführung in Data Scientist] Grundlagen von Python ♬
Sammeln von Informationen von Twitter mit Python (Umgebungskonstruktion)
Extrahieren Sie mit Python Daten von einer Webseite
Datenanalyse mit Python 2
Tweets mit Python sammeln
Grundlagen der Python-Scraping-Grundlagen
# 4 [Python] Grundlagen der Funktionen
Grundlagen von Python: Ausgabe
Datenanalyse mit Python
Scraping von RSS mit Python
Lerne Nim mit Python (ab Anfang des Jahres).
So kratzen Sie Bilddaten von Flickr mit Python
Sammeln von Informationen von Twitter mit Python (morphologische Analyse mit MeCab)
Fordern Sie die Hauptkomponentenanalyse von Textdaten mit Python heraus
[Grundlagen der modernen mathematischen Statistik mit Python] Kapitel 1: Wahrscheinlichkeit
Abrufen von Daten aus der Datenbank über ODBC mit Python (Access)
Mit Python erstellte Beispieldaten
Holen Sie sich Youtube-Daten mit Python
Python: Grundlagen der Verwendung von Scikit-Learn ①
Mit Skype benachrichtigen Sie mit Skype von Python!
Python x GIS-Grundlagen (1)
Lesen von JSON-Daten mit Python
Versuchen Sie, COVID-19 Tokyo-Daten mit Python zu kratzen
Extrahieren Sie die Vorlage der aus Thunderbird gespeicherten EML-Datei mit python3.7
Befreien Sie sich mit Python und regulären Ausdrücken von schmutzigen Daten
[Python] Extrahieren Sie Textdaten aus XML-Daten von 10 GB oder mehr.
Die Geschichte eines Rubinisten, der mit Python :: Dict-Daten mit Pycall kämpft
[Homologie] Zählen Sie mit Python die Anzahl der Löcher in den Daten
Xpath-Zusammenfassung beim Extrahieren von Daten von einer Website mit Python Scrapy
Abrufen von Daten aus der Analyse-API mit Google API Client für Python
Implementieren Sie die Normalisierung der Vorverarbeitung von Python-Trainingsdaten mit scicit-learn [fit_transform].
[Python] Ich habe versucht, Daten mit der API von Wikipedia zu sammeln
Sammeln von Informationen von Twitter mit Python (Integration von MySQL und Python)
Grundlegende Zusammenfassung der Datenoperationen mit Python Pandas - Erste Hälfte: Datenerstellung und -operationen
Portiert von der R-Sprache von "Sazae-sans Janken Data Analysis" nach Python
So extrahieren Sie Funktionen von Zeitreihendaten mit PySpark Basics
Paiza Python Primer 5: Grundlagen von Wörterbüchern
Rufen Sie C von Python mit DragonFFI auf
Verwenden von Rstan aus Python mit PypeR
Test der Spracherkennung mit Azure mit Python (Eingabe vom Mikrofon)
Installieren Sie Python von der Quelle mit Ansible
Praktische Übung zur Datenanalyse mit Python ~ 2016 New Coder Survey Edition ~
Existenz aus Sicht von Python
[Python] Mit DataReader Wirtschaftsdaten abrufen
So vermeiden Sie doppelte Daten bei der Eingabe von Python in SQLite.
Einführung in die Datenanalyse mit Python P17-P26 [ch02 1.usa.gov Daten von bit.ly]