[PYTHON] Verwenden Sie ScraperWiki, um regelmäßig Daten von Ihrer Website abzurufen

Wenn Sie den Dienst "ScraperWiki" verwenden, können Sie Web Scraping verwenden, ohne selbst einen Server mieten zu müssen. 82% A6% E3% 82% A7% E3% 83% 96% E3% 82% B9% E3% 82% AF% E3% 83% AC% E3% 82% A4% E3% 83% 94% E3% 83% B3% E3% 82% B0) kann regelmäßig durchgeführt werden.

Funktionen von ScraperWiki

Bildschirmfoto

Skriptbearbeitungsbildschirm scraperwiki201401221.JPG

DB 201401222.JPG

Beispiel für ein Scraper-Skript

#!/usr/bin/env python
import scraperwiki
import lxml.html
import json

url = "http://target.website.hoge/index.html" #Zielstelle zum Abkratzen
html = scraperwiki.scrape(url)		#HTML-Dokumentenerfassung
root = lxml.html.fromstring(html)	#Holen Sie sich das Stammelementobjekt

data = []
id = 0
for el in root.cssselect("#hoge_contents > li > span"):  #Elemente mit CSS-Selektor extrahieren
    data.append({'id':id, 'text':el.text })	#Speichern Sie den Text des extrahierten Elements
    id = id + 1

print repr(data)	#Gespeicherte Daten an die Konsole ausgeben


# Saving data:
unique_keys = [ 'id' ] #Geben Sie einen eindeutigen Schlüssel an
scraperwiki.sql.save(unique_keys, data)	#In DB speichern

Beispiel tatsächlich verwendet http://shimz.me/blog/d3-js/3353

Recommended Posts

Verwenden Sie ScraperWiki, um regelmäßig Daten von Ihrer Website abzurufen
Holen Sie sich Daten von Twitter mit Tweepy
Holen Sie sich Daten von VPS MySQL mit Python 3 und SQL Alchemy
Ich habe versucht, mit Scrapy Daten von einer Website zu sammeln
Ich habe versucht, Daten aus einer Datei mit Node.js zu lesen.
So erhalten Sie mit einer vielseitigen Methode nur die erforderlichen Daten aus der strukturierten Datengruppe
[Schatzdaten] [Python] Führen Sie mit dem TD-Client eine Abfrage zu Schatzdaten aus.
Ich habe versucht, mit pypyodbc schnell Daten von AS / 400 abzurufen
Strukturdaten von CHEMBLID abrufen
Verschieben Sie CloudWatch-Protokolle regelmäßig mit Lambda nach S3
Erstellen Sie mit turicreate eine API, die Daten aus einem Modell zurückgibt
Schreiben Sie mit Broadcast präzise Operationen für jedes Paar in die Daten
Regelmäßiges Serverless Scraping mit AWS Lambda + Scrapy Teil 1
So bekommen Sie einen Ingenieur aus Ihren 30ern
Ich habe versucht, mit pypyodbc Preparation 1 schnell Daten von AS / 400 abzurufen
Abrufen von Salesforce-Daten mithilfe der REST-API
Hinweise zur Verwendung von MeCab aus Python
Abrufen von Amazon-Daten mit Keep API # 1 Abrufen von Daten
Verwenden einer seriellen Konsole unter Ubuntu 20.04
Verwenden Sie Matplotlib, um mehrere Liniendiagramme gleichzeitig aus einem Datenrahmen zu erstellen
[Persönliches Memo] Holen Sie sich Daten im Web und machen Sie daraus einen DataFrame
Erhalten Sie eine Domain mit GCP und MyDNS (Wake on LAN over NAT [1])