[PYTHON] Utilisez ScraperWiki pour obtenir régulièrement des données de votre site Web

Si vous utilisez le service "ScraperWiki", vous pouvez utiliser Web Scraping sans avoir à louer un serveur vous-même. 82% A6% E3% 82% A7% E3% 83% 96% E3% 82% B9% E3% 82% AF% E3% 83% AC% E3% 82% A4% E3% 83% 94% E3% 83% B3% E3% 82% B0) peut être effectué régulièrement.

Caractéristiques de ScraperWiki

capture d'écran

Écran d'édition de script scraperwiki201401221.JPG

DB 201401222.JPG

Exemple de script Scraper

#!/usr/bin/env python
import scraperwiki
import lxml.html
import json

url = "http://target.website.hoge/index.html" #Site cible à gratter
html = scraperwiki.scrape(url)		#acquisition de documents html
root = lxml.html.fromstring(html)	#Obtenir l'objet élément racine

data = []
id = 0
for el in root.cssselect("#hoge_contents > li > span"):  #Extraire des éléments avec le sélecteur CSS
    data.append({'id':id, 'text':el.text })	#Enregistrez le texte de l'élément extrait
    id = id + 1

print repr(data)	#Sortie des données enregistrées vers la console


# Saving data:
unique_keys = [ 'id' ] #Spécifiez une clé unique
scraperwiki.sql.save(unique_keys, data)	#Enregistrer dans la base de données

Exemple réellement utilisé http://shimz.me/blog/d3-js/3353

Recommended Posts

Utilisez ScraperWiki pour obtenir régulièrement des données de votre site Web
Obtenez des données de Twitter avec Tweepy
Obtenez des données de VPS MySQL avec Python 3 et SQL Alchemy
J'ai essayé de collecter des données sur un site Web avec Scrapy
J'ai essayé de lire les données d'un fichier en utilisant Node.js.
Comment obtenir uniquement les données nécessaires du groupe de données structurées à l'aide d'une méthode polyvalente
[Treasure Data] [Python] Exécutez une requête sur Treasure Data à l'aide du client TD.
J'ai essayé d'obtenir rapidement des données d'AS / 400 en utilisant pypyodbc
Obtenir les données structurelles de CHEMBLID
Déplacer régulièrement les journaux CloudWatch vers S3 avec Lambda
Créer une API qui renvoie les données d'un modèle à l'aide de turicreate
Écriture concise des opérations pour chaque paire dans les données à l'aide de la diffusion
Grattage sans serveur régulier avec AWS lambda + scrapy, partie 1
Comment obtenir un ingénieur de la trentaine
J'ai essayé d'obtenir rapidement des données d'AS / 400 en utilisant pypyodbc Préparation 1
Obtenir des données Salesforce à l'aide de l'API REST
Obtenir des données de Quandl en Python
Remarques sur l'utilisation de MeCab depuis Python
Obtenez des données Amazon à l'aide de Keep API # 1 Obtenez des données
Utilisation d'une console série sur Ubuntu 20.04
Utilisez Matplotlib pour créer plusieurs graphiques linéaires à partir d'un bloc de données à la fois
[Mémo personnel] Obtenez des données sur le Web et faites-en un DataFrame
Obtenir un domaine à l'aide de GCP et MyDNS (Wake on LAN over NAT [1])