Scraping Web facile avec Python et Ruby

Web scraping-> Collecte de données HTML pour un site Web afin d'extraire et de formater des données spécifiques.

Cette fois, je présenterai l'une des méthodes de Python et Ruby respectivement.

Python: BeautifulSoup4

Beautiful Soup est assez pratique en Python.

Installation

pip install beautifulsoup4

Comment utiliser

import urllib2
from bs4 import BeautifulSoup

html = urllib2.urlopen("http://example.com")
# =>Bien sûr, vous pouvez également lire des fichiers.

soup = BeautifulSoup(html)

#Beaucoup de méthodes utiles!
soup.find_all('td')
soup.find("head").find("title")
soup.find_parents()
soup.find_parent()
soup.descendants()

#Il semble que vous puissiez renommer les balises, changer les valeurs d'attribut, les ajouter et les supprimer!
tag = soup.a
tag.string = "New link text."
tag
# => <a href="">New link text.</a>

soup = BeautifulSoup("<a>Foo</a>")
soup.a.append("Bar")
# => <a href="">FooBar</a>

Je n'ai jamais utilisé Python, mais c'était très amusant à utiliser.

Ruby: nokogiri

Installation

gem install nokogiri
source 'https://rubygems.org'
gem 'nokogiri'
bundle

Comment utiliser

charset = nil
html = open("http://example.com") do |f|
  charset = f.charset 
  f.read 
end

doc = Nokogiri::HTML.parse(html, nil, charset)

doc.title
doc.xpath('//h2 | //h3').each do |link|
  puts link.content
end
html = File.open('data.html', encoding: 'utf-8') { |file| file.read }
doc = Nokogiri::HTML.parse(html, nil) do |d|
  d.xpath('//td').each do |td|
    pp td.content
  end
end

Personnellement, j'aimais Ruby après tout.

référence

Grattage avec Python et Beautiful Soup-Qiita http://qiita.com/itkr/items/513318a9b5b92bd56185 kondou.com --Beautiful Soup 4.2.0 Doc. traduction japonaise (2013-11-19 dernière mise à jour) http://kondou.com/BS4/# Ruby grattage avec Nokogiri [Tutoriel pour les débutants] --Sake, 泪, Ruby, Rails http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/

Recommended Posts

Scraping Web facile avec Python et Ruby
Scraping avec Node, Ruby et Python
Pratiquer le web scraping avec Python et Selenium
Web scraping avec python + JupyterLab
Grattage Web facile avec Scrapy
Web scraping débutant avec python
Grattage avec Python, Selenium et Chromedriver
Grattage avec Python
Grattage avec Python
Exploration Web, scraping Web, acquisition de caractères et sauvegarde d'image avec python
Grattage WEB avec Python (pour mémo personnel)
Premiers pas avec Python Web Scraping Practice
[Note personnelle] Scraping de pages Web en python3
Site de courses de chevaux Web scraping avec Python
Premiers pas avec Python Web Scraping Practice
Application Web facile avec Python + Flask + Heroku
[Pour les débutants] Essayez le web scraping avec Python
L'accès https via un proxy dans le scraping Web Python était facile avec les demandes
Grattage en Python (préparation)
Essayez de gratter avec Python.
Grattage avec Python + PhantomJS
Ruby, Python et carte
Python et Ruby se séparent
Grattage avec du sélénium [Python]
Scraping avec Python + PyQuery
Scraping RSS avec Python
Grattage de la nourriture avec python et sortie en CSV
J'ai essayé le web scraping en utilisant python et sélénium
Lancer un serveur Web avec Python et Flask
Web scraping avec Python (prévisions météo)
Web scraping avec Python (cours de l'action)
Programmation avec Python et Tkinter
J'ai essayé de gratter avec Python
Chiffrement et déchiffrement avec Python
Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~
Grattage au sélénium en Python
Python et matériel - Utilisation de RS232C avec Python -
Grattage avec Selenium + Python Partie 1
Python sur Ruby et Ruby en colère sur Python
[Analyse de co-occurrence] Analyse de co-occurrence facile avec Python! [Python]
Grattage facile avec Python (version compatible JavaScript / Proxy / Cookie)
Grattage avec chromedriver en python
Enregistrez des images avec le web scraping
Téléchargez facilement et partiellement mp4 avec python et youtube-dl!
Mémo tranche python et rubis
Analyser et visualiser JSON (application Web ⑤ avec Python + Flask)
Grattage avec du sélénium en Python
Technologie de grattage WEB et préoccupations
Scrapage Web rapide avec Python (tout en prenant en charge le chargement JavaScript)
API Web avec Python + Falcon
Les débutants en Python sont bloqués dans leur premier scraping Web
Syntaxe Ruby et Python ~ branch ~
WEB grattage avec python et essayez de créer un nuage de mots à partir des critiques
Web scraping avec Selenium (Python)
Scraping prévisions météorologiques avec python