Web Scraping-> Sammeln von HTML-Daten für eine Website und Extrahieren und Formatieren bestimmter Daten.
Dieses Mal werde ich eine der Methoden von Python bzw. Ruby vorstellen.
Python: BeautifulSoup4
Schöne Suppe ist in Python sehr praktisch.
pip install beautifulsoup4
import urllib2
from bs4 import BeautifulSoup
html = urllib2.urlopen("http://example.com")
# =>Natürlich können Sie auch Dateien lesen.
soup = BeautifulSoup(html)
#Viele nützliche Methoden!
soup.find_all('td')
soup.find("head").find("title")
soup.find_parents()
soup.find_parent()
soup.descendants()
#Es scheint, dass Sie Tags umbenennen, Attributwerte ändern, hinzufügen und löschen können!
tag = soup.a
tag.string = "New link text."
tag
# => <a href="">New link text.</a>
soup = BeautifulSoup("<a>Foo</a>")
soup.a.append("Bar")
# => <a href="">FooBar</a>
Ich habe Python noch nie benutzt, aber es hat viel Spaß gemacht, es zu benutzen.
Ruby: nokogiri
gem install nokogiri
source 'https://rubygems.org'
gem 'nokogiri'
bundle
charset = nil
html = open("http://example.com") do |f|
charset = f.charset
f.read
end
doc = Nokogiri::HTML.parse(html, nil, charset)
doc.title
doc.xpath('//h2 | //h3').each do |link|
puts link.content
end
html = File.open('data.html', encoding: 'utf-8') { |file| file.read }
doc = Nokogiri::HTML.parse(html, nil) do |d|
d.xpath('//td').each do |td|
pp td.content
end
end
Ich persönlich mochte Ruby doch.
Scraping mit Python und Beautiful Soup-Qiita http://qiita.com/itkr/items/513318a9b5b92bd56185 kondou.com --Beautiful Soup 4.2.0 Doc. Japanische Übersetzung (2013-11-19 zuletzt aktualisiert) http://kondou.com/BS4/# Ruby Scraping mit Nokogiri [Tutorial für Anfänger] - Sake, 泪, Ruby, Rails http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/
Recommended Posts