Einfaches Web-Scraping mit Python und Ruby

Web Scraping-> Sammeln von HTML-Daten für eine Website und Extrahieren und Formatieren bestimmter Daten.

Dieses Mal werde ich eine der Methoden von Python bzw. Ruby vorstellen.

Python: BeautifulSoup4

Schöne Suppe ist in Python sehr praktisch.

Installation

pip install beautifulsoup4

Wie benutzt man

import urllib2
from bs4 import BeautifulSoup

html = urllib2.urlopen("http://example.com")
# =>Natürlich können Sie auch Dateien lesen.

soup = BeautifulSoup(html)

#Viele nützliche Methoden!
soup.find_all('td')
soup.find("head").find("title")
soup.find_parents()
soup.find_parent()
soup.descendants()

#Es scheint, dass Sie Tags umbenennen, Attributwerte ändern, hinzufügen und löschen können!
tag = soup.a
tag.string = "New link text."
tag
# => <a href="">New link text.</a>

soup = BeautifulSoup("<a>Foo</a>")
soup.a.append("Bar")
# => <a href="">FooBar</a>

Ich habe Python noch nie benutzt, aber es hat viel Spaß gemacht, es zu benutzen.

Ruby: nokogiri

Installation

gem install nokogiri
source 'https://rubygems.org'
gem 'nokogiri'
bundle

Wie benutzt man

charset = nil
html = open("http://example.com") do |f|
  charset = f.charset 
  f.read 
end

doc = Nokogiri::HTML.parse(html, nil, charset)

doc.title
doc.xpath('//h2 | //h3').each do |link|
  puts link.content
end
html = File.open('data.html', encoding: 'utf-8') { |file| file.read }
doc = Nokogiri::HTML.parse(html, nil) do |d|
  d.xpath('//td').each do |td|
    pp td.content
  end
end

Ich persönlich mochte Ruby doch.

Referenz

Scraping mit Python und Beautiful Soup-Qiita http://qiita.com/itkr/items/513318a9b5b92bd56185 kondou.com --Beautiful Soup 4.2.0 Doc. Japanische Übersetzung (2013-11-19 zuletzt aktualisiert) http://kondou.com/BS4/# Ruby Scraping mit Nokogiri [Tutorial für Anfänger] - Sake, 泪, Ruby, Rails http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/

Recommended Posts

Einfaches Web-Scraping mit Python und Ruby
Scraping mit Node, Ruby und Python
Üben des Web-Scrapings mit Python und Selen
Web Scraping mit Python + JupyterLab
Einfaches Web-Scraping mit Scrapy
Web Scraping Anfänger mit Python
Scraping mit Python, Selen und Chromedriver
Scraping mit Python
Scraping mit Python
Webcrawlen, Web-Scraping, Zeichenerfassung und Speichern von Bildern mit Python
WEB-Scraping mit Python (für persönliche Notizen)
Erste Schritte mit Python Web Scraping Practice
[Persönlicher Hinweis] Scraping von Webseiten in Python3
Pferderennseite Web Scraping mit Python
Erste Schritte mit Python Web Scraping Practice
Einfache Web-App mit Python + Flask + Heroku
[Für Anfänger] Versuchen Sie Web Scraping mit Python
Der HTTP-Zugriff über einen Proxy in Python Web Scraping war bei Anfragen einfach
Scraping in Python (Vorbereitung)
Versuchen Sie es mit Python.
Scraping mit Python + PhantomJS
Ruby, Python und Map
Python und Ruby teilen sich
Schaben mit Selen [Python]
Scraping mit Python + PyQuery
Scraping von RSS mit Python
Kratzen Sie das Essen mit Python und geben Sie es an CSV aus
Ich habe versucht, Web-Scraping mit Python und Selen
Starten Sie einen Webserver mit Python und Flask
Web Scraping mit Python (Wettervorhersage)
Web Scraping mit Python (Aktienkurs)
Programmieren mit Python und Tkinter
Ich habe versucht, mit Python zu kratzen
Ver- und Entschlüsselung mit Python
Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~
Schaben mit Selen in Python
Python und Hardware-Verwenden von RS232C mit Python-
Schaben mit Selen + Python Teil 1
Python auf Ruby und wütend Ruby auf Python
[Analyse des gemeinsamen Auftretens] Einfache Analyse des gemeinsamen Auftretens mit Python! [Python]
Einfaches Scraping mit Python (JavaScript / Proxy / Cookie-kompatible Version)
Schaben mit Chromedriver in Python
Speichern Sie Bilder mit Web Scraping
Laden Sie mp4 einfach teilweise mit Python und youtube-dl herunter!
Python und Ruby Slice Memo
Analysieren und visualisieren Sie JSON (Webanwendung ⑤ mit Python + Flask)
Scraping mit Selen in Python
WEB-Scraping-Technologie und Bedenken
Schnelles Web-Scraping mit Python (unterstützt das Laden von JavaScript)
Web-API mit Python + Falcon
Python-Anfänger bleiben beim ersten Web-Scraping stecken
Ruby- und Python-Syntax ~ branch ~
WEB Scraping mit Python und versuchen, aus Bewertungen eine Wortwolke zu machen
Web Scraping mit Selenium (Python)
Kratzwettervorhersage mit Python