Einfaches Web-Scraping mit Python und Ruby

Web Scraping-> Sammeln von HTML-Daten für eine Website und Extrahieren und Formatieren bestimmter Daten.

Dieses Mal werde ich eine der Methoden von Python bzw. Ruby vorstellen.

Python: BeautifulSoup4

Schöne Suppe ist in Python sehr praktisch.

Installation

pip install beautifulsoup4

Wie benutzt man

import urllib2
from bs4 import BeautifulSoup

html = urllib2.urlopen("http://example.com")
# =>Natürlich können Sie auch Dateien lesen.

soup = BeautifulSoup(html)

#Viele nützliche Methoden!
soup.find_all('td')
soup.find("head").find("title")
soup.find_parents()
soup.find_parent()
soup.descendants()

#Es scheint, dass Sie Tags umbenennen, Attributwerte ändern, hinzufügen und löschen können!
tag = soup.a
tag.string = "New link text."
tag
# => <a href="">New link text.</a>

soup = BeautifulSoup("<a>Foo</a>")
soup.a.append("Bar")
# => <a href="">FooBar</a>

Ich habe Python noch nie benutzt, aber es hat viel Spaß gemacht, es zu benutzen.

Ruby: nokogiri

Installation

gem install nokogiri

source 'https://rubygems.org'
gem 'nokogiri'

bundle

Wie benutzt man

charset = nil
html = open("http://example.com") do |f|
  charset = f.charset 
  f.read 
end

doc = Nokogiri::HTML.parse(html, nil, charset)

doc.title
doc.xpath('//h2 | //h3').each do |link|
  puts link.content
end

html = File.open('data.html', encoding: 'utf-8') { |file| file.read }
doc = Nokogiri::HTML.parse(html, nil) do |d|
  d.xpath('//td').each do |td|
    pp td.content
  end
end

Ich persönlich mochte Ruby doch.

Referenz

Scraping mit Python und Beautiful Soup-Qiita http://qiita.com/itkr/items/513318a9b5b92bd56185 kondou.com --Beautiful Soup 4.2.0 Doc. Japanische Übersetzung (2013-11-19 zuletzt aktualisiert) http://kondou.com/BS4/# Ruby Scraping mit Nokogiri [Tutorial für Anfänger] - Sake, 泪, Ruby, Rails http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/

Recommended Posts

Einfaches Web-Scraping mit Python und Ruby

Scraping mit Node, Ruby und Python

Üben des Web-Scrapings mit Python und Selen

Web Scraping mit Python + JupyterLab

Einfaches Web-Scraping mit Scrapy

Web Scraping Anfänger mit Python

Scraping mit Python, Selen und Chromedriver

Scraping mit Python

Scraping mit Python

Webcrawlen, Web-Scraping, Zeichenerfassung und Speichern von Bildern mit Python

WEB-Scraping mit Python (für persönliche Notizen)

Erste Schritte mit Python Web Scraping Practice

[Persönlicher Hinweis] Scraping von Webseiten in Python3

Pferderennseite Web Scraping mit Python

Erste Schritte mit Python Web Scraping Practice

Einfache Web-App mit Python + Flask + Heroku

[Für Anfänger] Versuchen Sie Web Scraping mit Python

Der HTTP-Zugriff über einen Proxy in Python Web Scraping war bei Anfragen einfach

Scraping in Python (Vorbereitung)

Versuchen Sie es mit Python.

Scraping mit Python + PhantomJS

Ruby, Python und Map

Python und Ruby teilen sich

Schaben mit Selen [Python]

Scraping mit Python + PyQuery

Scraping von RSS mit Python

Kratzen Sie das Essen mit Python und geben Sie es an CSV aus

Ich habe versucht, Web-Scraping mit Python und Selen

Starten Sie einen Webserver mit Python und Flask

Web Scraping mit Python (Wettervorhersage)

Web Scraping mit Python (Aktienkurs)

Programmieren mit Python und Tkinter

Ich habe versucht, mit Python zu kratzen

Ver- und Entschlüsselung mit Python

Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~

Schaben mit Selen in Python

Python und Hardware-Verwenden von RS232C mit Python-

Schaben mit Selen + Python Teil 1

Python auf Ruby und wütend Ruby auf Python

[Analyse des gemeinsamen Auftretens] Einfache Analyse des gemeinsamen Auftretens mit Python! [Python]

Einfaches Scraping mit Python (JavaScript / Proxy / Cookie-kompatible Version)

Schaben mit Chromedriver in Python

Speichern Sie Bilder mit Web Scraping

Laden Sie mp4 einfach teilweise mit Python und youtube-dl herunter!

Python und Ruby Slice Memo

Analysieren und visualisieren Sie JSON (Webanwendung ⑤ mit Python + Flask)

Scraping mit Selen in Python

WEB-Scraping-Technologie und Bedenken

Schnelles Web-Scraping mit Python (unterstützt das Laden von JavaScript)

Web-API mit Python + Falcon

Python-Anfänger bleiben beim ersten Web-Scraping stecken

Ruby- und Python-Syntax ~ branch ~

WEB Scraping mit Python und versuchen, aus Bewertungen eine Wortwolke zu machen

Web Scraping mit Selenium (Python)

Kratzwettervorhersage mit Python