Ich habe versucht, ein Web-Scraping-Programm mit Pythons Urllib und Beautifulsoup zu erstellen. Ich habe jedoch eine Fehlermeldung erhalten (eine Meldung wie die folgende), dass die erste urllib.request.urlopen (...) nicht geantwortet hat.
Es scheint, dass die Kommunikation aufgrund des Vorhandenseins des Proxyservers nicht hergestellt wurde. Der Proxy war im Internet Explorer wie folgt.
[Extras] -> [Internetoptionen] -> [Verbindungen] -> [LAN-Einstellungen]
[x] Verwenden Sie ein automatisches Konfigurationsskript
Das automatische Konfigurationsskript war http://proxy.-----.co.jp/proxy.pac. (----- ist nicht die tatsächliche, es ist in der Lücke.)
Vor urlopen habe ich es gelöst, indem ich ProxyHandler für urllib.request vorbereitet, in build_opener festgelegt und build_opener installiert habe.
Der Beispielcode ist unten.
scrapetest.py
import urllib.request
proxies ={'http':'http://proxy.-----.co.jp/proxy.pac'}
proxy_handler = urllib.request.ProxyHandler(proxies)
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)
html = urllib.request.urelopen("http://wwww.pythonscraping.com/pages/page1.html")
print(html.read())
Die Entwicklungsumgebung ist Python 3.5.2 von Anaconda unter Windows.
Weitere Informationen zum Programmieren von Web-Scraping finden Sie im folgenden Buch. Web Scraping mit Python (O'Reilly)
Recommended Posts