Der HTTP-Zugriff über einen Proxy in Python Web Scraping war bei Anfragen einfach

Ich versuche Web-Scraping mit urllib und Beautifulsoup in Python3. Letztes Mal habe ich einen Kommunikationsfehler aufgrund von Proxy behoben. Was tun, wenn aufgrund der Proxy-Einstellungen beim Python Web Scraping keine Antwort erfolgt? Die Kommunikation über http funktionierte gut mit der oben genannten Methode, aber als ich eine https-Site wurde, wurde keine Kommunikation hergestellt und es trat ein Fehler auf. Ich bin in Schwierigkeiten, weil es auf den letzten Websites viele https gibt. .. : enttäuscht_relieved: Das Hinzufügen des Elements "https" zu Proxys wie unten gezeigt löst das Problem nicht. proxies={"http":"http:proxy.-----.co.jp/proxy.pac", "https":"http:proxy.-----.co.jp/proxy.pac"}

Als ich nachschaute, fand ich eine Bibliothek namens Anfragen. Ich habe versucht, es anstelle von Urllib zu verwenden, und es war überraschend einfach zu lösen.

Ein Beispiel für die Verwendung ist wie folgt.

requsts_sample.py


import requests

proxies = {
"http":"http://proxy.-----.co.jp/proxy.pac",
"https":"http://proxy.-----.co.jp/proxy.pac"
}
r = requests.get('https://github.com/timeline.json', proxies=proxies)
print(r.text)

Wenn Sie Beautifulsourp verwenden, sollten Sie den Inhalt des von request.get erhaltenen Objekts übergeben. Hier ist ein einfaches Beispiel.

python::requests_beautifulsoup_sample.py


import requests
from bs4 import BeautifulSoup

proxies = {
'http':'http://proxy.-----.co.jp/proxy.pac',
'https':'http://proxy.-----.co.jp/proxy.pac'
}

def getBS(url):
    html = requests.get(url, proxies=proxies)
    bsObj = BeautifulSoup(html.content, "html.parser")
    return bsObj

htmlSource = getBS("https://en.wikipedia.org/wiki/Kevin_Bacon")

#Zeigen Sie die auf der Seite vorhandenen Links an
for link in htmlSource.findAll("a"):
    if 'href' in link.attrs:
        print(link.attrs['href'])

Die Anforderungsbibliothek wurde aufgenommen, als ich Python 3.5.2 auf Anaconda installierte. Sie können die von Anaconda Navigator installierten Pakete überprüfen. Wenn Sie die GUI unter Windows installiert haben, finden Sie sie unter Windows-> Alle Programme-> Anaconda3-> Anaconda Navigator.

Klicken Sie hier für den Schnellstart der Anforderungsbibliothek

Recommended Posts

Der HTTP-Zugriff über einen Proxy in Python Web Scraping war bei Anfragen einfach
Einfaches Web-Scraping mit Python und Ruby
Web Scraping mit Python + JupyterLab
Einfaches Scraping mit Python (JavaScript / Proxy / Cookie-kompatible Version)
Einfaches Web-Scraping mit Scrapy
Web Scraping Anfänger mit Python
Web Scraping mit Python Erster Schritt
Ich habe versucht, WebScraping mit Python.
WEB-Scraping mit Python (für persönliche Notizen)
Erste Schritte mit Python Web Scraping Practice
[Persönlicher Hinweis] Scraping von Webseiten in Python3
Pferderennseite Web Scraping mit Python
Erste Schritte mit Python Web Scraping Practice
Einfache Web-App mit Python + Flask + Heroku
Üben des Web-Scrapings mit Python und Selen
[Für Anfänger] Versuchen Sie Web Scraping mit Python
Scraping mit Python
Scraping mit Python
Führen Sie das WEB-Scraping regelmäßig mit AWS-Lambda + Python + Cron aus
Web Scraping mit Python (Wettervorhersage)
Web Scraping mit Python (Aktienkurs)
Versuchen Sie es mit Python.
Datenanalyse zur Verbesserung von POG 1 ~ Web Scraping mit Python ~
Schnelles Web-Scraping mit Python (unterstützt das Laden von JavaScript)
Ich war süchtig danach, 2020 mit Selen (+ Python) zu kratzen
Python-Anfänger bleiben beim ersten Web-Scraping stecken
[Für Anfänger] Web-Scraping mit Python "Greifen Sie auf die URL auf der Seite zu, um den Inhalt abzurufen."
Schaben mit Selen [Python]
Wiederholen Sie den Vorgang mit Python-Anforderungen
Scraping mit Python + PyQuery
Abrufen von Daten aus der Datenbank über ODBC mit Python (Access)
Scraping von RSS mit Python
Webcrawlen, Web-Scraping, Zeichenerfassung und Speichern von Bildern mit Python
Ich habe versucht, mit Python zu kratzen
Schaben mit Selen in Python
Schaben mit Selen + Python Teil 1
[Analyse des gemeinsamen Auftretens] Einfache Analyse des gemeinsamen Auftretens mit Python! [Python]
Schaben mit Chromedriver in Python
Festliches Scraping mit Python, Scrapy
Speichern Sie Bilder mit Web Scraping
Einfache Ordnersynchronisation mit Python
Scraping mit Selen in Python
Scraping mit Tor in Python
Web-API mit Python + Falcon
Web Scraping mit Selenium (Python)
Kratzwettervorhersage mit Python
Einfache Python-Kompilierung mit NUITKA-Utilities
Einfacher HTTP-Server mit Python
Einfache Proxy-Anmeldung mit Django-Hijack
Schaben mit Selen + Python Teil 2
Greifen Sie mit Python auf Google Drive zu
Webanwendung mit Python + Flask ② ③
Ich habe versucht, mit Python zu kratzen
Optimieren Sie die Websuche mit Python
Webanwendung mit Python + Flask ④
Versuchen Sie es mit Python + Beautiful Soup