Ich denke, es gibt verschiedene Methoden, aber es ist die grundlegende Methode in den Grundlagen.
Verwenden Sie Anfragen aus einer Bibliothek eines Drittanbieters. Sie können es auch aus der Standardbibliothek urllib.request abrufen. Mit der Standardbibliothek nur grundlegende GET- und POST-Anforderungen. Das Hinzufügen von HTTP-Headern und die grundlegende Authentifizierung sind problematisch. Verwenden Sie also die Bibliothek "Requests".
import requests
# GET
r = requests.get(URL)
#
r = requests.get(URL, params={'key': 'val'})
# POST
p = requests.post(URL, data={'key': 'val'})
#
b = requests.get(URL, auth=('', ''))
import sys
import requests
url = sys.argv[1]
r = requests.get(url)
#r.json()Grundlegende Authentifizierung Benutzer-ID-Kennwort WEB-Seite erfassen und codieren Es ist auch möglich, mit json zu erfassen, indem die Codierung anhand der Byte-Zeichenfolge des Antwortkörpers geschätzt wird
r.encoding = r.apparent_encoding
print(r.text)
import sys
import re
import requests
url = sys.argv[1]
r = requests.get(url)
#Angenommen, der Zeichensatz befindet sich am Anfang, wird nur der Anfang als ASCII-Zeichenfolge dekodiert
scanned_text = r.content[:1024].decode('ascii', errors='replace')
#Extrahieren Sie den Zeichensatzwert mit einem regulären Ausdruck aus der dekodierten Zeichenfolge
match = re.search(r'charset=["\']?([\w-]+)', scanned_text)
if match:
r.encoding = match.group(1)
else:
r.encoding = 'utf-8'
print(r.text)
Recommended Posts