Ich möchte die gecrawlten Websites nach dem Aktualisierungsdatum der Website sortieren, wusste jedoch nicht, wie ich das Aktualisierungsdatum der Website ermitteln soll, und habe es daher nachgeschlagen.
Ich möchte den Zeitstempel einer Datei erhalten, die mit Python im WEB abgelegt wurde. Gepostet am 13.10.2017 14:41 Last-Modified
Der HTTP-Antwortheader "Zuletzt geändert" enthält Datum und Uhrzeit, zu denen der Ursprungsserver feststellt, dass die Ressource zuletzt geändert wurde. Es wird als Überprüfungsmaterial verwendet, um festzustellen, ob die empfangenen oder gespeicherten Ressourcen identisch sind. Es ist weniger genau als der ETag-Header und eine Alternative.
get_lastmodified.py
import requests
res = requests.head('https://www.kantei.go.jp')
print(res.headers['Last-Modified'])
import datetime
html_timestamp = datetime.datetime.strptime(res.headers['Last-Modified'], "%a, %d %b %Y %H:%M:%S GMT")
print(html_timestamp)
% python get_lastmodified.py
Mon, 17 Feb 2020 08:27:02 GMT
2020-02-17 08:27:02
Wir konvertieren auch datetime in das Standardformat.
Diese Methode ist für dynamische Sites zu schwach, daher habe ich etwas mehr darüber nachgedacht.
Holen Sie sich das Datum der Aktualisierung der Website ernst
Recommended Posts