Die erste der ersten Serie ist so viel wie möglich Python ... (Wird diese Serie ordnungsgemäß fortgesetzt?) Diese Serie ist auch nicht wie das Schreiben von Code, der die Arbeit so automatisieren kann, wie sie ist, aber es ist eine Serie, die dies automatisiert usw. ** ** **
** Bitte lesen Sie dies unbedingt. ** ** ** Zuallererst bedeutet Scraping, dass der Computer die Arbeit erledigt, die Menschen erledigen, sodass Sie viele Male darauf zugreifen können. Dies stellt jedoch eine Belastung für den Server dar. Daher müssen Maßnahmen ergriffen werden, z. B. einmal pro Sekunde.
Von hier ist das wichtigste. Sie müssen überprüfen, ob die Site, die Sie kratzen, das Schaben zulässt, und so weiter.
Ich werde es für diejenigen schreiben, die alt sind und schnell kratzen, ohne so etwas zu sagen.
Installieren Sie zunächst die für das Scraping erforderlichen Bibliotheken.
Es ist eine Bibliothek namens Schöne Suppe.
Wenn Sie Anaconda installiert haben, ist es von Anfang an enthalten. Wenn Sie jedoch eine Fehlermeldung erhalten, führen Sie diesen Code aus.
conda install BeautifulSoup4 lxml
Ist der Conda-Befehl nicht ein Pip? Es kann nicht geholfen werden. ~~ Gentle Faguri wird es schreiben. ~~
pip install BeautifulSoup4 lxml
Bitte führen Sie die.
code.py
from bs4 import BeautifulSoup
import requests
page_data = requests.get('https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0').text
page = BeautifulSoup(page_data, 'lxml')
for element in page.select("#mw-content-text > div > p:nth-child(1)"):
print(element.text)
Web Scraping (englisch: Web Scraping) ist eine Computersoftwaretechnologie, die Informationen von Websites extrahiert. Auch als Webcrawler [1] oder Webspider [2] bekannt. Solche Softwareprogramme erfassen WWW-Inhalte normalerweise durch Implementierung von HTTP auf niedriger Ebene oder durch Einbetten eines Webbrowsers.
Für diejenigen, die gerade erst angefangen haben, denke ich, dass es Nanikore ist, insbesondere "für Element in page.select (" # mw-content-text> div> p: n-tes Kind (1) "):" Ich werde. # mw-content-text> div> p: n-tes Kind (1) "): So finden Sie es (wie die Erklärung der Mathematik) Klicken Sie mit der rechten Maustaste in Google Chrome> Verifizierung> Und![Verification.png](https: / /qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/551445/6751d074-acea-990a-04af-3e246bd654fb.png)
Klicken Sie auf den Bereich, der vom roten Rahmen umgeben ist, setzen Sie den Cursor auf den Bereich, den Sie kratzen möchten, klicken Sie mit der rechten Maustaste auf den hellblauen Bereich, kopieren Sie ihn mit der Auswahl Kopieren> Kopieren und fügen Sie ihn in diesen Bereich ein. ~~ Dies wird sich auch für Anfänger nicht beschweren ~~
Es hängt von der Person ab, aber Python kann allein dadurch geschabt werden. Pass auf deinen Körper auf! (Es spielt überhaupt keine Rolle)
Recommended Posts