Es gibt zwei Möglichkeiten, Daten automatisch von der Website abzurufen. Eine besteht darin, einen Webcrawler in einer Programmiersprache wie Python zu erstellen, und die andere ist ein [Web Scraping Tool](https: //www.octoparse.) Wie Octoparse. jp / blog / top-30-freie-Web-Scraping-Software /), um die Daten zu erhalten. In jedem Fall spielt XPath eine wichtige Rolle. Wenn Sie wissen, wie man XPath schreibt, können Sie die Daten korrekter und effizienter abrufen.
In der XPath-Reihe möchte ich daher das Grundkonzept von XPath detailliert auf das Schreiben und Anwenden von XPath eingehen.
Dieser Artikel stellt kurz die grundlegenden Konzepte von XPath vor.
XPath (XML Path Language) ist ein Element aus einem XML / HTML-Dokument mit einer Baumstruktur. Es ist eine übersichtliche Syntax (Sprache) zum Angeben von Werten wie und Attributen. Da Webseiten normalerweise in HTML geschrieben sind, wird XPath häufig verwendet, um Informationen über Webseiten abzurufen. Wenn Sie den HTML-Code einer Webseite in einem Browser (Chrome, Firefox usw.) anzeigen, können Sie einfach auf das entsprechende HTML-Dokument zugreifen, indem Sie die Taste F12 drücken.
Werfen wir einen Blick darauf, wie XPath speziell funktioniert. Das Bild unten ist Teil eines HTML-Dokuments.
HTML hat verschiedene Ebenen, wie eine Baumstruktur. In diesem Beispiel ist Level 1 ** Buchhandlung ** und Level 2 ist ** Buch **. ** Titel, Autor, Jahr, Preis ** sind alle Level 3.
Text, der spitze Klammern enthält (z. B.
** <○○> (Starttag) Der Inhalt wird hier eingegeben ... </ ○○> (Endtag) **
XPath beschreibt die Hierarchie, die durch einen Schrägstrich „/“ getrennt ist, und Sie können einen anderen Knoten vom Referenzknoten angeben. Ähnlich wie URL. Wenn Sie in diesem Beispiel nach dem Element "author" suchen, sieht der XPath folgendermaßen aus:
/bookstore/book/author
Weitere Informationen zur Funktionsweise finden Sie unter So finden Sie eine bestimmte Datei auf Ihrem Computer.
Um die Datei mit dem Namen "author" zu finden, lautet der richtige Dateipfad ** \ bookstore \ book \ author **.
So wie jede Datei auf Ihrem Computer einen eigenen Pfad hat, hat auch ein Element auf einer Webseite einen eigenen Pfad. Der Pfad ist in XPath beschrieben.
Der XPath, der am Stammelement (dem obersten Element des Dokuments) beginnt und alle Elemente im Zielelement durchläuft, wird als absoluter XPath bezeichnet.
** Beispiel: / html / body / div / div / div / div / div / div / div / div / div / div / span / span / span ...
**
Absoluter XPath kann lang und verwirrend sein. Um absoluten XPath zu vereinfachen, können Sie "//" verwenden, um halbe Pfade wegzulassen (auch als kurzer XPath bekannt).
Zum Beispiel
** Absoluter XPath: / bookstore / book / author
**
** Kurzer XPath: // Autor
**
Zeigen Sie diese Seite in Chrome an und zeigen Sie die Entwicklertools über das Kontextmenü Validieren an. Klicken Sie in HTML auf der Registerkarte Element mit der rechten Maustaste auf das Element. Wählen Sie im Menü [Kopieren] -> [XPath kopieren], um den XPath zu kopieren und das Element in die Zwischenablage zu verschieben.
Drücken Sie auf der angezeigten HTML-Registerkarte Element die Taste „Strg + F“, um das Suchfeld anzuzeigen. Wenn Sie den XPath eingeben, sollte das resultierende Element ausgewählt werden.
Sie können auch eine Erweiterung namens "XPath Helper" hinzufügen. Geben Sie den XPath ein und Sie sehen übereinstimmende Ergebnisse. (XPath Helper installieren)
Sie können die in der vorherigen Version von Firefox installierte Erweiterung "Firebug" verwenden. ([So installieren Sie die Firebug & FireXPath-Erweiterung](https://helpcenter.octoparse.jp/hc/ja/articles/360015765193-Firebug-FireXPath%E6%8B%A1%E5%BC%B5%E6%A9%9F] % E8% 83% BD% E3% 82% 92% E3% 82% A4% E3% 83% B3% E3% 82% B9% E3% 83% 88% E3% 83% BC% E3% 83% AB% E3 % 81% 99% E3% 82% 8B% E6% 96% B9% E6% B3% 95))
Öffnen Sie eine Webseite in Firefox. ➡ Klicken Sie auf die Schaltfläche Firebug. ➡ Klicken Sie auf ein Element auf der Seite. ➡ Der XPath dieses Elements wird angezeigt.
Das Obige ist das Grundkonzept von XPath. Nächstes Mal zeige ich Ihnen, wie man XPath schreibt. Freuen Sie sich also darauf!
Originalartikel: https://helpcenter.octoparse.jp/hc/ja/articles/360015765513
Recommended Posts