[PYTHON] XPath-Grundlagen (1) - Grundkonzept von XPath

Es gibt zwei Möglichkeiten, Daten automatisch von der Website abzurufen. Eine besteht darin, einen Webcrawler in einer Programmiersprache wie Python zu erstellen, und die andere ist ein [Web Scraping Tool](https: //www.octoparse.) Wie Octoparse. jp / blog / top-30-freie-Web-Scraping-Software /), um die Daten zu erhalten. In jedem Fall spielt XPath eine wichtige Rolle. Wenn Sie wissen, wie man XPath schreibt, können Sie die Daten korrekter und effizienter abrufen.

In der XPath-Reihe möchte ich daher das Grundkonzept von XPath detailliert auf das Schreiben und Anwenden von XPath eingehen.

Dieser Artikel stellt kurz die grundlegenden Konzepte von XPath vor.

1. Was ist XPath?

XPath (XML Path Language) ist ein Element aus einem XML / HTML-Dokument mit einer Baumstruktur. Es ist eine übersichtliche Syntax (Sprache) zum Angeben von Werten wie und Attributen. Da Webseiten normalerweise in HTML geschrieben sind, wird XPath häufig verwendet, um Informationen über Webseiten abzurufen. Wenn Sie den HTML-Code einer Webseite in einem Browser (Chrome, Firefox usw.) anzeigen, können Sie einfach auf das entsprechende HTML-Dokument zugreifen, indem Sie die Taste F12 drücken. 1.png

2. Wie XPath funktioniert

Werfen wir einen Blick darauf, wie XPath speziell funktioniert. Das Bild unten ist Teil eines HTML-Dokuments. 2.png

HTML hat verschiedene Ebenen, wie eine Baumstruktur. In diesem Beispiel ist Level 1 ** Buchhandlung ** und Level 2 ist ** Buch **. ** Titel, Autor, Jahr, Preis ** sind alle Level 3.

Text, der spitze Klammern enthält (z. B. ), wird als Tag bezeichnet. HTML-Elemente bestehen normalerweise aus einem Start- und einem End-Tag, zwischen denen Inhalte eingefügt werden. Es hat die folgende Form.

** <○○> (Starttag) Der Inhalt wird hier eingegeben ... </ ○○> (Endtag) **

XPath beschreibt die Hierarchie, die durch einen Schrägstrich „/“ getrennt ist, und Sie können einen anderen Knoten vom Referenzknoten angeben. Ähnlich wie URL. Wenn Sie in diesem Beispiel nach dem Element "author" suchen, sieht der XPath folgendermaßen aus:

/bookstore/book/author

Weitere Informationen zur Funktionsweise finden Sie unter So finden Sie eine bestimmte Datei auf Ihrem Computer. 3.png

Um die Datei mit dem Namen "author" zu finden, lautet der richtige Dateipfad ** \ bookstore \ book \ author **.

So wie jede Datei auf Ihrem Computer einen eigenen Pfad hat, hat auch ein Element auf einer Webseite einen eigenen Pfad. Der Pfad ist in XPath beschrieben.

Der XPath, der am Stammelement (dem obersten Element des Dokuments) beginnt und alle Elemente im Zielelement durchläuft, wird als absoluter XPath bezeichnet.

** Beispiel: / html / body / div / div / div / div / div / div / div / div / div / div / span / span / span ... **

Absoluter XPath kann lang und verwirrend sein. Um absoluten XPath zu vereinfachen, können Sie "//" verwenden, um halbe Pfade wegzulassen (auch als kurzer XPath bekannt).

Zum Beispiel

** Absoluter XPath: / bookstore / book / author ** ** Kurzer XPath: // Autor **

3. XPath anzeigen / schreiben

[Für Google Chrome]

Zeigen Sie diese Seite in Chrome an und zeigen Sie die Entwicklertools über das Kontextmenü Validieren an. Klicken Sie in HTML auf der Registerkarte Element mit der rechten Maustaste auf das Element. Wählen Sie im Menü [Kopieren] -> [XPath kopieren], um den XPath zu kopieren und das Element in die Zwischenablage zu verschieben. xpath-chrome2.png

Drücken Sie auf der angezeigten HTML-Registerkarte Element die Taste „Strg + F“, um das Suchfeld anzuzeigen. Wenn Sie den XPath eingeben, sollte das resultierende Element ausgewählt werden. mceclip0.png

Sie können auch eine Erweiterung namens "XPath Helper" hinzufügen. Geben Sie den XPath ein und Sie sehen übereinstimmende Ergebnisse. (XPath Helper installieren) 25.png

[Für Firefox]

Sie können die in der vorherigen Version von Firefox installierte Erweiterung "Firebug" verwenden. ([So installieren Sie die Firebug & FireXPath-Erweiterung](https://helpcenter.octoparse.jp/hc/ja/articles/360015765193-Firebug-FireXPath%E6%8B%A1%E5%BC%B5%E6%A9%9F] % E8% 83% BD% E3% 82% 92% E3% 82% A4% E3% 83% B3% E3% 82% B9% E3% 83% 88% E3% 83% BC% E3% 83% AB% E3 % 81% 99% E3% 82% 8B% E6% 96% B9% E6% B3% 95))

Öffnen Sie eine Webseite in Firefox. ➡ Klicken Sie auf die Schaltfläche Firebug. ➡ Klicken Sie auf ein Element auf der Seite. ➡ Der XPath dieses Elements wird angezeigt. mceclip3.png

Das Obige ist das Grundkonzept von XPath. Nächstes Mal zeige ich Ihnen, wie man XPath schreibt. Freuen Sie sich also darauf!

Originalartikel: https://helpcenter.octoparse.jp/hc/ja/articles/360015765513

Recommended Posts

XPath-Grundlagen (1) - Grundkonzept von XPath
Python-Grundlagen ①
Grundlagen von Python ①
Grundlegende Verwendung von Flask-Classy
Grundlegende Verwendung von Jinja2
Grundlegende Bedienung von Pandas
Grundlegende Verwendung von SQL Alchemy
# 4 [Python] Grundlagen der Funktionen
Grundkenntnisse in Python
Grundlagen von Netzwerkprogrammen?
Die Gründung der Perceptron-Stiftung
Grundlagen der Regressionsanalyse
Grundlagen von Python: Ausgabe
Super grundlegende Verwendung von Pytest
Grundlagen des maschinellen Lernens (Denkmal)
Grundlegende Verwendung der PySimple-Benutzeroberfläche
Grundlegender Ablauf der Erkennung von Anomalien
Zusammenfassung der grundlegenden Verwendung von Pandas
Einzeiliges Basisdiagramm von HoloViews
Grundlegende Verwendung von Python-F-String
Python x GIS-Grundlagen (1)
Grundkenntnisse in Linux und Grundbefehle
Python x GIS-Grundlagen (3)
Paiza Python Primer 5: Grundlagen von Wörterbüchern
Zusammenfassung der Grundkenntnisse von PyPy Teil 1
Zusammenfassung der grundlegenden Implementierung von PyTorch
XPath-Grundlagen (3) -Funktionen, die häufig für XPath verwendet werden
Erste Schritte mit Python Grundlagen von Python
Über den Grundtyp von Go
[Muss für Anfänger] Grundlagen von Linux
Themenextraktion von japanischem Text 1 Grundlagen
Überprüfung der Grundlagen von Python (FizzBuzz)
Grundlagen der Quanteninformationstheorie: Entropie (2)
Grundlagen von Python x GIS (Teil 2)
Grundlagen zum Berühren von MongoDB mit MongoEngine
Lesen Sie "Grundlagen des Quantenglühens", Tag 6
Informationen zur Grundlagenliste der Python-Grundlagen
Grundlegendes Studium von OpenCV mit Python
Lernen Sie die Grundlagen von Python ① Grundlegende Anfänger