(Python) Hinweise zum Lesen von HTML und zur Verwendung regulärer Ausdrücke

Beim Anwenden eines regulären Ausdrucks auf eine HTML-Datei in Python Ich habe es in der Codierung und an anderen Stellen verwendet, daher lasse ich es als Memo.

I. Lesen von HTML-Dateien

Verwenden Sie die Codecs-Bibliothek. Weil es eine Standard-Python-Bibliothek ist(Appx. 1)Es kann nur durch Import ohne Installation verwendet werden.



import codecs f = codecs.open("hoge.html","r", encoding="utf-8")

### Hinweis
 - Stellen Sie sicher, dass Sie das Argument `` `encoding``` für die Funktion codecs.open angeben
 - In der Windows-Umgebung können Sie anscheinend nur die als Shift-JIS angegebenen Dateien lesen. Als ich unterstützte, gab es einen Vorgänger (App x. 2).

## II. Wenden Sie reguläre Ausdrücke an


#### **`Verwenden wir die Bibliothek. Dies ist auch eine Standardbibliothek(Appx. 1)Es kann also nur durch Import verwendet werden.`**
``` 1)Es kann also nur durch Import verwendet werden.


(Fortsetzung des vorherigen Kapitels)

import re str = f.read() regex = '[abc]' sample = re.findall(regex, str)

### Hinweis
 - Verwenden Sie unbedingt die Funktion `` `codecs.read ()` ``, bevor Sie die im vorherigen Kapitel gelesene HTML-Datei an jede Funktion von `` re``` übergeben.

### Typischer regulärer Ausdruck

 Das Folgende ist eine Liste von Funktionen, die als Funktionen von `` `re``` aus Appx.3 sehr vielseitig zu sein scheinen. Es wird angenommen, dass `` `Regex``` einen regulären Ausdruck enthält.

 - Vorwärtssuche: `` `re.search (Regex, String)` ``
 - Überprüft, ob sich das Regex-Muster in einer Zeichenfolge befindet, und gibt die Zeichenfolge (= Regex) zurück, falls vorhanden
 --Wenn die Suche fehlschlägt, wird None zurückgegeben, sodass Sie es problemlos für die bedingte Verzweigung verwenden können, z. B. mit `` `, wenn nicht re.search (Regex, String):` ``.
 --Such alle: `` `re.findall (Regex, String)` ``
 - Überprüft, ob sich das Regex-Muster in der Zeichenfolge befindet, und gibt eine Liste mit allen Übereinstimmungen zurück
 - Wenn Sie eine weitere Neuverarbeitung dieser Funktion durchführen möchten, verwenden Sie die Funktion str (um daraus eine Zeichenkette zu machen), um daraus eine Zeichenkette zu machen (App x. 4).
 --Ersetzung: `` `re (subgex, replace, string, count = 0)` ``
 --Überprüfen Sie, ob sich das Regex-Muster in der Zeichenfolge befindet, und ersetzen Sie es durch Ersetzen
 - Wenn Sie eine natürliche Zahl von 1 oder mehr eingeben, können Sie angeben, wie oft der entsprechende Regex-Teil vom Anfang der Zeichenfolge ersetzt werden soll. Wenn der Standardwert 0 ist, ersetzen Sie alle Teile
 ――Ich habe mich gefragt: "Wie drücken Sie die globale Suche (` `/ g```) in Python aus, wenn Sie einen regulären Ausdruck in JavaScript usw. schreiben?", Aber anscheinend ist dieser Wert count = 0 Es scheint ausgedrückt zu werden durch (App x. 5)

 Der reguläre Ausdruck selbst ist in Anhang 6 beschrieben.

 (das ist alles)

## Referenz (Anhang / Anhang)
 ―― 1. [Python-Standardbibliothek](https://docs.python.org/ja/3/library/index.html)
 ―― 2. [Geschichte, dass ich Schwierigkeiten hatte, andere Dateien als CP932 (Shift-JIS) zu öffnen, die unter Windows codiert sind](https://qiita.com/Yuu94/items/9ffdfcb2c26d6b33792e)
 --3 [re --- Operation für reguläre Ausdrücke](https://docs.python.org/ja/3/library/re.html)
- 4. [re.sub erroring with “Expected string or bytes-like object”](https://stackoverflow.com/questions/43727583/re-sub-erroring-with-expected-string-or-bytes-like-object)
- 5. [Python RegExp global flag
](https://stackoverflow.com/questions/11686516/python-regexp-global-flag)
 --6 [Liste der regulären Grundausdrücke](https://murashun.jp/blog/20190215-01.html)
 ――Ich benutze es immer, um reguläre Ausdrücke nachzuschlagen.


Recommended Posts

(Python) Hinweise zum Lesen von HTML und zur Verwendung regulärer Ausdrücke
Python-Theorie regulärer Ausdruck Anmerkungen
Python-Memo für reguläre Ausdrücke
Regulärer Ausdruck in Python
Manipulation regulärer Ausdrücke durch Python
Über Python und reguläre Ausdrücke
Lernen Sie die Grundlagen und Tipps der kanonischen Python-Ausdrücke von Grund auf neu
Hinweise zum Lesen und Schreiben von float32 TIFF-Bildern mit Python
Hinweise zu Python- und Wörterbuchtypen
Zeigen Sie Fotos in Python und HTML an
String-Ersetzung durch regulären Python-Ausdruck
Lesen und Schreiben von Python CSV-Dateien
Lesen und Schreiben von NetCDF mit Python
Lesen und Schreiben von CSV mit Python
(Persönliche Notizen) Python-Metaklassen und Metaprogrammierung
Lesen und Schreiben von Text in Python
Pythons regulärer Ausdruck, str und unicode sind nüchtern
Überlappende reguläre Ausdrücke in Python und Java
Hinweise zur Verwendung von cChardet und python3-chardet in Python 3.3.1.
Start / End-Match im regulären Python-Ausdruck
Lesen und Schreiben von JSON-Dateien mit Python
[Python] Lesen Sie die HTML-Datei und üben Sie das Scraping
Überprüfung und Extraktion der URL-Übereinstimmung mit dem regulären Python-Ausdruck Regex Complete-Version
Lösen mit Ruby, Perl, Java und Python AtCoder ABC 047 C Regulärer Ausdruck
Lesen Sie die Datei mit Python und löschen Sie die Zeilenumbrüche [Hinweise zum Lesen der Datei]
Python lernen note_000
Python-Lernnotizen
Hinweise zur Installation von Python3 und zur Verwendung von pip unter Windows7
Regulärer Ausdruck Gierig
Python-Anfängernotizen
Studie aus Python Lesen und Schreiben von Hour9-Dateien
Empfangen und Anzeigen von HTML-Formulardaten in Python
Python lernen note_006
Python C ++ Notizen
[Python] Reguläre Ausdrücke Reguläre Ausdrücke
Python lernen note_005
Python-Grammatiknotizen
Python Library Hinweis
Lesen und Schreiben passt Dateien mit Python (Memo)
Python persönliche Notizen
Symbolischer Gruppenname für reguläre Ausdrücke in Python / Ruby
Python Pandas Memo
Python lernen note_001
Python-Lernnotizen
Regulärer Ausdruck re
Installationshinweise zu Python3.4
Beispiel für das Lesen und Schreiben von CSV mit Python
[Python] AGC043A (Problemlesefähigkeit und DP) [At Coder]
Python-Textlesung für mehrere Zeilen und eine Zeile
Hinweise zur HDR- und RAW-Bildverarbeitung mit Python
kanonischer Python-Ausdruck oder Match-Objekt-Memo
Laden / Anzeigen und Beschleunigen von GIF mit Python [OpenCV]
[Python] Komprimieren und dekomprimieren
Regulärer Ausdruck in regex.h
Python- und Numpy-Tipps
Holen Sie sich die passende Zeichenfolge in den regulären Ausdruck und verwenden Sie sie beim Ersetzen unter Python3 erneut
[Python] Pip und Wheel
fehlende Ganzzahlen Python persönliche Notizen
[Hinweis] Datei lesen ~ Python ~