Python Crawling & Scraping - Praktischer Entwicklungsleitfaden für die Datenerfassung und -analyse https://www.amazon.co.jp/dp/B01NGWKE0P/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1
Aus dem Buch 1.4.1 Ermitteln Sie die Gesamtzahl der E-Books Was ich aus dem Kapitel gelernt habe
Operation zum Extrahieren nur der Zeichenfolge mit einem regulären Ausdruck aus dem von grep extrahierten HTML-Code Es werden vier Methoden vorgestellt
1.Extrahieren Sie den Teil, der dem regulären Ausdruck entspricht, mit dem Befehl sed
2.Entfernen Sie das übereinstimmende Teil mit dem Befehl sed und entfernen Sie das verbleibende Teil
3.Verwenden Sie den Befehl cut, um das n-te aus einer Zeichenfolge zu extrahieren, die durch ein bestimmtes Zeichen getrennt ist
4.Verwenden Sie den Befehl awk, um das n-te aus einer mit Leerzeichen versehenen Zeichenfolge zu extrahieren
Ich kenne den Befehl überhaupt nicht. .. .. Auf der vorherigen Seite gab es jedoch eine Erklärung für sed und cut.
Verwendungszweck: Kann Zeilen ersetzen oder löschen, die bestimmten Bedingungen entsprechen Verwendung: 's / regulärer Ausdruck zum Suchen / Zeichenfolge zum Ersetzen / Option'
【Anwendungsbeispiel】
# .Kann durch Ersetzen durch ein Leerzeichen ausgegeben werden/g entspricht dem Ersetzen aller regulären Ausdrücke, die in einer Zeile durchsucht werden sollen, auch wenn sie mehrmals vorkommen.
XX | sed 's/./ /g'
cut Zeitpunkt der Verwendung: Dient zum Extrahieren einiger Textspalten, die durch bestimmte Zeichen getrennt sind 【Anwendungsbeispiel】
# ,Geben Sie nur die erste und die zweite Spalte getrennt durch aus.-Trennzeichen mit d,-Geben Sie die Spaltennummer mit f an.
XX | cut -d , -f 1,2
Ich möchte einen Blick auf die Prozesse des Extrahierens nacheinander mit den Methoden 1 bis 4 des Hauptthemas werfen.
Verwendung: * sed -Es /. \ * (Regulärer Ausdruck, der dem Teil entspricht, den Sie extrahieren möchten). * / \ 1 / ' Entschlüsselung: Entspricht einem einzelnen Zeichen
【Anwendungsbeispiel】
echo hello_world | sed -E 's/.\*(hello.).*/\1'
#Ausgabeergebnis
hello
Entschlüsselung: ^ In [] bedeutet Ablehnung
【Anwendungsbeispiel】
echo'<li class="pagingnumber">130/2098</li>' | sed -E 's/<[^>]*>//g'
Zeitpunkt der Verwendung: Beim Extrahieren einer Zeichenfolge aus csv Entschlüsselung: '-d, -f 2'ist ein Trennzeichen, das zweite Element aus der begrenzten Zeichenfolge
echo '1,Baseball,Hanshin' | cut -d , -f 2
#Ausgabeergebnis
Baseball
Es kann verwendet werden, wenn die Ziffern mit Leerzeichen ausgerichtet sind und die Trennzeichen aufeinander folgen. (Schnitt ist nicht geeignet, wenn Trennzeichen aufeinander folgen) Wenn Sie die Zeichenfolge {print $ n} angeben, können Sie die n-te Zeichenfolge extrahieren.
echo 'A B C D E' | awk '{print $4}'
#Ausgabeergebnis
D
Recommended Posts