Python Crawling & Scraping-Practical Development Guide for Data Collection and Analysis- https://www.amazon.co.jp/dp/B01NGWKE0P/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1
Du livre 1.4.1 Obtenir le nombre total de livres électroniques Ce que j'ai appris du chapitre
Opération pour extraire uniquement la chaîne de caractères avec une expression régulière du code html extrait par grep Quatre méthodes sont introduites
1.Extraire la partie qui correspond à l'expression régulière avec la commande sed
2.Supprimez la partie correspondante avec la commande sed et supprimez la partie restante
3.Utilisez la commande cut pour extraire le nième d'une chaîne séparée par un caractère spécifique
4.Extrayez le nième d'une chaîne justifiée par un espace à l'aide de la commande awk
Je ne connais pas la commande en premier lieu. .. .. Cependant, il y avait une explication de sed et coupé à la page précédente.
Quand l'utiliser: peut remplacer ou supprimer des lignes qui correspondent à des conditions spécifiques Utilisation: 's / expression régulière à rechercher / chaîne à remplacer / option'
【Exemple d'utilisation】
# .Peut être généré en remplaçant par un espace/g équivaut à remplacer toutes les expressions régulières à rechercher sur une seule ligne, même si elles apparaissent plusieurs fois.
XX | sed 's/./ /g'
cut Timing of use: Utilisé pour extraire certaines colonnes de texte séparées par des caractères spécifiques 【Exemple d'utilisation】
# ,Affiche uniquement les première et deuxième colonnes séparées par.-Délimiteur avec d,-Spécifiez le numéro de colonne avec f.
XX | cut -d , -f 1,2
Je voudrais jeter un œil aux processus d'extraction par les méthodes 1 à 4 du sujet principal un par un.
Utilisation: * sed -E's /. \ * (Expression régulière qui correspond à la partie que vous souhaitez extraire). * / \ 1 / ' Décryptage: . Correspond à n'importe quel caractère
【Exemple d'utilisation】
echo hello_world | sed -E 's/.\*(hello.).*/\1'
#Résultat de sortie
hello
Décryptage: ^ In [] indique un refus
【Exemple d'utilisation】
echo'<li class="pagingnumber">130/2098</li>' | sed -E 's/<[^>]*>//g'
Moment d'utilisation: lors de l'extraction d'une chaîne de caractères à partir de csv Décryptage: '-d, -f 2' est un délimiteur, le deuxième élément de la chaîne délimitée
echo '1,base-ball,Hanshin' | cut -d , -f 2
#Résultat de sortie
base-ball
Il peut être utilisé lorsque les chiffres sont alignés avec des espaces et que les délimiteurs sont consécutifs. (la coupe ne convient pas lorsque les délimiteurs sont consécutifs) Si vous donnez la chaîne de caractères {print $ n}, vous pouvez extraire la nième chaîne de caractères.
echo 'A B C D E' | awk '{print $4}'
#Résultat de sortie
D
Recommended Posts