Préparation au grattage au python [Saveur chocolat]

Installation chocolatée

Tout d'abord, c'est trop gênant sans Chocolatey, alors installez-le. Si vous l'avez déjà installé, ignorez-le.

Démarrez PowerShell avec des privilèges d'administrateur. Essayez d'exécuter choco avant d'installer.

Administrator's-Powershell


$> choco
choco :le terme'choco'N'est pas reconnu comme le nom d'une applet de commande, d'une fonction, d'un fichier de script ou d'un programme utilisable. Assurez-vous que le nom est écrit correctement et si le chemin est inclus, son pa
Assurez-vous qu'il est correct et réessayez.
Ligne de localisation:Un personnage:1
+ choco
+ ~~~
    + CategoryInfo          : ObjectNotFound: (choco:String) [], CommandNotFoundException
    + FullyQualifiedErrorId : CommandNotFoundException

Vous pouvez voir qu'il n'est pas installé.

Exécutez ensuite la commande d'installation suivante.

Administrator's-Powershell


Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))

Remarque: recherchez les nouvelles commandes d'installation dans "Installation de Chocolatey".

Rouvrez le PowerShell avec des privilèges d'administrateur. Exécutez à nouveau choco pour voir la version et comment obtenir le menu d'aide.

Administrator's-Powershell


$> choco
Chocolatey v0.10.15
Please run 'choco -?' or 'choco <command> -?' for help menu.

Lorsque vous atteignez ce point, passez au suivant.

Installation de Visual Studio Code

Démarrez PowerShell avec des privilèges d'administrateur. Exécutez la commande suivante.

Administrator's-Powershell


choco install vscode

Si vous exécutez deux commandes, refreshenv et code, vscode s'ouvrira.

Installation du pack d'extension de code Visual Studio

Effectuez les deux [Install Extensions] suivantes (https://code.visualstudio.com/docs/editor/extension-gallery#_install-an-extension). Je n'ai répertorié que les extensions requises. Les extensions recommandées ne sont pas mentionnées ici.

Paramètres d'extension recommandés

Si vous créez .vscode / extendions.json comme suit, vous pouvez économiser beaucoup de travail d'installation. De plus, il est facile de partager sur Github.

json-doc:.vscode/extentions.json


{
	// See https://go.microsoft.com/fwlink/?LinkId=827846 to learn about workspace recommendations.
	// Extension identifier format: ${publisher}.${name}. Example: vscode.csharp

	// List of extensions which should be recommended for users of this workspace.
	"recommendations": [
		"coenraads.bracket-pair-colorizer-2",
		"github.vscode-pull-request-github",
		"ms-python.python",
		"mechatroner.rainbow-csv",
	],
	// List of extensions recommended by VS Code that should not be recommended for users of this workspace.
	"unwantedRecommendations": [
		
	]
}

Installation de Miniconda3

Démarrez PowerShell avec des privilèges d'administrateur Exécutez la commande suivante.

Administrator's-Powershell


choco install miniconda3

Dans le menu de démarrage Anaconda Powershell Prompt (miniconda3) S'il y en a, c'est un succès.

Créer un environnement virtuel

Dans le menu de démarrage Anaconda Powershell Prompt (miniconda3) Il devrait y en avoir, alors démarrez-le. Exécutez la commande suivante pour créer un environnement virtuel.

Anaconda-Powershell-Prompt-(miniconda3)


conda create --name scraping-env-name

Remarque: voir la référence des commandes pour plus de détails sur les commandes (https://docs.conda.io/projects/conda/en/latest/commands.html) Remarque: scraping-env-name est un espace réservé.

À ce stade, si vous ouvrez le fichier avec l'extension .py avec VS Code, vous pouvez sélectionner l'environnement virtuel que vous venez de créer. image.png

Activation de l'environnement virtuel

Anaconda-Powershell-Prompt-(miniconda3)


conda activate scraping-env-name

Remarque: voir la référence des commandes pour plus de détails sur les commandes (https://docs.conda.io/projects/conda/en/latest/commands.html)

Ajouter conda-forge en tant que canal

Par exemple, dans la même bibliothèque appelée «numpy», quel canal de référentiel utilise «numpy»? Cela devient un problème. Par défaut, il provient du canal anaconda, mais j'aime conda-forge, je vais donc passer à ceci.

Ajout de conda-forge au canal du référentiel

Anaconda-Powershell-Prompt-(miniconda3)


conda config --add channels conda-forge
conda config --set channel_priority strict

Installation des packages de bibliothèque

Exécutez la commande suivante avec l'environnement virtuel que vous souhaitez utiliser pour le développement activé. La bibliothèque sera installée dans un environnement virtuel vierge.

Anaconda-Powershell-Prompt-(miniconda3)


conda install python lxml beautifulsoup4 selenium pylint yapf

python Sans cela, rien ne commencera. Python. 3 séries seront installées. lxml Une bibliothèque d'analyseurs pour travailler avec xml et html. beautifulsoup4 beautifulsoup est une bibliothèque d'encapsuleurs qui enveloppe l'analyseur pour en faciliter l'utilisation. Un personnage nommé «Mock Turtle» chante à «Alice au pays des merveilles» Il semble que "belle soupe!" Apparaît fréquemment dans "soupe aux tortues". selenium Selenium est un outil d'automatisation de navigateur, une bibliothèque du même nom pour travailler avec. pylint Faites attention au linter VScode, alors mettez-le à l'avance. image.png yapf Soyez prudent lorsque vous sélectionnez "Formater le document" dans le menu contextuel de VScode, alors saisissez-le à l'avance. image.png On vous demandera: "Je n'ai pas de formateur appelé ʻautopep8, puis-je le mettre?" Cependant, je suis un garçon qui aime Google, donc je vais mettre yapf`. C'est la décision! 3 outils de formatage de code automatique les plus puissants!

Même si les bibliothèques sont installées sans ordre particulier

D'ailleurs, l'ordre dans lequel les bibliothèques sont installées n'a pas d'importance. Soyez assuré que les dépendances de bibliothèque seront résolues automatiquement.

Installation de WebDriver

Selenium fera fonctionner automatiquement votre navigateur. Je veux faire fonctionner Chrome automatiquement, alors installez le pilote Chrome. Pour le moment, il n'est pas nécessaire d'installer Google Chrome.

Administrator's-Powershell


choco install selenium-chrome-driver

Paramètres de l'espace de travail

Si vous passez par tous les paramètres jusqu'à ce point, vous devriez voir les paramètres de l'espace de travail comme suit.

json-doc:.vscode/settings.json


{
    "python.pythonPath": "C:\\tools\\miniconda3\\envs\\scraping-env-name\\python.exe",
    "python.formatting.provider": "yapf"
}

Je viens d'installer le formateur yapf. Si vous souhaitez passer plus tard à ʻautopep8 ou noir`, vous pouvez passer ici. image.png

chemin miniconda

Si vous installez miniconda3 en utilisant chocolatey, lorsque vous exécutez le programme

conda: The term 'conda' is not recognized as the name of a cmdlet, function, script file, or operable program. Check the spelling of the name, or if a path was included, verify that the path is correct and try again.

Le message s'affiche. Il n'y a aucun problème avec l'opération telle qu'elle est, mais je suis inquiet à ce sujet, alors réglez-le correctement.

Ajoutez " python.condaPath ":" C: \\ tools \\ miniconda3 \\ Scripts " au fichier de paramètres .vscode / settings.json

json-doc:.vscode/settings.json


{
    "python.pythonPath": "C:\\tools\\miniconda3\\envs\\scraping-env-name\\python.exe",
    "python.formatting.provider": "yapf",
    "python.condaPath": "C:\\tools\\miniconda3\\Scripts"
}

est devenu.

Contrôle de fonctionnement

Pour le moment, écrivez un code comme celui-ci. Si vous appuyez sur la touche F5 et qu'il n'y a pas de message d'erreur, vous êtes prêt à partir.

test001.py


import lxml 
from bs4 import BeautifulSoup

from selenium.webdriver import Chrome, ChromeOptions
from selenium.webdriver.common.keys import Keys

options = ChromeOptions()
# options.add_argument('--headless')
driver = Chrome(options=options)

Paramètres du pare-feu

La première fois que vous exécutez un programme Python, le pare-feu bloque Python. Vérifiez à l'avance les paramètres de connexion Internet actuels et sélectionnez privé ou public. Après avoir fait votre sélection, cliquez sur "Autoriser l'accès". image.png Ensuite, une règle de pare-feu sera créée, Python dans cet environnement virtuel ne sera pas bloqué et pourra communiquer normalement.

Si vous faites une erreur, vous pouvez la vérifier et la modifier avec wf.msc. image.png

Ou vous pouvez le faire à partir des "Applications autorisées". "Panneau de configuration \ Tous les éléments du panneau de configuration \ Pare-feu Windows Defender \ Applications autorisées"![Image.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/ 134703 / 90f6cc3f-2045-0dc1-6f25-a1e7abbfa7cc.png)

Ou, je pense que vous pouvez utiliser pleinement Get-NetFirewallRule, New-NetFirewallRule et Set-NetFirewallRule.

Eh bien

Visez à être un merveilleux maître du grattage

Excelsior!

Matériel de référence

https://docs.conda.io/projects/conda/en/latest/commands.html

Recommended Posts

Préparation au grattage au python [Saveur chocolat]
Grattage en Python (préparation)
Grattage WEB avec Python (pour mémo personnel)
[Pour les débutants] Essayez le web scraping avec Python
Essayez de gratter avec Python.
Grattage avec Python + PhantomJS
Grattage avec du sélénium [Python]
Scraping avec Python + PyQuery
Scraping RSS avec Python
J'ai essayé de gratter avec Python
Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~
Grattage au sélénium en Python
Grattage avec chromedriver en python
Grattage festif avec Python, scrapy
Apprentissage automatique avec Python! Préparation
Grattage avec du sélénium en Python
Grattage avec Tor en Python
Scraping prévisions météorologiques avec python
Grattage avec Selenium + Python Partie 2
[Python + Selenium] Conseils pour le grattage
J'ai essayé de gratter avec du python
Web scraping débutant avec python
[GUI avec Python] PyQt5-Préparation-
Essayez de gratter avec Python + Beautiful Soup
Scraping avec Selenium en Python (Basic)
Grattage avec Python, Selenium et Chromedriver
Web scraping avec Python Première étape
J'ai essayé webScraping avec python.
Grattage avec Python et belle soupe
Faisons du scraping d'images avec Python
Obtenez les tendances Qiita avec le scraping Python
Web scraping pour les débutants en Python (1)
Web scraping pour les débutants en Python (4) -1
Premiers pas avec Python pour les fonctions PHPer
Mémo d'apprentissage "Scraping & Machine Learning avec Python"
Obtenez des informations météorologiques avec Python et le grattage
[Scraping] Scraping Python
Obtenez des informations sur la propriété en grattant avec python
INSÉRER dans MySQL avec Python [Pour les débutants]
Enregistrement SSH manuel pour coreserver avec python
Mémo pour demander des KPI avec python
Amplifiez les images pour l'apprentissage automatique avec Python
Automatisez des tâches simples avec Python Part1 Scraping
Premiers pas avec Python Web Scraping Practice
Conseils pour gérer les binaires en Python
Développer des applications Windows avec Python 3 + Tkinter (Préparation)
Conseils pour utiliser python + caffe avec TSUBAME
[Shakyo] Rencontre avec Python pour l'apprentissage automatique
Site de courses de chevaux Web scraping avec Python
Traiter plusieurs listes avec for en Python
Premiers pas avec Python pour PHPer-Super Basics
Premiers pas avec Python Web Scraping Practice
déboguer la connexion mysql avec python mysql.connector
Essayez le scraping HTML avec la bibliothèque Python
[Python] Lire des images avec OpenCV (pour les débutants)
Scraping depuis un site authentifié avec python
[Part1] Scraping avec Python → Organisez jusqu'à csv!
Création WebApi avec Python (création CRUD) Pour les débutants