Zweck

Das Schreiben von Web-Scraping-Code, für den POST erforderlich ist, z. B. eine Anmeldeseite, ist mühsam. Ich habe Selen verwendet, um diesen Ärger zu beseitigen. Es führt den Browser automatisch über Selen aus, automatisiert Vorgänge, die POST erfordern, und führt Web-Scraping durch.

Umgebung

Betriebssystem: Ubuntu 16.04 (Sakura VPS)

Schritt 1) Installieren Sie Chrome über die Befehlszeile

mkdir download
cd download
wget  https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
sudo dpkg -i google-chrome-stable_current_amd64.deb
rm google-chrome-stable_amd64.deb

(Referenz-URL) http://bit.ly/2bBK3Ku

Schritt 2) Vorbereiten des Starts von Google Chrome Sie können es starten, indem Sie in der Befehlszeile google-chrome eingeben. Wenn Sie es jedoch in diesem Zustand starten, sind zwei Probleme aufgetreten. Die beiden sind

Die Abhängigkeit ist unterbrochen.
Es gibt (natürlich) keinen Bildschirm. ist. Die Details der Aktion werden unten gezeigt.

In CLI können Sie es starten, indem Sie google-chrome eingeben. Wenn Sie es jedoch in diesem Zustand starten, sind zwei Probleme aufgetreten. Die beiden sind

Die Abhängigkeit ist unterbrochen.
Es gibt (natürlich) keinen Bildschirm. ist. Die Details der Aktion werden unten gezeigt.

Problem 1) Abhängigkeitsreparatur

Es entsprach dem folgenden Befehl.

sudo apt-get update
sudo apt-get -f install

Problem 2) Es gibt keinen Bildschirm

((Vorschlag 1)) GUI Desktop

Sie können den GUI-Desktop mit dem folgenden Befehl installieren, aber ich habe ihn gestoppt, da er anscheinend lange dauert.

GUI-Desktop-Installation

sudo apt-get -y install ubuntu-desktop

((Vorschlag 2)) Installieren Sie die virtuelle Anzeige 

Installieren Sie eine virtuelle Anzeige und führen Sie Chrome auf der virtuellen Anzeige aus.

Als Verfahren,

① Installieren Sie xvfb der virtuellen Anzeige ② Installieren Sie Selenium und Pyvirtualdisplay, um Chrome von Python aus zu betreiben ③ Schreiben Sie ein Chrome-Startprogramm mit Python

ist.

Der spezifische Arbeitsablauf ist in Schritt 3 beschrieben.

Schritt 3) Starten Sie Google Chrome

Schritt ①) Installieren Sie xvfb 

Ich habe die virtuelle Anzeige xvfb mit dem folgenden Befehl installiert.

xvfb Installation

sudo apt-get install xvfb sudo apt-get install unzip wget -N http://chromedriver.storage.googleapis.com/2.20/chromedriver_linux64.zip unzip chromedriver_linux64.zip chmod +x chromedriver sudo mv -f chromedriver/usr/local/share/chromedriver sudo ln -s /usr/local/share/chromedriver /usr/local/bin/chromedriver sudo ln -s /usr/local/share/chromedriver /usr/bin/chromedriver

Vorgehensweise ②) Installation von Selen usw. 

Um Chrome über Python zu betreiben, installieren Sie das Selenium-Paket für den Betrieb von Chrome und das pyvirtualdisplay für den Betrieb des virtuellen Displays xvfb.

Selen ist eines der Testwerkzeuge für WEB-Anwendungen. Anstatt dass Menschen den Browser steuern, steuert Selenium den Browser. pyvirtualdisplay ist ein Paket zum Betreiben der virtuellen Anzeige xvfb mit Python.

Ich habe beide mit dem folgenden Code installiert. (Da pip3 nicht installiert wurde, wird pip3 im Voraus installiert.)

sudo apt-get install python3-setuptools sudo easy_install3 pip pip3 install pyvirtualdisplay selenium

Schritt ③) Installieren Sie xvfb 

Ich habe den folgenden Code ausgeführt.

from pyvirtualdisplay import Display from selenium import webdriver display = Display(visible=0, size=(800, 600)) display.start() browser = webdriver.Chrome() browser.get('http://www.google.co.jp') print(browser.title) browser.quit() display.stop()

Ich glaube nicht, dass es viel Verwirrung mit dem obigen Code gibt. Die Zeilen 1 und 2 nennen die virtuelle Anzeige und Selen.

Die 4. Zeile definiert die virtuelle Anzeige und die 5. Zeile startet sie. Starten Sie Chrome auf dem virtuellen Display mit webdriver.Chrome () in Zeile 6. Holen Sie sich die Quelldaten von google.co.jp in die 7. Zeile Gibt das Titel-Tag-Element der in der 8. Zeile erfassten Seite aus.

Jetzt haben Sie eine Umgebung, in der Sie Chrome nur mit CLI starten können.

Wie kratzt man eigentlich?

Beim eigentlichen Scraping verwende ich PhantomJS anstelle von Chrome. Da PhantomJS ein Headless-Browser ist, ist keine virtuelle Anzeige erforderlich, und es ist nützlich, da es auch in Javascript geschriebenen Code abkratzt. Wenn Sie mit PhantomJS arbeiten möchten, überprüfen Sie bitte hier.

Im Fall von Chrome möchten Sie möglicherweise Chrome verwenden, da Sie testen können, wie sich der Browser tatsächlich verhält. Wenn Sie mit Chrome kratzen möchten, rufen Sie die Seite hier auf.

browser = webdriver.PhantomJS(executable_path='')

Teil von

browser= webdriver.Chrome()

Wenn Sie es durch ersetzen, wird es funktionieren ^^ (Wiederholen Sie dies, bitte beachten Sie, dass Javascript-Code nicht abgekratzt werden kann.)

Recommended Posts
Installieren Sie Chrome in der Befehlszeile von Sakura VPS (Ubuntu) und starten Sie Chrome mit Python über das virtuelle Display und Selen

Setzen Sie cron unter Ubuntu 16.04 (Sakura VPS) von 1 und führen Sie das Python-Programm regelmäßig aus

Installieren Sie Selenium auf Ihrem Mac und probieren Sie es mit Python aus

Automatisieren Sie Chrome mit Python und Selen auf Ihrem Chromebook

Setzen Sie Ubuntu in Raspi ein, setzen Sie Docker darauf und steuern Sie GPIO mit Python aus dem Container

Installieren Sie mecab auf dem gemeinsam genutzten Sakura-Server und rufen Sie es von Python aus auf

Holen Sie sich Daten von VPS MySQL mit Python 3 und SQL Alchemy

[EC2] So installieren und laden Sie chromedriver über die Befehlszeile herunter

Betreiben Sie Firefox mit Selen aus Python und speichern Sie die Bildschirmaufnahme

Virtuelle Python-Umgebung und Pakete unter Ubuntu

Installieren Sie pyenv und Python 3.6.8 unter Ubuntu 18.04 LTS

Lesen Sie die Datei mit Python und löschen Sie die Zeilenumbrüche [Hinweise zum Lesen der Datei]

Zeigen Sie den QR-Code schnell in der Befehlszeile an

Versuchen Sie, Google Chrome mit Python und Selenium auszuführen

Installieren Sie OpenCV 4.0 und Python 3.7 unter Windows 10 mit Anaconda

Installieren Sie MongoDB unter Ubuntu 16.04 und arbeiten Sie über Python

Setzen Sie Scipy + Matplotlib in Ubuntu auf Vagrant und zeigen Sie die Grafik mit X11 Forwarding an

Übergeben von Argumenten beim Aufrufen von Python-Skripten über Blender in der Befehlszeile

Öffnen Sie die Chrome-Version von LINE über die Befehlszeile [Linux].

Automatisches Folgen auf Twitter mit Python und Selen! (RPA)

Installieren Sie die neueste stabile Version von Python mit pyenv (sowohl 2 als auch 3).

Ubuntu 20.04 auf Himbeer-Pi 4 mit OpenCV und mit Python verwenden

Führen Sie einen Befehl auf dem Webserver aus und zeigen Sie das Ergebnis an

Installieren Sie Ubuntu 20.04 mit GUI und bereiten Sie die Entwicklungsumgebung vor

Installieren Sie das neueste Python von pyenv, das von Homebrew installiert wurde

Installieren Sie django auf Python + Anaconda und starten Sie den Server

Installieren Sie Python 3.3 unter Ubuntu 12.04

Scraping mit Python + Selen, um überholte Apple-Produkte in Ihren Warenkorb zu legen und per Zeile zu benachrichtigen

Suchen Sie unter Linux über die Befehlszeile nach großen Dateien

Verwenden Sie Python 3, das vom Befehlszeilentool unter macOS Catalina eingeführt wurde

[Python] Lesen Sie die CSV-Datei und zeigen Sie die Abbildung mit matplotlib an

Installieren Sie Python3 und die wissenschaftliche Berechnungsbibliothek unter Ubuntu (virtualenv + pip)

Installieren Sie CaboCha in der Ubuntu-Umgebung und rufen Sie es mit Python auf.

Installieren Sie nach dem Update auf MacOS Catalina die Xcode Command Line Tools und wechseln Sie von der Python 2.7-Serie zur 3.7-Serie (Bash).

Installieren Sie OpenCV unter Ubuntu + Python

[EC2] So installieren Sie Chrome und den Inhalt jedes Befehls

IME On / Off wird in Zusammenarbeit mit Python und Arduino durch LED angezeigt

Installieren Sie OpenCV2.4 (+ Python) schnell unter OS X und probieren Sie das Beispiel aus

Erstellen Sie benutzerdefinierte Django-Befehle und führen Sie sie über die Befehlszeile aus

So installieren Sie Chrome Driver für Chrome automatisch mit Python + Selenium + Chrome

Installieren Sie lp_solve unter Mac OSX und rufen Sie es mit Python auf.

Python-Standardmodul, das in der Befehlszeile verwendet werden kann

Installieren Sie Python 3.8 unter Ubuntu 18.04 (Betriebssystemstandard)

Installieren Sie Python 2.7.9 und Python 3.4.x mit pip.

Installieren Sie Python 3 auf dem Sakura-Server (FreeBSD)

Installieren Sie Mecab und mecab-python3 unter Ubuntu 14.04

Installieren Sie Dropbox und führen Sie es unter Ubuntu 20.04 aus

Installieren Sie OpenCV und Chainer unter Ubuntu

Installieren Sie Python von der Quelle mit Ansible

Installieren Sie CUDA 8.0 und Chainer unter Ubuntu 16.04

Scraping mit Python, Selen und Chromedriver

Installieren Sie das Python-Plug-In mit Netbeans 8.0.2

Installieren Sie Fabric unter Ubuntu und versuchen Sie es

Installieren Sie Python 3.9 unter Ubuntu 20.04 (Betriebssystemstandard?)

Installieren Sie Confluent-Kafka für Python unter Ubuntu

Installieren Sie Python 2.7 unter Ubuntu 20.04 (Betriebssystemstandard?)

Sakura Verwenden von Python im Internet

Ermitteln Sie mit Selenium + PhantomJS + Python die Breite des Div auf der Serverseite

Füllen Sie die Zeichenfolge mit Nullen in Python und zählen Sie bestimmte Zeichen aus der Zeichenfolge

Arbeiten Sie nicht mit Python mit OpenCV auf AMD Ryzen CPU unter WSL2 Ubuntu 18.04 und 20.04

Setzen Sie Cabocha 0.68 in Windows ein und versuchen Sie, die Abhängigkeit mit Python zu analysieren

Installieren Sie Chrome in der Befehlszeile von Sakura VPS (Ubuntu) und starten Sie Chrome mit Python über das virtuelle Display und Selen

Zweck

Umgebung

Schritt 1) Installieren Sie Chrome über die Befehlszeile

Problem 1) Abhängigkeitsreparatur

Problem 2) Es gibt keinen Bildschirm

((Vorschlag 1)) GUI Desktop </ b>

`GUI-Desktop-Installation`

((Vorschlag 2)) Installieren Sie die virtuelle Anzeige </ b>

Als Verfahren,

① Installieren Sie xvfb der virtuellen Anzeige ② Installieren Sie Selenium und Pyvirtualdisplay, um Chrome von Python aus zu betreiben ③ Schreiben Sie ein Chrome-Startprogramm mit Python

Schritt 3) Starten Sie Google Chrome

Schritt ①) Installieren Sie xvfb </ b>

`xvfb Installation`

Vorgehensweise ②) Installation von Selen usw. </ B>

Schritt ③) Installieren Sie xvfb </ b>

Wie kratzt man eigentlich?