[LINUX] Holen Sie sich die HTML-Quelle, wenn Javascript mit Curl aktiviert ist

Es gibt ein Tool namens domcurl. Ein sehr nützliches Werkzeug zum Web Scraping. Empfohlen, wenn die Anforderungen nicht mit "Phantomjs" usw. erfüllt werden können.

domcurl ist eine kleine NodeJS-Anwendung, die Puppeteer verwendet und durch Ausgabe des Befehls npm i domcurl installiert werden kann. Wie beim Befehl curl können Sie eine einfache domcurl [url] ausgeben, um Ressourcen abzurufen und JS auf der Seite auszuführen.

https://paul.kinlan.me/domcurl/

$ npm i domcurl
$ ./node_modules/domcurl/index.js  --url https://example.com

Hinweis: Der Titel ist nicht korrekt, wird jedoch zur Erleichterung der Suche als Locke geschrieben.

Recommended Posts

Holen Sie sich die HTML-Quelle, wenn Javascript mit Curl aktiviert ist
Holen Sie sich Suppe auf einer Javascript-fähigen Website
Bei Verwendung von Pygame unter Ubuntu 16.04 beträgt die CPU-Auslastung 100%