[PYTHON] Ich habe versucht, das Update von "Hameln" mit "Beautiful Soup" und "IFTTT" zu benachrichtigen.

Einführung

Als ich Benachrichtigungs-App aktualisieren, um ein Romanautor zu werden , mithilfe der API die Aktualisierungsinformationen der Arbeit von Meine Seite Ich dachte, ich wäre nicht süchtig nach dem, was ich tun wollte, also habe ich es mit einer neuartigen Version der Posting-Site namens Hameln geschafft.

Wie geht's?

Es ist eine Anwendung, die LINE Notify über Hameln-Aktualisierungsinformationen mit BeautifulSoup4 und IFTTT benachrichtigt.

Umgebung

Python 3.7.4
BeautifuSoup4 4.9.1

Vor der Vorbereitung ... Bestätigung und Vorsicht hinsichtlich des Unterschieds zwischen API und Scraping

Dieses Mal werden wir Scraping verwenden. Es ist eine Technologie, die gesetzlich geregelt ist. Schauen wir uns also die Geschichte des Gesetzes an. Ich denke, das erste, was zu beachten ist, ist, die Server der Site nicht zu überlasten. Dieses Mal wird time.sleep (1) als Gegenmaßnahme nach dem Abrufen oder Posten verwendet, um eine Wartezeit zu erstellen.

Unterschied zwischen Scraping und API
Liste der Vorsichtsmaßnahmen für das Web-Scraping
Sprechen wir über das Gesetz des Web Scraping!

Vorbereitung (Applet mit IFTTT erstellen)

Es ist ein Dienst, der andere Dienste als IFTTT verknüpft. Verbinden Sie diesmal Webhooks und LINE Notify und lassen Sie sie Benachrichtigungen an Ihre LINE senden. Vorgehensweise 

Registrieren Sie sich bei IFTTT

Klicken Sie oben rechts auf dem Bildschirm auf Erstellen. Der Bildschirm wechselt zu dem Bildschirm "if + This Then That". Siehe die Abbildung unten.

Klicken Sie auf + Dies. Geben Sie Webhooks in die Suchleiste ein, um sie auszuwählen.

Klicken Sie auf die Spalte "Webanforderung empfangen". Wenn Sie zum folgenden Bildschirm gelangen, geben Sie Ihren Lieblingsnamen unter "Ereignisname" ein. Ich werde es später verwenden.

Klicken Sie auf + That. Wählen Sie LINE und klicken Sie auf das Feld "Nachricht senden".

Melden Sie sich bei LINE an, setzen Sie den Inhalt der Nachricht auf "Wert1: Wert1 \
" (es spielt keine Rolle, wenn Sie dies nicht tun) und klicken Sie auf "Aktion erstellen".

Überprüfen Sie den Inhalt und klicken Sie auf Fertig stellen.

Klicken Sie auf Durchsuchen, geben Sie Webhooks in das Suchfenster ein und wählen Sie die Registerkarte Dienste. Klicken Sie auf Webhooks. Vielleicht können Sie von diesem Link gehen ...?

Klicken Sie auf Dokumentation und Sie sollten "Ihr Schlüssel ist: ~~~~~" sehen. Notieren Sie sich dies. Ich werde es später verwenden. Dies ist das Ende von IFTTT.

Beschreibung des Quellcodes

Erklären Sie kurz den Quellcode. import

import requests from bs4 import BeautifulSoup from urllib.parse import urljoin import csv import time

post_ifttt() Es ist eine Funktion, um eine Benachrichtigung von IFTTT an LINE Notify zu senden. Hier verwenden wir den Applet-Namen und den Webhooks-Schlüssel. Ich habe es auch in der Update-Benachrichtigung verwendet, um Romanautor zu werden.

def post_ifttt(json): # json: {value1: " content "} url = ( "https://maker.ifttt.com/trigger/" + # Applet Name + "/with/key/" + # Webhooks Key ) requests.post(url, json)

extract() Dies ist die zugrunde liegende Funktion dieses Codes. Es wird in dem später beschriebenen Teil verwendet. Extrahieren Sie je nach Bedingung einen von ["Titel"], ["Anzahl der Geschichten"] und ["URL"] aus HTML und speichern Sie ihn in der Liste. Es kann etwas schwierig sein, den Zweig zu sehen. Es wäre vielleicht besser gewesen, die if-Bedingungserklärungen parallel zu schreiben. Die Teile "<" und "" sind if-Anweisungen, die HTML-Tags entfernen und nur die gewünschten Attribute extrahieren.

def extract(info, condition, li): for item in info: if condition in str(item): a = "" is_a = 0 if condition!="href": for s in str(item): if s=="<" and is_a==1: is_a = 0 li.append(a) break if is_a==1: if condition=="neueste": if "0" <= s and s <= "9": a+=s else: a += s if s==">" and is_a==0: is_a = 1 else: if "mode=user" in str(item): continue for s in str(item): if s=="\"" and is_a==1: is_a = 0 li.append(a) break if is_a==1: a += s if s=="\"" and is_a==0: is_a = 1

Anmelden Da das Scraping über Hamelns Meine Seite erfolgt, POSTEN Sie die erforderlichen Informationen über den Anmeldebildschirm und melden Sie sich an. Die für den Anmeldevorgang erforderlichen Informationen variieren von Standort zu Standort und können mit den Entwicklertools überprüft werden. In Hameln ist dies jedoch "id, pass, mode". Der Modus ist auch "last_entry_end" für alle. POSTEN Sie diese Informationen und melden Sie sich an. Die detaillierte Verwendung von Beautifu-Suppe ist im folgenden Artikel zusammengefasst. Schauen Sie also bitte vorbei.

[Python3] Scraping auf einer Site mit Anmeldefunktion [Anfragen] [Schöne Suppe]
Scraping von Websites, für die eine Anmeldung mit Python erforderlich ist
Melden Sie sich bei der Website in Python an

############################################################## # Log in # ############################################################## # id, pass with open("input.txt") as f: """ input.txt: [ID PASS] """ s = f.read().split() ID = s[0] PASS = s[1] session = requests.session() url_login = "https://syosetu.org/?mode=login" response = session.get(url_login) time.sleep(1) login_info = { "id":ID, "pass":PASS, "mode":"login_entry_end" } res = session.post(url_login, data=login_info) res.raise_for_status() # for error time.sleep(1)

Input.txt ist übrigens eine Eingabedatei, in der die ID und das Passwort in dieser Reihenfolge mit einem halben Leerzeichen gespeichert werden. Beispiel)

input.txt

ID_hoge passwd_hoge

Ausgabe des Benutzernamens Der Benutzername wird aus dem HTML-Code der Benutzerinformationsseite extrahiert. Einfach.

############################################################### # Print User Name # ############################################################### soup_myage = BeautifulSoup(res.text, "html.parser") account_href = soup_myage.select_one(".spotlight li a").attrs["href"] url_account = urljoin(url_login, account_href) res_account = session.get(url_account) res_account.raise_for_status() time.sleep(1) soup_account = BeautifulSoup(res_account.text, "html.parser") user_name = str((soup_account.select(".section3 h3"))[0])[4:-5].split("／")[0] print("Hello "+ user_name + "!")

Informationen zu Ihren Lieblingsromanen finden Sie auf jeder Lieblingsseite Es gibt mehrere Lieblingsseiten. Speichern Sie daher auf jeder Seite ["Titel"], ["Anzahl der Storys"] und ["URL"] im Listentitel, latest_no bzw. ncode. Suchen Sie später nach Updates und speichern Sie sie in einer Datei.

############################################################### # Page Transition # ############################################################### a_list = soup_myage.select(".section.pickup a") favo_a = "" for _ in a_list: if("Zur Favoritenliste" in _): favo_a = _ break url_favo = urljoin(url_login, favo_a.attrs["href"]) res_favo = session.get(url_favo) res_favo.raise_for_status() time.sleep(1) soup_favo = BeautifulSoup(res_favo.text, "html.parser") bookmark_titles = soup_favo.select(".section3 h3 a") bookmark_latest = soup_favo.select(".section3 p a") titles = [] latest_no = [] ncode = [] extract(bookmark_titles, "novel", titles) extract(bookmark_latest, "neueste", latest_no) extract(bookmark_titles, "href", ncode) ############################################################### # Start Page Transition # ############################################################### number_of_bookmarks_h2 = soup_favo.select_one(".heading h2") number_of_bookmarks = "" for s in str(number_of_bookmarks_h2)[4:-5]: if s>="0" and s<='9': number_of_bookmarks += s number_of_bookmarks = int(number_of_bookmarks) number_of_favo_pages = number_of_bookmarks // 10 + 1 for i in range(2,number_of_favo_pages+1): url_favo = "https://syosetu.org/?mode=favo&word=&gensaku=&type=&page=" + str(i) res_favo = session.get(url_favo) res_favo.raise_for_status() soup_favo = BeautifulSoup(res_favo.text, "html.parser") bookmark_titles = soup_favo.select(".section3 h3 a") bookmark_latest = soup_favo.select(".section3 p a") extract(bookmark_titles, "novel", titles) extract(bookmark_latest, "neueste", latest_no) extract(bookmark_titles, "href", ncode) time.sleep(1)

Datenerfassung Speichern Sie die neu erfassten Informationen in bookmark_info und die zuvor erfassten Informationen in Daten. Überprüfen Sie dann, ob es aktualisiert wurde.

############################################################### # Get Latest Data # ############################################################### bookmark_info = [] for i in range(len(titles)): bookmark_info.append([titles[i], latest_no[i], ncode[i]]) ############################################################### # Get Previous Data # ############################################################### read_file = "hameln.csv" with open(read_file, encoding="utf-8") as f: reader = csv.reader(f) data = [row for row in reader] ############################################################### # Check Whether Novels are Updated # ############################################################### """ previous data: data latest data: bookmark_info """ for prev in data: for latest in bookmark_info: if prev[0] == latest[0]: # check if prev[1] != latest[1]: print(str(latest[0]) + "Wurde aktualisiert.\n" + latest[2]) json = {"value1" : str(latest[0]) +"Wurde aktualisiert.\n" + latest[2]} post_ifttt(json)

Schreiben Sie Aktualisierungsinformationen in die Datei 

############################################################### # Write Latest Information # ############################################################### output = "hameln.csv" with open(output, mode='w', newline="", encoding="utf-8") as f: writer = csv.writer(f) for i in range(len(bookmark_info)): writer.writerow([bookmark_info[i][0], bookmark_info[i][1], bookmark_info[i][2]])

GitHub Auf GitHub hochgeladen ( hier ). Bitte schauen Sie, wenn Sie möchten.

Am Ende

Der Anmeldevorgang war der interessanteste Teil des Wissens, das mit dieser App gewonnen wurde. Sie geben nicht nur Ihre ID und Ihr Passwort weiter. Die Automatisierung wurde auch mit dem Taskplaner durchgeführt. Einzelheiten zur Verwendung des Taskplaners finden Sie im Referenzabschnitt.

Verweise

[Python3] Scraping auf einer Site mit Anmeldefunktion [Anfragen] [Schöne Suppe]
Scraping von Websites, für die eine Anmeldung mit Python erforderlich ist
Melden Sie sich bei der Website in Python an
# Python mit Windows Task Scheduler ausführen

Recommended Posts
Ich habe versucht, das Update von "Hameln" mit "Beautiful Soup" und "IFTTT" zu benachrichtigen.

Ich habe versucht, das Update von "Werde ein Romanautor" mit "IFTTT" und "Werde ein Romanautor API" zu benachrichtigen.

Ich habe versucht, Slack über das Update von Redmine zu informieren

Ich habe versucht, die Phase der Geschichte mit COTOHA zu extrahieren und zu veranschaulichen

Ich habe versucht, das Artikel-Update des Livedoor-Blogs mit Python und Selen zu automatisieren.

Speichern Sie den Text aller Evernote-Notizen mit Beautiful Soup und SQL Alchemy in SQLite

Ich habe versucht, den Index der Liste mithilfe der Aufzählungsfunktion abzurufen

Ich wurde entsetzt, als ich versuchte, mithilfe von PCA und NMF die Anzahl der Merkmale eines animierten Gesichts zu ermitteln.

Ich habe versucht, die Höhen und Tiefen des Schlusskurses des Aktienkurses von Guru Navi mit TensorFlow vorherzusagen (Fortschritt)

Ich habe versucht, das Gesichtsbild mit sparse_image_warp von TensorFlow Addons zu transformieren

Ich habe versucht, die Trefferergebnisse von Hachinai mithilfe der Bildverarbeitung zu erhalten

Ich habe versucht, die Altersgruppe und die Ratenverteilung von Atcoder zu visualisieren

Ich habe versucht, die Ähnlichkeit der Frageabsicht mit Doc2Vec von gensim abzuschätzen

Ich habe versucht, die Beschleunigung von Python durch Cython zu verifizieren und zu analysieren

Ich habe die übliche Geschichte ausprobiert, Deep Learning zu verwenden, um den Nikkei-Durchschnitt vorherzusagen

Mit COTOHA habe ich versucht, den emotionalen Verlauf des Laufens von Meros zu verfolgen.

Ich habe versucht, die Trapezform des Bildes zu korrigieren

Ich habe versucht, den Bildfilter von OpenCV zu verwenden

Ich habe versucht, die Texte von Hinatazaka 46 zu vektorisieren!

Ich habe versucht, E-Mails von Node.js und Python mithilfe des E-Mail-Zustelldienstes (SendGrid) von IBM Cloud zuzustellen!

Ich habe versucht, die Verschlechterung des Lithium-Ionen-Akkus mithilfe des Qore SDK vorherzusagen

[Python] Ich habe versucht, das Mitgliederbild der Idolgruppe mithilfe von Keras zu beurteilen

Der erste Schritt, um langsame Abfragen loszuwerden! Ich habe versucht, Chatwork mit Lambda und AWS CLI v2 über langsame Abfragen für RDS for MySQL zu informieren

Ich habe versucht, die Grundform von GPLVM zusammenzufassen

Ich habe versucht, die Sündenfunktion mit Chainer zu approximieren

Ich habe versucht, die API von Sakenowa Data Project zu verwenden

Ich habe versucht, die Spacha-Informationen von VTuber zu visualisieren

Ich habe versucht, den negativen Teil von Meros zu löschen

Ich habe versucht, die Sprache mit CNN + Melspectogram zu identifizieren

Ich habe versucht, das Wissensdiagramm mit OpenKE zu ergänzen

Ich habe versucht, die Stimmen der Sprecher zu klassifizieren

Ich habe versucht, das Bild mithilfe von maschinellem Lernen zu komprimieren

Ich habe versucht, die String-Operationen von Python zusammenzufassen

Ich habe versucht, den Sieg oder die Niederlage der Premier League mit dem Qore SDK vorherzusagen

Python-Übung 100 Schläge Ich habe versucht, den Entscheidungsbaum von Kapitel 5 mit graphviz zu visualisieren

Ich habe versucht, die Syntax zu bewerten, die mit der COTOHA-API zu humorvoll und humorvoll war.

Ich habe versucht, den Text in der Bilddatei mit Tesseract der OCR-Engine zu extrahieren

Ich habe versucht, die Verarbeitungsgeschwindigkeit mit dplyr von R und pandas von Python zu vergleichen

Ich habe versucht, die Entropie des Bildes mit Python zu finden

[Pferderennen] Ich habe versucht, die Stärke des Rennpferdes zu quantifizieren

Ich habe versucht, die Standortinformationen des Odakyu-Busses zu erhalten

Ich habe versucht, mit TensorFlow den Durchschnitt mehrerer Spalten zu ermitteln

Ich habe versucht, die Zugverspätungsinformationen mit LINE Notify zu benachrichtigen

Ich habe versucht, das CNN-Modell von TensorFlow mit TF-Slim umzugestalten

Ich habe versucht, die Anzeigenoptimierung mithilfe des Banditenalgorithmus zu simulieren

Ich habe versucht, die Informationen des Webs mit "Requests" und "lxml" abzurufen.

Ich habe versucht, das Lachproblem mit Keras zu erkennen.

Ich habe versucht, die Zeit und die Zeit der C-Sprache zu veranschaulichen

Ich habe versucht, die Uhrzeit und das heutige Wetter anzuzeigen

[Python] Ich habe versucht, die folgende Beziehung von Twitter zu visualisieren

[TF] Ich habe versucht, das Lernergebnis mit Tensorboard zu visualisieren

[Maschinelles Lernen] Ich habe versucht, die Theorie von Adaboost zusammenzufassen

Ich möchte die Natur von Python und Pip kennenlernen

[Python] Ich habe versucht, Daten mit der API von Wikipedia zu sammeln

Ich habe versucht, die Unterschiede zwischen Java und Python aufzuzählen

Ich habe versucht, das lokale Minimum der Goldstein-Preis-Funktion zu bekämpfen

Ich habe den Chat von YouTube Live angezeigt und versucht zu spielen