[PYTHON] Automatische tägliche Überprüfung der reCAPTCHA-Site (3/7: xls-Dateiverarbeitung)

  1. Anforderungsdefinition ~ Aufbau der Python-Umgebung
  2. Erstellen eines Site-Scraping-Mechanismus
  3. ** Verarbeiten Sie die heruntergeladene Datei (xls), um das Endprodukt (csv) zu erstellen **
  4. Erstellen Sie einen Dateidownload von S3 / Datei-Upload nach S3 1.2 Implementiertes Captcha
  5. Lassen Sie es in einem Docker-Container starten
  6. Registrieren Sie sich für den AWS-Stapel

Dateivorgang

Da ich die Datei bis zum letzten Mal mit Selen heruntergeladen habe, Beschreibt den Vorgang des Erfassens und Verarbeitens sowie des erneuten Speicherns als CSV-Datei.

Dateiliste abrufen

Holen Sie sich alle Dateien mit einem bestimmten Muster in einen bestimmten Ordner! In diesem Fall ist glob praktisch.

#Rufen Sie die Dateiliste des regulären Ausdrucks ab(glob)
file_list = glob.glob(dl_dir+'/*')

Arbeiten mit Excel-Dateien

Es scheint mehrere Bibliotheken für Excel-Operationen mit Python zu geben, aber es scheint nützlich, sich an eine zu erinnern. Ich benutze xlrd.

#Arbeiten mit Excel-Dateien
wb = xlrd.open_workbook(file_name) #Öffnen Sie xls
sheet_names = wb.sheet_names() #Holen Sie sich eine Liste der Blattnamen
sheet = wb.sheet_by_name(sheet_names[1]) 
values2 = sheet.col_values(2)
values5 = sheet.col_values(5)
values2.pop(0) #Um die erste Zeile zu beseitigen ... Ich frage mich, ob es einen besseren Weg gibt
values5.pop(0)
for i in range(len(channels)):
    obj = [
        word,
        someFunction2(values2[i]),
        someFunction5(values5[i])
    ]
    result.append(obj)

In CSV-Datei speichern

with open(up_dir + '/result-{}.csv'.format(file_name), 'w') as f:
    writer = csv.writer(f)
    writer.writerows(result)

Komplett

Bisher

--Wenn es ausgeführt wird, kratzt es die Site und lädt die Datei herunter.

Das konnte ich machen. Als nächstes schreibe ich über "Senden des verarbeiteten Produkts an S3" und "Erhalten des ursprünglichen EINGANGS (Wörter) von S3".

Recommended Posts

Automatische tägliche Überprüfung der reCAPTCHA-Site (3/7: xls-Dateiverarbeitung)
Automatische tägliche Überprüfung der reCAPTCHA-Site (4/7: S3-Dateiverarbeitung)
Jeden Tag automatisch die reCAPTCHA-Site abkratzen (2/7: Scraping)
Die reCAPTCHA-Site wird täglich automatisch abgekratzt (6/7: Containerisierung)
Täglich automatisch die reCAPTCHA-Site abkratzen (5/7: 2captcha)