Ich war daran als Datenanalysethema interessiert, also habe ich es versucht.
Die Seite, auf die ich mich bezog, ist hier.
Wenn Sie ein Vorhersagemodell von Grund auf neu erstellen möchten, müssen Sie die folgenden Schritte ausführen:
Dieses Mal werde ich die kratzbezogenen Elemente in 1 kurz zusammenfassen.
net.keiba.com Ich habe von dieser Site gekratzt.
wichtiger Punkt
Das gleichzeitige Abrufen einer großen Datenmenge belastet den Server. Durch Einfügen von "time.sleep (1)" wird gewartet, wenn jede Sekunde "race_id_list" angefordert wird. Es wird gesagt, dass es eine Möglichkeit ist, die Serverlast dadurch zu reduzieren.
import pandas pd
from tqdm import tqdm_notebook as tqdm
import time
def scrape_race_results(race_id_list):
race_results={}
for race_id in tqdm(race_id_list):
try:
url = 'https://db.netkeiba.com/race/'+ race_id
race_results[race_id]= pd.read_html(url)[0]
time.sleep(1)
except IndexError:
continue
except:
break
return race_results
Tragen Sie das Rennen, das Sie einchecken möchten, in diese race_id
ein. Angenommen, Sie haben die ID "202009020611".
das ist,
2020 → Anzahl der Jahre
09 → Standort(Hanshin für 09, Ogura für 10 usw.)
02 → Monat
06 → So.
11 → Anzahl der Rennen
Wird gezeigt.
Sie können es auf diese Weise als Versuch sehen.
Wir werden die Daten mit einfachen Pandas analysieren. Speichern Sie es zur Beruhigung als "pickle" -Datei und "csv".
Unter der Annahme, dass die erfassten Daten in "resluts_new" gespeichert sind, ist dies wie folgt.
results_new.to_pickle('results_new2017-2020')
results_new.to_csv('results_new2017-2020.csv',encoding="SHIFT-JIS")
Ich habe die Datenerfassungsmethode leicht zusammengefasst.
Recommended Posts