[PYTHON] Scraping das Ergebnis von "Schedule-Kun"

Überblick

Neulich wurde der Zeitplan für die Meiji Yasuda Seimei J League 2020 bekannt gegeben. (Veröffentlichung) Diese Version enthält J1-, J2- und J3-Ligadaten im PDF-Format. Darüber hinaus bietet die J League verschiedene Daten an verschiedenen Standorten basierend auf der Spielachse, der Teamachse und der Spielerachse.

Jleague Data Site

In diesem Beitrag wird "read_html" verwendet, das von "pandas" bereitgestellt wird, um die Seite anzuzeigen, die über das Menü "Zeitplan / Ergebnisse" auf der obigen Website abgerufen wurde, anstatt das PDF-Format zu kratzen. Leicht zu haben.

URL-Struktur

https://data.j-league.or.jp/SFMS01/search?competition_years=2020&competition_frame_ids=1&competition_ids=477&tv_relay_station_name=

Codebeschreibung

game_schedule.py


# cording:uft-8
import pandas as pd
yyyy = 2020
url = 'https://data.j-league.or.jp/SFMS01/search?'
category = {'1': 477, '2': 478, '3': 479}
schedule = pd.DataFrame(index=None, columns=['Jahr', 'Turnier', 'Sektion', 'Spieltag', 'K/O Zeit', 'Zuhause', 'Ergebnis', 'Weg', 'Stadion', 'Besucherzahl', 'Internet- / Fernsehsendung'])

Erstellen Sie J1-, J2-, J3-Kategorien und jährliche IDs im DIC-Format. Erstellen Sie einen leeren Datenrahmen.

game_schedule.py


for key, value in category.items():
    para = 'competition_years=' + str(yyyy)
    para1 = '&competition_frame_ids=' + str(key)
    para2 = '&competition_ids=' + str(value)
    para3 = '&tv_relay_station_name='

    full_url = url + para + para1 + para2 + para3
    # print(full_url)
    df = pd.read_html(full_url, attrs={'class': 'table-base00 search-table'}, skiprows=0)
    schedule = pd.concat([schedule, df[0]], sort=False)

Der Punkt ist pd.read_html (full_url, attrs = {'class': 'table-base00 search-table'} ..., der die Ziel-URL und die Attribute von <table> angibt. Kombinieren Sie die abgerufenen in den "Zeitplan".

game_schedule.py


#Wenn Sie NaN ersetzen möchten
# schedule = schedule.fillna({'KO Zeit': '● Unentschlossen ●', 'Besucher':0})
schedule.to_csv('./csv/Game_Schedule_' + str(yyyy) + '.csv', index=False, sep=',')

Speichern Sie im CSV-Format im angegebenen Ordner.

Zusammenfassung

Nutzung von Daten

Über "Schedule-Kun"

Recommended Posts

Scraping das Ergebnis von "Schedule-Kun"
Verarbeiten Sie das Ergebnis von% time,% timeit
Scraping des Nutzungsverlaufs des Community-Zyklus
Das Ergebnis der Installation von Python auf Anaconda
Zeigen Sie das Ergebnis der Geometrieverarbeitung in Python an
Auszug nur vollständig aus dem Ergebnis von Trinity
Scraping der Gewinndaten von Zahlen mit Docker
Der Beginn von cif2cell
Die Bedeutung des Selbst
Grundlagen der Python-Scraping-Grundlagen
der Zen von Python
Die Geschichte von sys.path.append ()
Rache der Typen: Rache der Typen
Scraping Community Cycle Nutzungsverlauf PhantomJS-Version
Ein Memorandum über Warnungen in Pylint-Ausgabeergebnissen
Ich möchte das Ausführungsergebnis von strace erfassen
Die endgültige Ausgabe von Python Scraping! (Zielort: Große Kamera)
Ich habe versucht, die Werbung für die Raubkopien-Website zu kratzen
Verringern Sie den Klassennamen der Anzeige des Erkennungsergebnisses der Objekterkennung
Geben Sie das Ausgabeergebnis von sklearn.metrics.classification_report als CSV-Datei aus
Richten Sie die Version von chromedriver_binary aus
Versuchen Sie, COVID-19 Tokyo-Daten mit Python zu kratzen
10. Zählen der Anzahl der Zeilen
Die Geschichte des Baus von Zabbix 4.4
Auf dem Weg zum Ruhestand von Python2
Lassen Sie uns das Ausführungsergebnis des Programms mit C ++, Java, Python messen.
Das Ergebnis des maschinellen Lernens von Java-Ingenieuren mit Python www
Scraping Excel-Datei der Liste der Geschäfte, die regionale gemeinsame Gutscheine verarbeiten
Scraping Mitgliederbilder von der offiziellen Website der Sakamichi Group
Vergleichen Sie die Schriftarten von Jupyter-Themen
Holen Sie sich die Anzahl der Ziffern
Erläutern Sie den Code von Tensorflow_in_ROS
Verwenden Sie die Clustering-Ergebnisse erneut
GoPiGo3 des alten Mannes
Berechnen Sie die Anzahl der Änderungen
Schaben Nikkei Durchschnitt mit Dramatiker-Python
Ändern Sie das Thema von Jupyter
Die Popularität von Programmiersprachen
Ändern Sie den Stil von matplotlib
Visualisieren Sie die Flugbahn von Hayabusa 2
Über die Komponenten von Luigi
Verknüpfte Komponenten des Diagramms
Filtern Sie die Ausgabe von tracemalloc
Über die Funktionen von Python
Geben Sie das Ergebnis der Gradientenabstiegsmethode als Matplotlib-Animation aus
Simulation des Inhalts der Brieftasche
Die Kraft der Pandas: Python
Ich habe versucht, das Ranking des Qiita-Adventskalenders mit Python zu kratzen
Verschrotten Sie den Zeitplan von Hinatazaka 46 und spiegeln Sie ihn in Google Kalender wider
[Python] Lassen Sie uns die Anzahl der Elemente im Ergebnis bei der Operation des Sets reduzieren
Ablauf des Ergebnisses der asynchronen Verarbeitung mit Django und Sellerie
Studieren von Web Scraping zum Extrahieren von Daten aus Filmarks # 2
So geben Sie das Ausgabeergebnis des Linux-Befehls man in eine Datei aus
Konvertieren Sie das Ergebnis von Python Optparse, um es zu diktieren und zu verwenden
[Einführung in das SIR-Modell] Betrachten Sie das passende Ergebnis von Diamond Princess ♬
[Word2vec] Lassen Sie uns das Ergebnis der Verarbeitung von Unternehmensbewertungen in natürlicher Sprache visualisieren