Stellen Sie sich zunächst kurz vor. Ich habe im Mai 2020 angefangen, Datenwissenschaft zu studieren.
・ Bis Mai 2020 ist es das erste Mal, dass die Programmiersprache selbst berührt wird ・ Da Excel häufig für die Arbeit verwendet wird, ist es eine Ebene, die einfache Funktionen ausführen kann.
Als ich Data Science studierte, dachte ich Es gibt nur wenige Orte, an denen die Datenverarbeitung geübt werden kann, was in der Praxis am belastendsten zu sein scheint! !! Das ist.
In der Zwischenzeit, ungefähr im Juni, hat die Data Scientist Association die optimalen Ausgaben auf GitHub hochgeladen! Zitat: General Incorporated Association Data Scientist Association Data Science 100 Knock (Strukturierte Datenverarbeitung) https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
Als ersten Schritt möchte ich diese 100 Schläge mit Python, SQL, R ausprobieren, ohne auf den Antwortcode zu achten. Wie oben erwähnt, da ich ein echter Amateur bin, wenn es um Programmierung geht, gibt es vielleicht viel verdammten Code, aber bitte schauen Sie ihn sich warm an.
P-001: Zeigen Sie die ersten 10 Elemente aller Elemente aus dem Datenrahmen (df_receipt) der Belegdetails an und überprüfen Sie visuell, welche Art von Daten Sie haben.
In
df_receipt.head(10)
Ausgabeergebnis:
P-002: Geben Sie Spalten in der Reihenfolge des Verkaufsdatums (sales_ymd), der Kunden-ID (customer_id), des Produktcodes (product_cd) und des Verkaufsbetrags (Betrag) aus dem Datenrahmen der Belegabrechnung (df_receipt) an und zeigen Sie 10 Artikel an.
In
df_clms = df_receipt[["sales_ymd", "customer_id", "product_cd", "amount"]]
df_clms.head(10)
Ausgabeergebnis:
Ich werde es aktualisieren, wenn ich Zeit habe.
Recommended Posts