[PYTHON] Vorbereitung zum Versuch "Data Science 100 Knock (Strukturierte Datenverarbeitung)"

Zusammenfassung

Die Data Scientist Association https://www.datascientist.or.jp/ hat "Data Science 100 Knock (Strukturierte Datenverarbeitung)" veröffentlicht. Zeichnen Sie die Arbeit auf, um die Python-Version von Jupyter Notebook auf einem PC mit Windows 10 Home Edition, Anaconda (2020.02) zu testen, ohne Docker zu installieren.

Was ist "Data Science 100 Knock (Strukturierte Datenverarbeitung)"?

Es wird eine Sammlung von Fragen mit Daten sein, die unten vorgestellt werden (3 Sprachen, mit Antworten). https://digitalpr.jp/r/39499

Ich habe einen Docker

Meine Umgebung -PC ist Windows 10 Home. Obwohl es von Docker Toolbox unterstützt wird.

Laden Sie Zip-Dateien von GitHub herunter

Gehen Sie zur obersten Seite des Projekts. Zum Beispiel ist die obere Seite dieses "Data Science 100 Knock" unten. https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess

Klicken Sie nun rechts auf "Green Code". image.png

Klicken Sie dann auf ZIP herunterladen. image.png

PC Download 100knocks-preprocess-master.zip wird auf Florda heruntergeladen. image.png

Wenn Sie die Zip-Datei entpacken, sieht der Inhalt wie folgt aus. image.png

Ich brauche nur einen Code mit der Frage, einen Datensatz und einen Antwortcode.

Der Code für Jupyter Notebook ist beispielsweise unten aufgeführt. image.png

Zum Beispiel sind die Daten unten. image.png

Verschieben Sie den gesamten Ordner unter MyPython (den Ordner, der den Python-Code enthält). image.png

Starten Sie Jupyter Notebook

image.png

Ordner Gehen Sie zu MyPython → 100knocks-preprocess-master → Docker → arbeiten. image.png

Klicken Sie auf preprocess_knock_Python.ipynb, um es zu öffnen. image.png

Klicken Sie auf den ersten Posteingang, um Ausführen auszuführen.

Wenn Sie den Import bestätigen image.png Es bleibt mit psycopg2 stecken.

Wenn Sie genau hinschauen, sind einige Bibliotheken nicht installiert. Denken Sie hier. (1) Installieren Sie diese (es gibt eine Frage, die Sie möglicherweise nie verwenden werden?). (2) Definieren Sie den Datenrahmen selbst (ich habe das Gefühl, dass ich später in Schwierigkeiten geraten werde, wenn ich nicht mit den CSV-Daten arbeiten kann).

Ich habe beschlossen, den Datenrahmen selbst zu definieren.

Der Import wird unverändert verwendet (ausgenommen nicht installierte Bibliotheken), und geocode.csv enthält leere Daten. Daher habe ich den Typ definiert.

import os
import pandas as pd
import numpy as np
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import math

from sklearn import preprocessing
from sklearn.model_selection import train_test_split

df_customer = pd.read_csv('data/customer.csv')
df_category = pd.read_csv('data/category.csv')
df_product = pd.read_csv('data/product.csv')
df_receipt = pd.read_csv('data/receipt.csv')
df_store = pd.read_csv('data/store.csv')
df_geocode = pd.read_csv('data/geocode.csv',\
    converters={'prefecture':str,'city':str,'town':str,'street':str,'address':str})

Übungen können auf eigene Weise durchgeführt werden. image.png

Referenzierte Site

Praktische Lernumgebung für Data Science-Anfänger "Data Science 100 Knock (Strukturierte Datenverarbeitung)" wird kostenlos auf GitHub veröffentlicht: https://digitalpr.jp/r/39499

Recommended Posts

Vorbereitung zum Versuch "Data Science 100 Knock (Strukturierte Datenverarbeitung)"
"Data Science 100 Knock (Strukturierte Datenverarbeitung)" Python-007 Erläuterung
"Data Science 100 Knock (Strukturierte Datenverarbeitung)" Python-001 Erläuterung
"Data Science 100 Knock (Strukturierte Datenverarbeitung)" Python-002 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 021 Erläuterung
"Data Science 100 Knock (Strukturierte Datenverarbeitung)" Python-005 Erläuterung
"Data Science 100 Knock (Strukturierte Datenverarbeitung)" Python-004 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 020 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 025 Erläuterung
"Data Science 100 Knock (Strukturierte Datenverarbeitung)" Python-003 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 019 Erläuterung
Umgebungskonstruktion (Windows 10) für 100 Schläge Data Science (strukturierte Datenverarbeitung)
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 001-010 Impressionen + Zusammenfassung der Kommentare
Deshalb habe ich Pandas verlassen [Data Science 100 Knock (Strukturierte Datenverarbeitung) # 2]
Deshalb habe ich Pandas verlassen [Data Science 100 Knock (Strukturierte Datenverarbeitung) # 1]
Deshalb habe ich Pandas verlassen [Data Science 100 Knock (Strukturierte Datenverarbeitung) # 5]
Deshalb habe ich Pandas verlassen [Data Science 100 Knock (Strukturierte Datenverarbeitung) # 4]
Deshalb habe ich Pandas verlassen [Data Science 100 Knock (Strukturierte Datenverarbeitung) # 6]
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 018 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 023 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 030 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 022 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 017 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 026 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 016 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 024 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 027 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 029 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 015 Erläuterung
[Python] 100 Schläge auf Data Science (strukturierte Datenverarbeitung) 028 Erläuterung
100 Sprachverarbeitung Knock-92 (mit Gensim): Anwendung auf Analogiedaten
Data Science 100 Klopfkommentar (P021 ~ 040)
Data Science 100 Klopfkommentar (P061 ~ 080)
Data Science 100 Klopfkommentar (P041 ~ 060)
Data Science 100 Klopfkommentar (P081 ~ 100)
Versuchen Sie "100 Schläge auf Data Science" ①
Einführung in datenwissenschaftliche Bücher.
Versuchen Sie, Daten in MongoDB abzulegen
Vorbereitung zum Starten der Verarbeitung natürlicher Sprache
100 Sprachverarbeitung Knock-91: Vorbereitung von Analogiedaten
Versuchen Sie, mit Pandas in ordentliche Daten umzuwandeln
Bücher über Datenwissenschaft, die 2020 gelesen werden sollen
[Einführung in das SEIR-Modell] Versuchen Sie, COVID-19-Daten anzupassen ♬
Versuchen Sie, mit django-import-export csv-Daten zu django hinzuzufügen
Versuchen Sie, Doujin-Musikdaten mit Pandas zu aggregieren
Python unerfahrene Person versucht, 100 Sprachverarbeitung 14-16 zu klopfen
Ich möchte 100 Datenwissenschaften mit Colaboratory schlagen
Verwenden Sie Dekorateure, um eine erneute Ausführung der Datenverarbeitung zu verhindern
Python unerfahrene Person versucht, 100 Sprachverarbeitung 07-09 zu klopfen
Python unerfahrene Person versucht, 100 Sprachverarbeitung 10 ~ 13 zu klopfen
Python unerfahrene Person versucht, 100 Sprachverarbeitung 05-06 zu klopfen
Python unerfahrene Person versucht, 100 Sprachverarbeitung 00-04 zu klopfen
100 Sprachverarbeitungsklopfen (2020): 28
Lernen Sie Data Science
100 Sprachverarbeitungsklopfen (2020): 38
100 Sprachverarbeitung klopfen 00 ~ 02
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil6
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil2
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil1
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil9
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil7