Die Data Scientist Association https://www.datascientist.or.jp/ hat "Data Science 100 Knock (Strukturierte Datenverarbeitung)" veröffentlicht. Zeichnen Sie die Arbeit auf, um die Python-Version von Jupyter Notebook auf einem PC mit Windows 10 Home Edition, Anaconda (2020.02) zu testen, ohne Docker zu installieren.
Es wird eine Sammlung von Fragen mit Daten sein, die unten vorgestellt werden (3 Sprachen, mit Antworten). https://digitalpr.jp/r/39499
Meine Umgebung -PC ist Windows 10 Home. Obwohl es von Docker Toolbox unterstützt wird.
Gehen Sie zur obersten Seite des Projekts. Zum Beispiel ist die obere Seite dieses "Data Science 100 Knock" unten. https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess
Klicken Sie nun rechts auf "Green Code".
Klicken Sie dann auf ZIP herunterladen.
PC Download 100knocks-preprocess-master.zip wird auf Florda heruntergeladen.
Wenn Sie die Zip-Datei entpacken, sieht der Inhalt wie folgt aus.
Ich brauche nur einen Code mit der Frage, einen Datensatz und einen Antwortcode.
Der Code für Jupyter Notebook ist beispielsweise unten aufgeführt.
Zum Beispiel sind die Daten unten.
Verschieben Sie den gesamten Ordner unter MyPython (den Ordner, der den Python-Code enthält).
Ordner Gehen Sie zu MyPython → 100knocks-preprocess-master → Docker → arbeiten.
Klicken Sie auf preprocess_knock_Python.ipynb, um es zu öffnen.
Klicken Sie auf den ersten Posteingang, um Ausführen auszuführen.
Wenn Sie den Import bestätigen Es bleibt mit psycopg2 stecken.
Wenn Sie genau hinschauen, sind einige Bibliotheken nicht installiert. Denken Sie hier. (1) Installieren Sie diese (es gibt eine Frage, die Sie möglicherweise nie verwenden werden?). (2) Definieren Sie den Datenrahmen selbst (ich habe das Gefühl, dass ich später in Schwierigkeiten geraten werde, wenn ich nicht mit den CSV-Daten arbeiten kann).
Der Import wird unverändert verwendet (ausgenommen nicht installierte Bibliotheken), und geocode.csv enthält leere Daten. Daher habe ich den Typ definiert.
import os
import pandas as pd
import numpy as np
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import math
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
df_customer = pd.read_csv('data/customer.csv')
df_category = pd.read_csv('data/category.csv')
df_product = pd.read_csv('data/product.csv')
df_receipt = pd.read_csv('data/receipt.csv')
df_store = pd.read_csv('data/store.csv')
df_geocode = pd.read_csv('data/geocode.csv',\
converters={'prefecture':str,'city':str,'town':str,'street':str,'address':str})
Übungen können auf eigene Weise durchgeführt werden.
Praktische Lernumgebung für Data Science-Anfänger "Data Science 100 Knock (Strukturierte Datenverarbeitung)" wird kostenlos auf GitHub veröffentlicht: https://digitalpr.jp/r/39499
Recommended Posts