Résumé

La Data Scientist Association https://www.datascientist.or.jp/ a publié "Data Science 100 Knock (Structured Data Processing)". Enregistrez le travail pour essayer la version Python de Jupyter Notebook sur un PC avec Windows 10 Home Edition, Anaconda (2020.02) installé, sans installer Docker.

Qu'est-ce que "Data Science 100 Knock (traitement de données structurées)"?

Ce sera une collection de questions avec les données présentées ci-dessous (3 langues, avec réponses). https://digitalpr.jp/r/39499

J'ai un docker

Mon environnement -PC est Windows 10 Famille. Bien qu'il soit pris en charge par Docker Toolbox. -La mémoire est de 8 Go. -Depuis qu'Anaconda a été installé, Python et Jupyter Notebook fonctionnent. Tout d'abord, j'ai pensé à essayer ce qui se passerait si je n'installais pas Docker.

Télécharger des fichiers Zip depuis GitHub

Accédez à la première page du projet. Par exemple, la première page de ce "Data Science 100 Knock" est ci-dessous. https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess

Cliquez maintenant sur "Code vert" sur la droite.

Cliquez ensuite sur Télécharger le ZIP.

Téléchargement PC 100knocks-preprocess-master.zip est téléchargé sur Florda.

Lorsque vous décompressez le zip, le contenu est le suivant.

Tout ce dont j'ai besoin est un code avec la question, un ensemble de données et un code de réponse.

Par exemple, le code pour Jupyter Notebook est ci-dessous.

Par exemple, les données sont ci-dessous.

Déplacez le dossier entier sous MyPython (le dossier qui contient le code Python).

Lancez Jupyter Notebook

Dossier Allez dans MyPython → 100knocks-preprocess-master → docker → work.

Cliquez sur preprocess_knock_Python.ipynb pour l'ouvrir.

Cliquez sur la première boîte de réception pour exécuter Exécuter.

Lorsque vous confirmez l'importation Il reste bloqué avec psycopg2.

Si vous regardez attentivement, certaines bibliothèques ne sont pas installées. Pensez ici. (1) Les installez-vous (il y a une question que vous ne pouvez jamais les utiliser?). (2) Définissez-vous le dataframe vous-même (j'ai le sentiment que je serai en difficulté plus tard si je ne peux pas opérer à partir des données csv).

J'ai décidé de définir moi-même le dataframe.

L'importation est utilisée telle quelle (à l'exclusion des bibliothèques qui ne sont pas installées) et geocode.csv contient des données vides, j'ai donc défini le type.

import os
import pandas as pd
import numpy as np
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import math

from sklearn import preprocessing
from sklearn.model_selection import train_test_split

df_customer = pd.read_csv('data/customer.csv')
df_category = pd.read_csv('data/category.csv')
df_product = pd.read_csv('data/product.csv')
df_receipt = pd.read_csv('data/receipt.csv')
df_store = pd.read_csv('data/store.csv')
df_geocode = pd.read_csv('data/geocode.csv',\
    converters={'prefecture':str,'city':str,'town':str,'street':str,'address':str})

Les exercices peuvent être réalisés à leur manière.

Site référencé

Un environnement d'apprentissage pratique pour les débutants en science des données "Data Science 100 Knock (Structured Data Processing)" est disponible gratuitement sur GitHub: https://digitalpr.jp/r/39499

[PYTHON] Préparation à l’essai de «Data Science 100 Knock (traitement des données structurées)»