[PYTHON] Dossier d'apprentissage n ° 21 (25e jour)

Dossier d'apprentissage (25e jour)

Début des études: samedi 7 décembre

Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 12/7 (sam) -12/19 (jeu) lu ・ Progate Python course (5 cours au total): 12/19 (jeudi) -12/21 (samedi) fin ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): 21/12 (sam) -23 décembre (sam) ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ ** Wes Mckinney "(titre japonais) Introduction à l'analyse des données par Python" (O'Reilly Japon, 2018) **: 1/4 (mercredi) à 1/13 (lundi) lire

"Introduction à l'analyse de données avec Python"

Lire le 13 janvier

Chapitre 11 Données de séries chronologiques

-Toute donnée observée à un moment donné constitue une série chronologique. Exemples de caractérisation: horodatage, périodes fixes, sens du temps, etc. La méthode change en fonction de ce à quoi elle est appliquée. pandas propose de nombreux outils pour les séries chronologiques. Il est efficace pour l'analyse des données financières et des journaux.

-Datetime, heure, modules de calendrier Vous pouvez spécifier le format avec str ou strftime. % Y est une année à 4 chiffres,% y est une année à 2 chiffres, etc. Utilisez-le comme datetime.strftime ('% Y-% m-% d').

-Index reference Si vous utilisez la date ['2000'], vous pouvez vous référer aux données de la date correspondante. Génération en spécifiant une plage date_range Déplacement des données Vous pouvez également déplacer en spécifiant le décalage et le décalage.

・ La plupart des séries temporelles sont gérées par l'Accord Heure Mondiale UTC. Obtenez et générez des objets de fuseau horaire avec pytz.timezone Localisez avec tz_localize et convertissez-vous dans un autre fuseau horaire avec tz_convert. Vous pouvez également spécifier le fuseau horaire lors de la génération de l'horodatage.

-La fréquence de la série de temps peut être convertie. Utilisez la méthode de rééchantillonnage. Sous-échantillonnage pour agréger des données moins fréquentes, vice versa suréchantillonnage Pour le rééchantillonnage ('5min', fermé = XXX), fermé, déterminez si la section gauche ou droite est fermée (non incluse dans la valeur). Fonction OHLC (Open-High-Low-Close), prix d'ouverture, prix de clôture, prix le plus élevé, prix le plus bas peuvent être agrégés.   -Fonction Windows: les poids qui diminuent de façon exponentielle sont appliqués aux données. Une fonction qui vaut 0 sauf pour un certain intervalle fini. Aide à réduire le bruit et les données d'écart. Vous pouvez appliquer vos propres fonctions en roulant, en développant, en étendant et en appliquant.

Chapitre 12 pandas: édition avancée

・ Catégorique des pandas Il est possible que la vitesse de traitement et l'utilisation de la mémoire puissent être améliorées en l'utilisant.   -Lors de l'exécution d'une grande quantité d'analyses à l'aide d'un ensemble de données spécifique, l'amélioration des performances peut être obtenue avec des variables catégorielles. Le remplacement des colonnes d'un bloc de données par des représentations catégorielles permet également d'économiser beaucoup de mémoire.  astype('category')

-Ajouter une méthode de catégorie, définir la relation de taille, supprimer, etc.  add_categories, as_ordered,remove_categories

-Lors de l'utilisation d'un outil d'apprentissage automatique, etc., il peut être nécessaire de convertir en un format de variable factice. (Encodage à chaud.) Exprimé sous la forme 0 ou 1. Il peut être converti avec get_dummies.

-Groupby peut effectuer un traitement commun pour les éléments spécifiés. La même chose peut être faite avec transform en utilisant une expression lambda, telle que lambda x: x.mean ().  df.transform(lambda x:x.mean()) Le calcul de groupe est également possible en utilisant la transformation normalisé = (df ['A'] --b.transform ('mean')) /b.transform ('std') etc. L'agrégation pour chaque groupe peut se produire plusieurs fois, ou les avantages des opérations vectorielles l'emportent sur les avantages globaux.

Chapitre 13 Introduction à la bibliothèque de modélisation en Python

-Le point de contact entre les pandas et la bibliothèque d'analyse est généralement un tableau NumPy. Utilisez l'attribut .value pour convertir un bloc de données en NumPy. (Devient un ndarray.)  data.values Lors du retour, passez un ndarray bidimensionnel et spécifiez le nom de la colonne.  pd.DataFrame(data.values, columns=['one', 'two', 'three']

-Lorsque vous n'utilisez qu'une partie de la colonne Il est préférable d'utiliser des valeurs en se référant à l'index avec loc.  model_cols = ['x0', 'x1']  data.loc[:, model_cols].values Désormais, vous ne pouvez extraire que ** x0, x1 ** de ** toutes les lignes ** avec un tableau.

Remplacez-en certains par des variables factices


dummies = pd.get_dummies(data.category, prefix='category')
data_with_dummies = data.drop('category', axis=1).join(dummies)

#Créez un mannequin, supprimez la colonne d'origine avec drop et ajoutez-la avec join.

Recommended Posts

Dossier d'apprentissage n ° 21 (25e jour)
Dossier d'apprentissage n ° 10 (14e jour)
Dossier d'apprentissage n ° 24 (28e jour)
Dossier d'apprentissage n ° 23 (27e jour)
Dossier d'apprentissage n ° 25 (29e jour)
Dossier d'apprentissage n ° 26 (30e jour)
Dossier d'apprentissage n ° 20 (24e jour)
Dossier d'apprentissage n ° 14 (18e jour) Kaggle4
Dossier d'apprentissage n ° 15 (19e jour) Kaggle5
Fiche d'apprentissage 4 (8e jour)
Fiche d'apprentissage 9 (13e jour)
Fiche d'apprentissage 3 (7e jour)
Fiche d'apprentissage 5 (9e jour)
Fiche d'apprentissage 6 (10e jour)
Fiche d'apprentissage 8 (12e jour)
Fiche d'apprentissage 1 (4e jour)
Fiche d'apprentissage 7 (11e jour)
Fiche d'apprentissage 2 (6e jour)
Fiche d'apprentissage 16 (20e jour)
Dossier d'apprentissage 22 (26e jour)
Fiche d'apprentissage 13 (17e jour) Kaggle3
Dossier d'apprentissage n ° 17 (21e jour)
Fiche d'apprentissage 12 (16e jour) Kaggle2
Dossier d'apprentissage n ° 18 (22e jour)
Dossier d'apprentissage n ° 19 (23e jour)
Dossier d'apprentissage n ° 29 (33e jour)
Dossier d'apprentissage n ° 28 (32e jour)
Dossier d'apprentissage n ° 27 (31e jour)
Fiche d'apprentissage 11 (15e jour) Participation de Kaggle
Enregistrement d'apprentissage de la programmation 2ème jour
Dossier d'apprentissage
Dossier d'apprentissage n ° 3
Dossier d'apprentissage n ° 1
Dossier d'apprentissage n ° 2
Apprentissage Python jour 4
Fiche d'apprentissage (2ème jour) Scraping par #BeautifulSoup
Fiche d'apprentissage (4e jour) #Comment obtenir le chemin absolu à partir du chemin relatif
Dossier d'apprentissage jusqu'à présent
Fiche d'apprentissage Linux ① Planifier
<Cours> Apprentissage en profondeur: Day2 CNN
Fiche d'apprentissage (3e jour) Méthode de description du sélecteur #CSS #Scraping avec BeautifulSoup
<Cours> Apprentissage en profondeur: Jour 1 NN
Enregistrement d'apprentissage (6ème jour) #Set type #Dictionary type #Conversion automatique de l'ensemble de taples de liste #ndarray type #Pandas (type DataFrame)
Sujets> Deep Learning: Day3 RNN
Étudiez en profondeur le Deep Learning [DW Day 0]