Début des études: samedi 7 décembre
Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 12/7 (sam) -12/19 (jeu) lu ・ Progate Python course (5 cours au total): 12/19 (jeudi) -12/21 (samedi) fin ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): 21/12 (sam) -23 décembre (sam) ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ ** Wes Mckinney "(titre japonais) Introduction à l'analyse des données par Python" (O'Reilly Japon, 2018) **: 1/4 (mercredi) à 1/13 (lundi) lire
Lire le 13 janvier
-Toute donnée observée à un moment donné constitue une série chronologique. Exemples de caractérisation: horodatage, périodes fixes, sens du temps, etc. La méthode change en fonction de ce à quoi elle est appliquée. pandas propose de nombreux outils pour les séries chronologiques. Il est efficace pour l'analyse des données financières et des journaux.
-Datetime, heure, modules de calendrier Vous pouvez spécifier le format avec str ou strftime. % Y est une année à 4 chiffres,% y est une année à 2 chiffres, etc. Utilisez-le comme datetime.strftime ('% Y-% m-% d').
-Index reference Si vous utilisez la date ['2000'], vous pouvez vous référer aux données de la date correspondante. Génération en spécifiant une plage date_range Déplacement des données Vous pouvez également déplacer en spécifiant le décalage et le décalage.
・ La plupart des séries temporelles sont gérées par l'Accord Heure Mondiale UTC. Obtenez et générez des objets de fuseau horaire avec pytz.timezone Localisez avec tz_localize et convertissez-vous dans un autre fuseau horaire avec tz_convert. Vous pouvez également spécifier le fuseau horaire lors de la génération de l'horodatage.
-La fréquence de la série de temps peut être convertie. Utilisez la méthode de rééchantillonnage. Sous-échantillonnage pour agréger des données moins fréquentes, vice versa suréchantillonnage Pour le rééchantillonnage ('5min', fermé = XXX), fermé, déterminez si la section gauche ou droite est fermée (non incluse dans la valeur). Fonction OHLC (Open-High-Low-Close), prix d'ouverture, prix de clôture, prix le plus élevé, prix le plus bas peuvent être agrégés. -Fonction Windows: les poids qui diminuent de façon exponentielle sont appliqués aux données. Une fonction qui vaut 0 sauf pour un certain intervalle fini. Aide à réduire le bruit et les données d'écart. Vous pouvez appliquer vos propres fonctions en roulant, en développant, en étendant et en appliquant.
・ Catégorique des pandas Il est possible que la vitesse de traitement et l'utilisation de la mémoire puissent être améliorées en l'utilisant. -Lors de l'exécution d'une grande quantité d'analyses à l'aide d'un ensemble de données spécifique, l'amélioration des performances peut être obtenue avec des variables catégorielles. Le remplacement des colonnes d'un bloc de données par des représentations catégorielles permet également d'économiser beaucoup de mémoire. astype('category')
-Ajouter une méthode de catégorie, définir la relation de taille, supprimer, etc. add_categories, as_ordered,remove_categories
-Lors de l'utilisation d'un outil d'apprentissage automatique, etc., il peut être nécessaire de convertir en un format de variable factice. (Encodage à chaud.) Exprimé sous la forme 0 ou 1. Il peut être converti avec get_dummies.
-Groupby peut effectuer un traitement commun pour les éléments spécifiés. La même chose peut être faite avec transform en utilisant une expression lambda, telle que lambda x: x.mean (). df.transform(lambda x:x.mean()) Le calcul de groupe est également possible en utilisant la transformation normalisé = (df ['A'] --b.transform ('mean')) /b.transform ('std') etc. L'agrégation pour chaque groupe peut se produire plusieurs fois, ou les avantages des opérations vectorielles l'emportent sur les avantages globaux.
-Le point de contact entre les pandas et la bibliothèque d'analyse est généralement un tableau NumPy. Utilisez l'attribut .value pour convertir un bloc de données en NumPy. (Devient un ndarray.) data.values Lors du retour, passez un ndarray bidimensionnel et spécifiez le nom de la colonne. pd.DataFrame(data.values, columns=['one', 'two', 'three']
-Lorsque vous n'utilisez qu'une partie de la colonne Il est préférable d'utiliser des valeurs en se référant à l'index avec loc. model_cols = ['x0', 'x1'] data.loc[:, model_cols].values Désormais, vous ne pouvez extraire que ** x0, x1 ** de ** toutes les lignes ** avec un tableau.
Remplacez-en certains par des variables factices
dummies = pd.get_dummies(data.category, prefix='category')
data_with_dummies = data.drop('category', axis=1).join(dummies)
#Créez un mannequin, supprimez la colonne d'origine avec drop et ajoutez-la avec join.
Recommended Posts