Début des études: samedi 7 décembre
Matériel pédagogique, etc.: ・ Miyuki Oshige "Détails! Note d'introduction à Python3 »(Sotech, 2017): 19/12 (jeudi) Terminé ・ Cours Progate Python (5 cours au total): se termine le samedi 21 décembre ・ Andreas C. Müller, Sarah Guido "(titre japonais) Apprentissage automatique à partir de Python" (O'Reilly Japon, 2017): Terminé le samedi 23 décembre ・ Kaggle: Real or Not? NLP with Disaster Tweets: Publié du samedi 28 décembre au vendredi 3 janvier Ajustement ・ ** Wes Mckinney "(titre japonais) Introduction à l'analyse de données par Python" (O'Reilly Japon, 2018) **: 4 janvier (samedi) ~
p.276 Terminez la lecture jusqu'au chapitre 8 Data Wrangling.
-La caractéristique des pandas est qu'il existe de nombreuses fonctions pour lire les données tabulaires en tant qu'objets de trame de données. read_csv、read_table、read_excel、read_html ... Certaines des fonctions de lecture font automatiquement l'inférence de type, vous n'avez donc pas nécessairement à définir les détails. Délimiteur par défaut (sep): read_csv → virgule, read_table → \ t (tabulation horizontale) Si vous souhaitez séparer d'autres choses, spécifiez avec un argument.
-Dataframe de fichiers avec différents formats de ligne Passez-le à csf.reader. Lisez le taple retourné avec des lignes. Divisé en en-tête et en ligne de données Format de dictionnaire avec notation d'inclusion de dictionnaire et zip (valeurs *) ...
・ Json (Notation d'objets JavaScript) Un des formats d'échange de données avec des requêtes HTTP entre un navigateur Web et une application.
-Il est également possible de lire et d'écrire des données au format HTML / XML. Lisez-le avec la fonction de lecture, ajoutez des sauts et des index pour en faire un dictionnaire, et enfin en faire un bloc de données. Le travail du soi-disant grattage. Façonnez les données afin qu'elles puissent être utilisées. Kaggle, etc. a beaucoup de données bien organisées, alors pourquoi ne pas le faire? C'est plutôt une technologie qui est susceptible d'être beaucoup utilisée dans la pratique.
-HDF5 Format de fichier pour enregistrer les données de séquence scientifique. Écrit en C, il peut lire et écrire des données efficacement, ce qui en fait un bon choix pour les grands ensembles de données.
・ Excel peut également être lu. Il peut également être lu à partir de la base de données sql.
・ Traitement des valeurs manquantes Supprimez toutes les lignes contenant des valeurs manquantes (NA, NaN) avec dropna. Remplissez de fillna. Il existe également des remplissages et des remplissages similaires à ceux avant et après. Vous pouvez également spécifier how = 'all' comme argument et supprimer uniquement les lignes qui sont toutes NA. La colonne est la même que les autres et axis = 1 est spécifié. Si vous donnez à fillna un dictionnaire, vous pouvez remplir chaque colonne avec un numéro différent. écraser en place. Si vous donnez data.mean à fillna, vous pouvez également remplir les espaces avec la moyenne arithmétique.
・ Transformation des données Renvoie une série de valeurs booléennes avec duplicate. drop_duplicates ne supprime que les valeurs true / false (mêmes éléments que les autres) Conversion élément par élément avec carte. Vous pouvez également donner un dictionnaire. (Il semble que toutes les fonctions peuvent être transmises à un dictionnaire en commun.) Vous pouvez également le remplacer. J'ai l'impression que c'est ce que je vois souvent sur kaggle. Remplacez le premier argument par le deuxième nombre.
・ Discrimination et binning Créez un élément dans la liste et passez-le comme argument aux pandas coupés pour le diviser en bacs.
・ Détection des valeurs aberrantes data [(np.abs (data)> 3) .any (1), 3 or more est un exemple. Répertorie tous ceux dont la valeur absolue de l'élément de données est supérieure à la valeur spécifiée. Si = np.sign (data) * 3, la limite supérieure peut être créée en combinaison avec sign, qui renvoie une valeur numérique correspondant au signe de chaque élément.
· Échantillonnage aléatoire Vous pouvez échantillonner 5 aléas avec random.permutation (5) et un échantillonnage équivalent avec take. Passez replace = True dans l'exemple de méthode pour sélectionner une extraction sans restauration.
-Récupérer les variables d'indicateur. Liste, pour déclaration, étendre(x.split('|'))alors|Mettez les données divisées en fonction de la liste. Vous pouvez faire une liste de chaque composant en l'extrayant avec des pandas uniques. p229 J'ai aussi beaucoup utilisé le split dans kaggle.
·Expressions régulières. Utilisez re module, complile, findall, regex.match ...
-Index hiérarchique. Données avec deux index ou plus. L'index a a 1,2,3 éléments et l'index b a 1,2,3 éléments. Tel. Vous pouvez pivoter avec unstack et stack. (Utilisez l'élément interne comme étiquette de colonne, etc.)
-Vous pouvez changer l'ordre de la hiérarchie avec swaplevel. Trier par sort_index. Si vous transmettez le niveau comme argument, vous pouvez spécifier si vous souhaitez utiliser cette hiérarchie. 0, 1, ... de l'extérieur
-Les colonnes de trame de données peuvent être indexées. set.index Si set.index ('a') est spécifié, les éléments qui composent la colonne de a sont nouvellement ajoutés en tant qu'index. reset.index est l'inverse de cela.
-Fusion et fusion, concat, fusion et attache. Fondamentalement, il est spécifié par la jointure interne (interne), et seuls les communs sont inclus dans le résultat. Spécifiez how = 'external' si vous souhaitez tout inclure dans le résultat, même s'il est indépendant.
-Stack est conçu pour supprimer les valeurs manquantes, mais vous pouvez également le supprimer avec dropna = False. Non limité à cela, il semble que la plupart des opérations peuvent être effectuées en le spécifiant avec un argument (jugé) Si vous souhaitez effectuer une opération, vous pouvez commencer par examiner les arguments.
Recommended Posts