Poursuivant à partir de la dernière fois, cette fois, j'ai appris à propos des Pandas, je vais donc l'afficher en tant que sortie.
Avec Pandas, vous pouvez formater des données comme Numpy, Bibliothèque externe également utile pour la visualisation et le prétraitement Comme Numpy, il est déjà installé dans Anaconda.
test.ipynb
import pandas as pd
Il est difficile d'écrire le nom de la bibliothèque à chaque fois lors de l'utilisation de pandas, alors rendons-le appelable avec pd.
Tous sont des éléments importants de l'apprentissage automatique.
Comme son nom l'indique, c'est une fonction qui crée une trame de données.
test.ipynb
#Ver self-made
test = pd.DataFrame({'culumn1':[1,2,3,4],
'culumn2':[3,4,5,6]})
#Lors de la saisie de données existantes
data = pd.read_csv('chemin du fichier csv')
Les arguments DataFrame sont de type dictionnaire. La fonction read_csv prend un fichier CSV comme argument et lit le fichier CSV pour créer un bloc de données.
Vous pouvez vérifier le bloc de données avec la fonction suivante.
test.ipynb
#Consultez l'aperçu
test.info()
#Vérifiez les données dans les 3 premières colonnes
test.head(3)
#Vérifiez les données dans les 3 dernières colonnes
test.tail(3)
#Vérifiez toutes les colonnes
test.columns
#Vérifiez tous les index
test.index
Il affiche les données du nombre de colonnes de l'argument de tête et queue. Si aucun argument n'est décrit, 5 colonnes sont affichées par défaut.
test.ipynb
#Ajouter une colonne
test['column3'] = [5,6,7,8]
#Supprimer la colonne
test = test.drop(culumns='culumn3')
Pour ajouter une colonne, spécifiez un nom de colonne qui n'existe pas dans la colonne et placez les données dans cette colonne. Lors de la suppression, utilisez la fonction drop pour spécifier le nom de la colonne.
test.ipynb
#Nommez l'index car les données sont confuses
test.index = ['test1','test2','test3','test4']
#Extraire des données spécifiques
test.loc['test1','culumn1']
#Obtenez une colonne spécifique
test.loc['colums1','columns2']
Un index est ajouté car il est difficile à comprendre à moins que l'index de bloc de données créé ne soit créé. Obtenez la valeur correspondante en spécifiant le nom de l'index et le nom de la colonne. Vous pouvez également spécifier uniquement le nom de la colonne, et il obtiendra la colonne entière.
Rapport d'importance plus élevé dans l'apprentissage automatique
test.ipynb
#Importer numpy pour utiliser nan
import numpy as np
#Créer des données manquantes
test = pd.DataFrame({'column1':[1,2,np.nan,4],
'column2':[5,np.nan,7,np.nan]})
#Affichage des trames de données
print(test)
#Vérifier les défauts
test.isnull().sum()
Les données manquantes sont affichées sous la forme NaN. La fonction isnull peut vérifier les données manquantes, et les données manquantes sont sorties comme 1. S'il y a un défaut, il sera ridicule lorsqu'il est représenté graphiquement, donc j'écrirai comment traiter le défaut.
test.ipynb
#Supprimer les données manquantes
test_dropna = test.dropna()
#Remplacer les données manquantes
test_fillna = test.fillna(test.mean())
La fonction dropna supprime tous les index avec NaN. La fonction fillna remplace NaN par autre chose. Cette fois, je l'ai remplacé par la moyenne des données de test. Il semble que la plupart des données soient fondamentalement remplacées par quelque chose par la fonction fillna au lieu de les supprimer. (Sauf si les données d'entraînement sont énormes et qu'il n'y a pas de problème même si elles sont un peu effacées)
J'ai senti que je pouvais gâcher l'organisation des données. Je suis surpris que je puisse faire beaucoup de choses que Numpy. C'est naturel car c'est une extension de Numpy ...
Numpy est la base de tout, alors souvenez-vous bien de Pandas et Numpy.
c'est tout
Recommended Posts