[PYTHON] Étudier l'apprentissage automatique - Édition Pandas -

Étudier l'apprentissage automatique - Édition Pandas -

Poursuivant à partir de la dernière fois, cette fois, j'ai appris à propos des Pandas, je vais donc l'afficher en tant que sortie.

1. Qu'est-ce que les pandas?

Avec Pandas, vous pouvez formater des données comme Numpy, Bibliothèque externe également utile pour la visualisation et le prétraitement Comme Numpy, il est déjà installé dans Anaconda.

2. Déclaration d'importation

test.ipynb


import pandas as pd

Il est difficile d'écrire le nom de la bibliothèque à chaque fois lors de l'utilisation de pandas, alors rendons-le appelable avec pd.

3. Quand l'utilisez-vous?

  1. Organisez les données
  2. Visualisation des données
  3. Prétraitement des données

Tous sont des éléments importants de l'apprentissage automatique.

4. Fonctions principales

Fonction DataFrame

Comme son nom l'indique, c'est une fonction qui crée une trame de données.

test.ipynb


#Ver self-made
test = pd.DataFrame({'culumn1':[1,2,3,4],
                     'culumn2':[3,4,5,6]})

#Lors de la saisie de données existantes
data = pd.read_csv('chemin du fichier csv')

Les arguments DataFrame sont de type dictionnaire. La fonction read_csv prend un fichier CSV comme argument et lit le fichier CSV pour créer un bloc de données.

Vérifier la trame de données

Vous pouvez vérifier le bloc de données avec la fonction suivante.

test.ipynb


#Consultez l'aperçu
test.info()
#Vérifiez les données dans les 3 premières colonnes
test.head(3)
#Vérifiez les données dans les 3 dernières colonnes
test.tail(3)
#Vérifiez toutes les colonnes
test.columns
#Vérifiez tous les index
test.index

Il affiche les données du nombre de colonnes de l'argument de tête et queue. Si aucun argument n'est décrit, 5 colonnes sont affichées par défaut.

Supprimer et ajouter des colonnes

test.ipynb


#Ajouter une colonne
test['column3'] = [5,6,7,8]
#Supprimer la colonne
test = test.drop(culumns='culumn3')

Pour ajouter une colonne, spécifiez un nom de colonne qui n'existe pas dans la colonne et placez les données dans cette colonne. Lors de la suppression, utilisez la fonction drop pour spécifier le nom de la colonne.

Référence des données

test.ipynb


#Nommez l'index car les données sont confuses
test.index = ['test1','test2','test3','test4']
#Extraire des données spécifiques
test.loc['test1','culumn1']
#Obtenez une colonne spécifique
test.loc['colums1','columns2']

Un index est ajouté car il est difficile à comprendre à moins que l'index de bloc de données créé ne soit créé. Obtenez la valeur correspondante en spécifiant le nom de l'index et le nom de la colonne. Vous pouvez également spécifier uniquement le nom de la colonne, et il obtiendra la colonne entière.

Traitement de la valeur manquante

Rapport d'importance plus élevé dans l'apprentissage automatique

test.ipynb


#Importer numpy pour utiliser nan
import numpy as np

#Créer des données manquantes
test = pd.DataFrame({'column1':[1,2,np.nan,4],
                     'column2':[5,np.nan,7,np.nan]})

#Affichage des trames de données
print(test)
#Vérifier les défauts
test.isnull().sum()

Les données manquantes sont affichées sous la forme NaN. La fonction isnull peut vérifier les données manquantes, et les données manquantes sont sorties comme 1. S'il y a un défaut, il sera ridicule lorsqu'il est représenté graphiquement, donc j'écrirai comment traiter le défaut.

test.ipynb


#Supprimer les données manquantes
test_dropna = test.dropna()
#Remplacer les données manquantes
test_fillna = test.fillna(test.mean())

La fonction dropna supprime tous les index avec NaN. La fonction fillna remplace NaN par autre chose. Cette fois, je l'ai remplacé par la moyenne des données de test. Il semble que la plupart des données soient fondamentalement remplacées par quelque chose par la fonction fillna au lieu de les supprimer. (Sauf si les données d'entraînement sont énormes et qu'il n'y a pas de problème même si elles sont un peu effacées)

5. Résumé

J'ai senti que je pouvais gâcher l'organisation des données. Je suis surpris que je puisse faire beaucoup de choses que Numpy. C'est naturel car c'est une extension de Numpy ...

Numpy est la base de tout, alors souvenez-vous bien de Pandas et Numpy.

c'est tout

Recommended Posts

Étudier l'apprentissage automatique - Édition Pandas -
Étudier l'apprentissage automatique ~ matplotlib ~
[Apprentissage automatique] Étudions l'arbre de décision
[Apprentissage automatique] Essayez d'étudier une forêt aléatoire
Support Vector Machine (pour les débutants) -Code Edition-
Introduction à Machine Learning-Hard Margin SVM Edition-