lettre | sens |
---|---|
X | Les données |
y | étiquette |
Une fonction qui divise les données (X, y) pour la formation et l'évaluation
Mélangez l'ensemble de données en utilisant des nombres pseudo-aléatoires avant de le fractionner
.
Les points de données sont triés par étiquette, donc si vous définissez les derniers 25% comme ensemble de test, vous ne voulez pas que tous les points de données soient étiquetés 2 (une valeur).
Fractionner les données avec la fonction train_test_split Graine aléatoire
jupyter_notebook.ipynb
train_test_split(Premier argument:Matrice de caractéristiques X,Deuxième argument:Variable objective y, test_size(=0.3):Pourcentage de la taille des données à tester, random_state= :Valeur de départ aléatoire lors du fractionnement des données)
random_state=Une valeur de 0 rend la sortie déterministe et donne toujours le même résultat.(Pour étudier)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
iris_dataset['data'], iris_dataset['target'], random_state=0)
pandas.DataFrame
pandas.DataFrame
import pandas as pd
#référence
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
#Exemple
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
Résultat de sortie
pandas.plotting.scatter_matrix
pandas.plotting.scatter_matrix
python:pandas.plotting.scatter_matrix
#Référence officielle
pandas.plotting.scatter_matrix(frame, alpha=0.5, figsize=None, ax=None, grid=False, diagonal='hist', marker='.', density_kwds=None, hist_kwds=None, range_padding=0.05, **kwargs)
#exemple d'iris
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(8, 8), marker='o',hist_kwds={'bins' : 20}, s=60, alpha=.8)
Résultat de sortie
scikit-learn
X_new = np.array([[5, 2.9, 1, 0.2]])
sklearn.neighbors.KNeighborsClassifier
Classification par «méthode k-plus proche»
sklearn.neighbors.KNeighborsClassifier
neighbors.KNeighborsClassifier
#Méthode importante
.fit(X, y)
#Ajuster le modèle avec X comme données d'entraînement et y comme valeur cible
.predict(X)
#Prédisez le libellé de classe des données fournies.
.score(X, y)
#Renvoie la précision moyenne des données de test et de l'étiquette données.