Brief | Bedeutung |
---|---|
X | Daten |
y | Etikette |
Eine Funktion, die Daten (X, y) für Training und Auswertung teilt
Mischen Sie den Datensatz vor dem Teilen mit Pseudozufallszahlen
.
Die Datenpunkte sind nach Beschriftung sortiert. Wenn Sie also die letzten 25% als Testsatz festlegen, möchten Sie nicht, dass alle Datenpunkte mit 2 (ein Wert) gekennzeichnet sind.
Daten mit der Funktion train_test_split teilen Zufälliger Startwert
jupyter_notebook.ipynb
train_test_split(Erstes Argument:Merkmalsmatrix X.,Zweites Argument:Zielvariable y, test_size(=0.3):Prozentsatz der Datengröße zum Testen, random_state= :Zufälliger Startwert beim Aufteilen von Daten)
random_state=Ein Wert von 0 macht die Ausgabe deterministisch und liefert immer das gleiche Ergebnis.(Zu Studienzwecken)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
iris_dataset['data'], iris_dataset['target'], random_state=0)
pandas.DataFrame
pandas.DataFrame
import pandas as pd
#Referenz
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
#Beispiel
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
Ausgabeergebnis
pandas.plotting.scatter_matrix
pandas.plotting.scatter_matrix
python:pandas.plotting.scatter_matrix
#Offizielle Referenz
pandas.plotting.scatter_matrix(frame, alpha=0.5, figsize=None, ax=None, grid=False, diagonal='hist', marker='.', density_kwds=None, hist_kwds=None, range_padding=0.05, **kwargs)
#Iris Beispiel
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(8, 8), marker='o',hist_kwds={'bins' : 20}, s=60, alpha=.8)
Ausgabeergebnis
scikit-learn
X_new = np.array([[5, 2.9, 1, 0.2]])
sklearn.neighbors.KNeighborsClassifier
Klassifizierung nach "k-next-Methode"
sklearn.neighbors.KNeighborsClassifier
neighbors.KNeighborsClassifier
#Wichtige Methode
.fit(X, y)
#Passen Sie das Modell mit X als Trainingsdaten und y als Zielwert an
.predict(X)
#Sagen Sie die Klassenbezeichnung der bereitgestellten Daten voraus.
.score(X, y)
#Gibt die durchschnittliche Genauigkeit der angegebenen Testdaten und des angegebenen Etiketts zurück.