| Brief | Bedeutung |
|---|---|
| X | Daten |
| y | Etikette |
Eine Funktion, die Daten (X, y) für Training und Auswertung teilt
Mischen Sie den Datensatz vor dem Teilen mit Pseudozufallszahlen.
Die Datenpunkte sind nach Beschriftung sortiert. Wenn Sie also die letzten 25% als Testsatz festlegen, möchten Sie nicht, dass alle Datenpunkte mit 2 (ein Wert) gekennzeichnet sind.
Daten mit der Funktion train_test_split teilen Zufälliger Startwert
jupyter_notebook.ipynb
train_test_split(Erstes Argument:Merkmalsmatrix X.,Zweites Argument:Zielvariable y, test_size(=0.3):Prozentsatz der Datengröße zum Testen, random_state= :Zufälliger Startwert beim Aufteilen von Daten)
random_state=Ein Wert von 0 macht die Ausgabe deterministisch und liefert immer das gleiche Ergebnis.(Zu Studienzwecken)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
iris_dataset['data'], iris_dataset['target'], random_state=0)
pandas.DataFrame
pandas.DataFrame
import pandas as pd
#Referenz
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
#Beispiel
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
Ausgabeergebnis

pandas.plotting.scatter_matrix
pandas.plotting.scatter_matrix
python:pandas.plotting.scatter_matrix
#Offizielle Referenz
pandas.plotting.scatter_matrix(frame, alpha=0.5, figsize=None, ax=None, grid=False, diagonal='hist', marker='.', density_kwds=None, hist_kwds=None, range_padding=0.05, **kwargs)
#Iris Beispiel
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(8, 8), marker='o',hist_kwds={'bins' : 20}, s=60, alpha=.8)
Ausgabeergebnis

scikit-learn
X_new = np.array([[5, 2.9, 1, 0.2]])
sklearn.neighbors.KNeighborsClassifier
Klassifizierung nach "k-next-Methode"
sklearn.neighbors.KNeighborsClassifier
neighbors.KNeighborsClassifier
#Wichtige Methode
.fit(X, y)
#Passen Sie das Modell mit X als Trainingsdaten und y als Zielwert an
.predict(X)
#Sagen Sie die Klassenbezeichnung der bereitgestellten Daten voraus.
.score(X, y)
#Gibt die durchschnittliche Genauigkeit der angegebenen Testdaten und des angegebenen Etiketts zurück.