Hallo, das ist Motty. Dieses Mal wurde die Klassifizierung (Clustering) in Python durchgeführt.
Die Klassifizierung in Statistik und maschinelles Lernen bezieht sich auf die Klassifizierung von Daten in Gruppen mit ähnlichen Merkmalen. Es handelt sich um "lehrerloses Lernen", da es ohne Standard im Voraus durchgeführt wird.
Die K-Mittelungsmethode ist ein Algorithmus, der anhand des Durchschnitts der Cluster in eine bestimmte Anzahl von Clustern (k) klassifiziert wird. Die Klassifizierungsstruktur wird optimiert, indem alle Daten danach klassifiziert werden, wie nahe sie am Schwerpunkt liegen, und der Schwerpunkt nacheinander aktualisiert wird.
KMeans.py
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs as mb
clf = KMeans(n_clusters = 3)
N = 100 #Number of sample
dataset = mb(centers = 3)
features = np.array(dataset[0])
pred = clf.fit_predict(features)
Ich konnte es ordentlich klassifizieren.
Es ist zu beachten, dass die Daten selbst sauber sind, die Anzahl von K angemessen ist und die Auswahl des Algorithmus angemessen ist. Wenn die Bedingungen nicht erfüllt sind, ist es möglicherweise nicht möglich, die Daten auf diese Weise sauber zu teilen.
NOISE = [25,25]
features = np.append(features,NOISE).reshape(-1,2)
dataset = mb(centers = 4)
makemoons.py
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs as mb
clf = KMeans(n_clusters = 2)
X1,y1 = make_moons(noise = 0.05, random_state=0)
pred1 = clf.fit_predict(X1)
for i in range(2):
labels = X1[pred1 == i]
plt.scatter(labels[:,0],labels[:,1])
plt.show()
Es gibt verschiedene Klassifizierungsalgorithmen, und diesmal habe ich einen davon beschrieben, die KMeans-Methode. Ich möchte später die Klassifizierung von SVM und Ranram Forest beschreiben.
Recommended Posts