[PYTHON] Clustering und Hauptkomponentenanalyse nach der K-Means-Methode (Anfänger)

Einführung

Dieser Artikel beschreibt die K-Means-Methode (Datenclustering) und die Hauptkomponentenanalyse, die effektiv verwendet werden können, wenn Sie mit der Datenanalyse unter Verwendung von Python-Pandas fortfahren. Um das Clustering zu verstehen, ist es gut, im Voraus über Mittelwert, Abweichung, Standardisierung usw. Bescheid zu wissen. Es wäre gut, wenn Sie das Wissen bis zum zweiten Kapitel des Buches hätten: "Sie können in 10 Stunden 4 Jahre lang Statistik am College lernen." Ich habe Pandas mit dem Namen pd im Voraus importiert.

Was ist die K-Mittel-Methode?

Algorithmus zur Klassifizierung in k Cluster

Was ist Hauptkomponentenanalyse?

Technik zur Reduzierung der Anzahl der Dimensionen (Da es schwierig ist, Daten mit 3 oder mehr Variablen in einer Ebene auszugeben, können Sie durch Verringern der Anzahl der Dimensionen auf leicht verständliche Weise in einer Ebene zeichnen.)

Import der von K-means verwendeten Bibliothek aus Scikit-learn

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

Importieren von Bibliotheken für die Hauptkomponentenanalyse aus Scikit-learn

from sklearn.decomposition import PCA

Datenstandardisierung

Führen Sie die Standardisierung mit fit_transform aus der geladenen Bibliothek durch

Annahme: Lesen / bearbeiten Sie die zu analysierenden Daten mit Pandas usw. im Voraus und erstellen Sie sie mit den folgenden Variablen (In den folgenden Daten werden numerische Daten wie Mittelwert, Median, Max, Min gespeichert.) Name der Datenvariablen: an_data

sc = StandardScaler()
clustering_sc = sc.fit_transform(an_data)

Clustering mit K-Mitteln

Wenn Sie einen Wert auf random_state setzen, was eine Option von KMeans ist, können Sie dasselbe Ergebnis erzielen, indem Sie die Option ab dem nächsten Mal mit demselben Wert angeben. (Der Standardwert ist random_state = None, der jedes Mal mit einer anderen Zufallszahl verarbeitet wird.)

kmeans = KMeans(n_cluster=<Anzahl der Cluster>, random_state=0)
clusters = kmeans.fit(clustering_sc)

Ausgabe von Clustering-Ergebnissen in eine Tabelle

an_data["result_clustering"] = clusters.labels_
an_data.head()

Hauptkomponentenanalyse

hoge = clustering_sc
pca = PCA(n_components=2)  #Geben Sie 2 für die Anzahl der Dimensionen an, die in einer zweidimensionalen Ebene ausgegeben werden sollen
pca.fit(hoge)
hoge_pca = pca.transform(hoge)
pca_data = pd.DataFrame(hoge_pca)

Grafikausgabe

Vorbereitung der Grafikanzeige

import matplotlib as plt
%matplotlib inline         #Für die Grafikanzeige mit Jupiter

Versuchen Sie, es als Streudiagramm für jede Clusterbezeichnung auszugeben, da es geclustert wurde.

for i in an_data["result_clustering"].unique():
    tmp = pca_data.loc[pca_data["result_clustering"] == i]
    plt.scatter(tmp[0], tmp[1], label=i)
plt.legend()

Recommended Posts

Clustering und Hauptkomponentenanalyse nach der K-Means-Methode (Anfänger)
Dimensionskomprimierung durch Selbstcodierer- und Hauptkomponentenanalyse
[Grob] Clustering mit K-Mitteln
Hauptkomponentenanalyse (Hauptkomponentenanalyse: PCA)
[Python] Vergleich der Theorie und Implementierung der Hauptkomponentenanalyse durch Python (PCA, Kernel PCA, 2DPCA)
Hauptkomponentenanalyse (PCA) und unabhängige Komponentenanalyse (ICA) mit Python
Klassifizieren Sie Daten nach der k-means-Methode
Lernen ohne Lehrer 3 Hauptkomponentenanalyse
Visualisieren Sie die Korrelationsmatrix durch Hauptkomponentenanalyse mit Python
Gesichtserkennung mit Hauptkomponentenanalyse
Hauptkomponentenanalyse mit Spark ML
[GWAS] Zeichnen Sie die Ergebnisse der Hauptkomponentenanalyse (PCA) von PLINK auf
Erklärbare KI ~ Erklärbares k-Mittel- und k-Median-Clustering ~
Sprachverarbeitung 100 knock-85 (abgeschnittene SVD): Dimensionskomprimierung durch Hauptkomponentenanalyse
Hauptkomponentenanalyse mit Livedoor News Corpus --Practice--
Versuchen Sie die Clusteranalyse mit K-Mitteln
<Kurs> Maschinelles Lernen Kapitel 4: Hauptkomponentenanalyse
Einfache Regressionsanalyse nach der Methode der kleinsten Quadrate
Datenanalyse durch Clustering mit der k-means-Methode (Python) ([Informationen zur Informationsabteilung der High School II] Unterrichtsmaterialien für die Lehrerausbildung)
Anfänger Kmeans
Beginnen wir mit der multivariaten Analyse und der Hauptkomponentenanalyse mit Pokemon! Zusammenarbeit zwischen R und Tableau
Komprimieren Sie Vektoren mithilfe der Hauptkomponentenanalyse in zwei Dimensionen und visualisieren Sie sie mit matplotlib.
Extrahieren Sie die dominante Bildfarbe durch k-Mittel-Clustering
Ich habe versucht, die Hauptkomponenten mit Titanic-Daten zu analysieren!
PRML Kapitel 12 Bayesianische Hauptanalyse Python-Implementierung