Aidemy　2020/10/29

Einführung

Hallo, es ist ja! Ich bin eine knusprige Literaturschule, aber ich war an den Möglichkeiten der KI interessiert, also ging ich zur AI-spezialisierten Schule "Aidemy", um zu studieren. Ich möchte das hier gewonnene Wissen mit Ihnen teilen und habe es in Qiita zusammengefasst. Ich freue mich sehr, dass viele Menschen den vorherigen zusammenfassenden Artikel gelesen haben. Vielen Dank! Dies ist der zweite Beitrag des unbeaufsichtigten Lernens. Freut mich, dich kennenzulernen.

Dieser Artikel ist eine Zusammenfassung dessen, was Sie in "Aidemy" "in Ihren eigenen Worten" gelernt haben. Es kann Fehler und Missverständnisse enthalten. Bitte beachten Sie.

Was diesmal zu lernen ・ Arten von Clustering ・ K-Mittel-Methode ・ DBSCAN-Methode

Clustering

Hierarchisches Clustering

-__ Hierarchisches Clustering __ ist eine Methode zum Clustering __ ähnlichster (engster) Daten unter Daten __. ・ Wenn zum Beispiel Daten von a = 1, b = 2, c = 10, d = 15, e = 100 vorliegen 「(a,b),c,d,e」=>「(a,b),(c,d),e」=>「((a,b),(c,d)),e」=>「(((a,b),(c,d)),e)」 Es wird wie folgt geclustert, und wenn alle Daten endgültig erfasst sind, endet es.

Zu diesem Zeitpunkt wird für jede Gruppe eine Hierarchie gebildet, die als hierarchisches Clustering bezeichnet wird.

Nicht hierarchisches Clustering

-Nicht hierarchisches Clustering ist wie hierarchisches Clustering eine Methode zum Clustering der ähnlichsten (nahen) Daten, erstellt jedoch keine hierarchische Struktur.

Bei nicht hierarchischen Clustern entscheidet eine Person, wie viele Cluster erstellt werden sollen, und Cluster werden entsprechend generiert. -Nicht hierarchisches Clustering erfordert weniger Berechnung als hierarchisches Clustering, daher ist es effektiv, wenn die Datenmenge groß ist.

Struktur der für das Clustering verwendeten Daten

Mit __make_blobs () __ können Sie Daten generieren, indem Sie die Anzahl der Cluster angeben.
Von den Variablen ist X der __ Datenpunkt (x, y) __ und Y die __ Clusterbezeichnung __. ・ Über jedes Argument n_samples: Gesamtzahl der Daten n_features: Features (Anzahl der Dimensionen) centers: Anzahl der Cluster cluster_std: Standardabweichung innerhalb des Clusters shuffle: Gibt an, ob die Daten zufällig sortiert werden sollen random_state: Starteinstellung

スクリーンショット 2020-10-28 23.10.58.png

k-bedeutet Methode

-Die __k-means-Methode __ ist eine nicht hierarchische Clustering-Methode. Die Methode des Clustering besteht darin, sich in Cluster mit derselben __ Verteilung __ zu teilen. ・ Verwenden Sie für die Division einen Index namens SSE. SSE ist die Summe der Quadrate (= Dispersion) der Differenz zwischen dem Schwerpunkt (Schwerpunkt) und den Datenpunkten für jeden Cluster. (Details werden später beschrieben) -Lernen Sie dann __centroid __ und wählen Sie es aus, um diese Streuung (SSE) zu minimieren.

・ Der spezifische Ablauf der k_means-Methode ist wie folgt. (1) Extrahieren Sie k Daten aus den Daten und verwenden Sie sie als anfänglichen Schwerpunkt. (2) Ordnen Sie alle Datenpunkte dem nächsten Schwerpunkt zu. (3) Berechnen Sie den Schwerpunkt der in jedem Schwerpunkt gesammelten Datengruppe und legen Sie den Schwerpunkt als neuen Schwerpunkt fest. ④ Berechnen Sie den Abstand zwischen dem ursprünglichen Schwerpunkt und dem neuen Schwerpunkt und wiederholen Sie ② und ③, bis sie näher kommen. ⑤ Beenden Sie, wenn der Abstand groß genug ist.

Ausführung der k-means-Methode

Verwenden Sie __KMeans () __, um die k-means-Methode auszuführen. Argumente siehe unten. n_clusters: Anzahl der Cluster (Übereinstimmung mit "Zentren" in make_blob) init: So legen Sie den Anfangsschwerpunkt fest (zufällig mit "zufällig" festgelegt) n_init: Wie oft ① oben zu tun max_iter: Maximale Anzahl von Wiederholungen von ② und ③ oben tol: Toleranz gegenüber "konvergiert" random_state: Anfänglicher Startwert

·Code スクリーンショット 2020-10-28 23.11.23.png

・ Ergebnis![Screenshot 2020-10-28 23.12.28.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/92537145-7ac3-9375- 7d4a-8e44988d9624.png)

Über SSE

・ SSE erklärte, dass es sich um die Summe der Quadrate (= Varianz) der Differenz zwischen dem Schwerpunkt (Schwerpunkt) und den Datenpunkten für jeden Cluster handelt. Dieser Index kann jedoch auch zur Bewertung der Clusterleistung verwendet werden. es kann.

Da aus SSE ersichtlich ist, "wie stark der Schwerpunkt von den einzelnen Daten abweicht", kann gesagt werden, dass der Cluster umso besser organisiert ist, je kleiner der Wert ist.

・ Anzeigen des SSE-Werts print("Distortion: %2f"% km.inertia)_ Es sollte getan werden. (Km ist die im vorherigen Abschnitt erstellte KMeans-Instanz.)

Ellbogenmethode

-In der k-means-Methode ist es erforderlich, die Anzahl der Cluster selbst zu bestimmen. Es gibt jedoch eine Methode, die als Referenz für die Bestimmung der Anzahl der Cluster verwendet werden kann. Dies wird als __elbow-Methode __ bezeichnet. -Die Ellbogenmethode ist eine schematische Darstellung von __ "SSE-Wert, wenn die Anzahl der Cluster erhöht wird" __.

In dieser Abbildung gibt es einen Punkt, an dem sich der SSE-Wert biegt, und dieser Punkt wird als die optimale Anzahl von Clustern für die Berechnung angesehen. Diese Biegung ist wie ein Ellbogen, daher wird sie als Ellbogenmethode bezeichnet.

・ Code![Screenshot 2020-10-28 23.15.18.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/7f5b536a-4646-4047- 72ee-50e1e3dad0bb.png)

・ Ergebnis![Screenshot 2020-10-28 23.15.38.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/698700/c71006b5-f6c7-86dd- 1af1-2fce518018a7.png)

Andere nicht hierarchische Cluster

DBSCAN

Wir haben die k-means-Methode als Beispiel für nicht hierarchisches Clustering gesehen, aber das Merkmal ist, dass die Cluster eine Form nahe einem Kreis haben, da sich die Daten um den Schwerpunkt jedes Clusters sammeln. Wenn daher keine Abweichung in der Größe und Form des __Clusters vorliegt, nimmt die Genauigkeit der Clusterbildung tendenziell zu __, andernfalls ist die Clusterbildung nicht gut.

In solchen Fällen kann eine Methode namens DBSCAN verwendet werden. -DBSCAN ist eine Methode, die sich auf den Ort konzentriert, an dem __ Daten mehr als eine bestimmte Anzahl erfasst werden, und die Daten um sie herum von den anderen Daten __ trennt.

Insbesondere wird es mit zwei Indizes ausgeführt, __ "min_sample" __ und __ "eps" __. Das Verfahren ist wie folgt. (1) Wenn innerhalb des Datenradius "eps" mehr als "min_sample" -Daten vorhanden sind, wird dieser Punkt als core point angesehen. (2) Vom Kernpunkt aus werden die Daten innerhalb des Radius "eps" als "Grenzpunkt" betrachtet. (3) Punkte, die weder Kernpunkte noch Grenzpunkte sind, gelten als Rauschpunkte. ④ Betrachten Sie die Sammlung von Kernpunkten als Cluster, integrieren Sie die Bootspunkte in den nächsten Cluster und beenden Sie den Vorgang.
Auf diese Weise klassifiziert DBSCAN Daten in drei Typen, sodass auch voreingenommene Daten gut geclustert werden können.

-Um DBSCAN auszuführen, verwenden Sie __DBSCAN () __. (Das folgende __metric = "euclidean" __ erklärt, den euklidischen Abstand zu verwenden.)

スクリーンショット 2020-10-28 23.17.16.png

Zusammenfassung

-Es gibt zwei Arten von Clustering: hierarchisches Clustering und nicht hierarchisches Clustering. Aufgrund des Algorithmus erfordert nicht hierarchisches Clustering die manuelle Einstellung der Anzahl der Cluster. -Eine der nicht hierarchischen Clustering ist die k-means-Methode . Bei der k-means-Methode werden Cluster durch Wiederholen der Einstellung des Schwerpunkts erzeugt. - SSE kann als Leistungsindex für die k-means-Methode verwendet werden. Man kann sagen, je kleiner der Wert, desto besser das Clustering. -Die optimale Anzahl von Clustern kann mit der __elbow-Methode __ berechnet werden, die die Beziehung zwischen der Anzahl von Clustern und SSE darstellt. -Eine andere Methode für nicht hierarchisches Clustering ist DBSCAN. Da DBSCAN einen Cluster unter Bezugnahme auf die Anzahl der Daten in einem bestimmten Bereich erstellt, ist das Clustering auch bei voreingenommenen Daten problemlos möglich.

Diese Zeit ist vorbei. Vielen Dank für das Lesen bis zum Ende.

[PYTHON] Unbeaufsichtigtes Lernen 2 nicht hierarchisches Clustering