Es gibt eine Grenze für das, was Sie von Grund auf tun können. Es gibt auch den Ausdruck "auf den Schultern eines Riesen stehen", aber ich möchte Artikel verwenden, die als Referenz als Weisheit unserer Vorgänger verwendet werden können, um unser Niveau zu verbessern.
Es gibt verschiedene Methoden für maschinelles Lernen, und es ist hilfreich, sie wie folgt zu organisieren.
Classification
Die Genauigkeit ist nicht hoch, aber die Visualisierung durch den Baum ist sehr erklärend.
Regression
Regressionsmodell für die L1-Regularisierung
SVR
Clustering
Eine Methode, die visuell zeigt, wie viele Cluster geteilt werden müssen, indem ein Dendrogramm (Baumdiagramm) gezeichnet wird, das die Nähe von Objekten zeigt. Die Anzahl der Objekte ist jedoch auf mehrere Hundert begrenzt, da sie innerhalb des Bereichs liegt, der durch ein Dendrogramm dargestellt werden kann. Darüber hinaus ist das Lesen schwierig.
In der Welt von Data Mining und Big Data hat die Datenmenge enorm zugenommen und ist weniger beliebt geworden.
Die bekannteste nicht hierarchische Clustering-Technik. Wenn Sie die Anzahl der Cluster in K teilen, bestimmt die Aufteilung automatisch die Optimierung basierend auf den Eingabeinformationen.
Das größte Merkmal und die größte Schwäche dieser Methode besteht darin, dass die Anzahl der Cluster (K) im Voraus bestimmt werden muss. Um dies zu vermeiden, wurden auch Methoden wie K-means ++ und X-means entwickelt, die automatisch die optimale Anzahl von Clustern ableiten.
Es wird auch verwendet, wenn Kunden nach ihrer Kauftendenz geclustert werden. Es ist jedoch häufig sehr unterschiedlich, z. B. ein Cluster mit Zehntausenden von Personen und ein Cluster mit nur wenigen Personen gleichzeitig, um dies zu vermeiden. Ich persönlich benutze es nicht viel, weil es schwierig ist, die Parameter anzupassen.
Ein Modell, das die Ähnlichkeit der Eingabeinformationen eines neuronalen Netzwerks durch die Entfernung auf der Karte ausdrückt.
Da es auf der Karte (zweidimensional) ausgedrückt wird, muss bei der Bestimmung der Anzahl der Cluster über die vertikale und horizontale Multiplikation nachgedacht werden, z. B. über eine 3x3-Karte. (Daher beträgt die Anzahl der Cluster 5 oder 7 nur 1x5, 1x7, was etwas unangenehm ist.)
Ich persönlich liebe es so sehr, wenn es um Kundencluster geht, dass ich diese Methode verwenden sollte.
Da es sich um ein von Dr. T. Kohonen entwickeltes Modell handelt, wird es häufig als Kohonen anstelle einer selbstorganisierenden Karte (SOM) bezeichnet. - NumPy-Version der selbstorganisierenden Karte in Python-Generative Topographic Mapping (GTM) - Aufwärtskompatible Methode der selbstorganisierenden Karte (SOM) - Themenmodell Ursprünglich als Methode zur statistischen Analyse latenter Bedeutungen in der Verarbeitung natürlicher Sprache verwendet, um die "Wahrscheinlichkeit des Auftretens von Wörtern" in Sätzen, einem numerischen Wahrscheinlichkeitsmodell, abzuschätzen Schätzt die "Wahrscheinlichkeit des Auftretens". Netzwerk, das bei Verwendung in Daten nicht 1: 1 ist (z. B. ein Kunde gehört nicht zu einem Cluster, sondern zu mehreren Clustern. 60% Wahrscheinlichkeit, zu Cluster A zu gehören, 30% für B ...・ Es wird auch verwendet für (die Wahrscheinlichkeit der Zugehörigkeit wird geteilt). Obwohl es verschiedene Methoden für Themenmodelle gibt, wird häufig LDA (Latent Dirichlet Allocation) verwendet.
Da das Modell unterschiedliche Zugehörigkeitswahrscheinlichkeiten hat, passt es gut zur Idee der Produkt-DNA (ich persönlich denke).
Recommended Posts