Il y a une limite à ce que vous pouvez faire à partir de zéro. Il y a aussi l'expression "se tenir sur les épaules d'un géant", mais je voudrais utiliser des articles qui peuvent servir de référence comme la sagesse de nos prédécesseurs pour améliorer notre niveau.
Il existe différentes méthodes d'apprentissage automatique et il est utile de les organiser comme suit.
Classification
La précision n'est pas élevée, mais la visualisation par l'arbre est très explicative.
Regression
Modèle de régression pour la régularisation L1
SVR
Clustering
Une méthode qui montre visuellement combien de clusters il est approprié de diviser en dessinant un dendrogramme (diagramme en arbre) qui montre la proximité des objets. Cependant, le nombre d'objets est limité à plusieurs centaines car il se situe dans la plage pouvant être représentée par un dendrogramme. Au-delà, la lecture est difficile.
Dans le monde du Data Mining et du Big Data, la quantité de données a considérablement augmenté et est devenue moins populaire.
La technique de clustering non hiérarchique la plus connue. Si vous divisez le nombre de clusters en K, la façon de les diviser déterminera automatiquement l'optimisation en fonction des informations d'entrée.
La principale caractéristique et faiblesse de cette méthode est qu'il est nécessaire de déterminer à l'avance le nombre de clusters (K). Pour éviter cela, des méthodes telles que K-means ++ et X-means qui dérivent automatiquement le nombre optimal de clusters ont également été développées.
Il est également utilisé pour regrouper les clients en fonction de leur tendance d'achat, mais il est souvent extrêmement divisé, comme un cluster avec des dizaines de milliers de personnes et un cluster avec seulement quelques personnes à la fois, pour éviter cela. Je ne l'utilise pas beaucoup personnellement car il est difficile d'ajuster les paramètres.
Un modèle qui exprime la similitude des informations d'entrée données par un type de réseau neuronal par la distance sur la carte.
Puisqu'elle est exprimée sur la carte (bidimensionnelle), lors de la détermination du nombre de grappes, il est nécessaire de penser à la multiplication verticale et horizontale telle qu'une carte 3x3. (Par conséquent, le nombre de groupes 5 ou 7 n'est que de 1x5, 1x7, ce qui est quelque peu désagréable.)
Personnellement, en ce qui concerne le clustering de clients, je l'aime tellement que je devrais utiliser cette méthode. Comparé à d'autres méthodes telles que K-means, il est moins susceptible d'être divisé en extrêmes et tend à être vertical et horizontal, de sorte que l'interprétation des résultats est facile à comprendre pour quiconque.
Puisqu'il s'agit d'un modèle conçu par le Dr T. Kohonen, il est souvent appelé Kohonen au lieu d'une carte auto-organisée (SOM).
Utilisé à l'origine comme méthode d'analyse statistique de la signification latente dans le traitement du langage naturel pour estimer la "probabilité d'apparition d'un mot" dans une phrase, il s'agit d'une sorte de modèle de probabilité numérique et estime la "probabilité d'apparition". Un réseau qui n'est pas 1: 1 lorsqu'il est utilisé dans les données (par exemple: un client n'appartient pas à un cluster, mais à plusieurs clusters.60% de chances d'appartenir au cluster A, 30% pour B ... ・ Il est également utilisé pour (la probabilité d'appartenance est divisée).
Bien qu'il existe différentes méthodes pour les modèles de sujets, LDA (Latent Dirichlet Allocation) est souvent utilisé.
Étant donné que le modèle a des probabilités d'affiliation différentes, il va bien avec l'idée de l'ADN du produit (je pense personnellement).
Recommended Posts