[PYTHON] [Algorithme AI] À propos de la réduction de dimension (t-SNE)

Cette fois, j'écrirai un article sur l'apprentissage non supervisé du machine learning, l'algorithme de "réduction de dimension (t-SNE)". Il existe plusieurs algorithmes bien connus pour la réduction de dimension, mais j'aimerais ici parler de t-SNE, une méthode adaptée aux données multidimensionnelles.

La réduction de dimension est une transformation qui réduit les variables explicatives des données d'entrée, de sorte que les caractéristiques des données d'origine puissent être expliquées avec un petit nombre de variables tout en préservant les informations des données d'entrée d'origine.

Par exemple, supposons que lorsque vous voulez prédire l'âge de M. A (variable objective y), seuls la taille (variable explicative x1) et le poids (variable explicative x2) sont donnés comme informations de M. A. À mesure que les adultes deviennent plus grands et plus lourds que les enfants, il semble y avoir une certaine corrélation avec l'âge. Si vous essayez de réduire les dimensions des deux variables de taille et de poids à ce moment, envisagez de créer une variable tout en conservant dans une certaine mesure les informations de ces deux variables. Ensuite, il semble qu'une variable appelée «physique» puisse être créée à partir de la relation entre la taille et le poids. Et il semble qu'il soit possible de prédire l'âge à l'aide de la variable du physique. La combinaison de plusieurs variables en une seule de cette manière est appelée réduction de dimension.

Il est courant de réduire les données multivariées, qui comportent généralement des dizaines et des centaines de variables, à deux ou trois variables.

Ensuite, il y a deux raisons principales pour lesquelles nous prenons la peine de réduire les dimensions. La première consiste à visualiser des données multidimensionnelles. La visualisation permet aux humains de saisir plus facilement même les données qui ne sont pas faciles à comprendre. Plus il est facile de saisir les tendances des données, plus il sera facile de les expliquer dans l'AED et l'évaluation des résultats d'analyse. Le second est d'empêcher la "malédiction de la dimension". En gros, une malédiction dimensionnelle est que si les données ont trop de variables (le nombre de dimensions est grand), les performances de divers algorithmes d'apprentissage automatique se détérioreront. Je ne suis pas très familier avec la malédiction des dimensions, mais en supposant que les informations que contiennent toutes les données ne changent pas, il semble que les performances de l'algorithme aient tendance à s'améliorer s'il y a peu de variables et que la quantité d'informations par variable est grande plutôt que de nombreuses variables. ..

Maintenant, pensons à l'algorithme t-SNE. Une fois encore, t-SNE est facile à utiliser parmi plusieurs méthodes de réduction de dimension telles que l'ACP. La caractéristique de t-SNE est que les données distribuées dans l'espace multidimensionnel (un espace où la distance entre deux points peut être exprimée même dans un espace partiellement multidimensionnel) peuvent être compressées et visualisées dimensionnellement. À propos, l'ACP est bonne pour réduire la dimension des données linéaires dans leur ensemble, mais t-SNE est bonne pour réduire les données non linéaires localement (entre deux points). En d'autres termes, t-SNE se réduit à 2 à 3 dimensions en se concentrant sur la distance entre les données tout en quittant le plus possible la structure multidimensionnelle.

Puisque la base de t-SNE est un algorithme appelé SNE, je vais d'abord l'expliquer à partir d'ici. SNE の数式です。 C'est la probabilité conditionnelle de j sous la condition i donnée. C'est la probabilité qui s'exprime jusqu'au dernier, mais elle exprime la proximité entre les données dans l'espace de grande dimension. Le contenu est exactement le même que la formule de la distribution gaussienne avec plusieurs variables. Je comprends que c'est comme une distribution normale qui est gérée en 3 dimensions ou plus, mais veuillez vous référer à un autre article pour plus de détails. L'important est que x soit un point de données dans l'ensemble de données non compressé X.