Comparaison de l'analyse probabiliste en composantes principales, de l'analyse bayésienne en composantes principales et de l'analyse des composantes principales du noyau, qui sont des extensions de l'analyse en composantes principales.
Comment réduire les données de grande dimension en données de faible dimension Il existe différentes manières de l'obtenir, mais il est rapide de l'interpréter comme une décomposition en valeurs singulières.
Autre vecteur de réduction de dimension
Peut être obtenu avec. Cependant, $ V_ {pca} $ est créé à partir du nombre de dimensions réduit à partir de la matrice V. (Si la dimension est réduite à 2 dimensions, $ V_ {pca} = V [:, [0,1]] $)
Réduction de dimension probabiliste en utilisant la distribution gaussienne Il existe plusieurs façons de le trouver, mais lorsque vous le trouvez avec l'algorithme EM, Dans E-step
M = W^TW+\sigma^2I \\
E[z_n] = M^{-1}W^T(x_n-\bar{x}) \\
E[z_{n}z_{n}^T]=\sigma^2M^{-1}+E[z_n]E[z_n]^T
cependant,
Dans M-step
W = \bigl[\sum_{n=1}^{N}(x_n-\bar{x})E[z_n]^T\bigr]\bigl[\sum_{n=1}^{N}E[z_nz_n^T]\bigr]^{-1}\\
\sigma^{2} = \frac{1}{ND}\sum_{n=1}^{N}\bigl\{||x_n-\bar{x}||^2 - 2E[z_n]^TW^T(x_n-\bar{x}) + Tr(E[z_nz_n^T]W^TW)\bigr\}
cependant,
Peut être obtenu avec.
L'estimation bayésienne est effectuée en introduisant des hyperparamètres dans la distribution gaussienne.
Par rapport au cas de l'ACP probabiliste, le pas M est différent,
\alpha_i = \frac{D}{w_i^Tw_i} \\
W = \bigl[\sum_{n=1}^{N}(x_n-\bar{x})E[z_n]^T\bigr]\bigl[\sum_{n=1}^{N}E[z_nz_n^T] + \sigma^2A \bigr]^{-1}\\
\sigma^{2} = \frac{1}{ND}\sum_{n=1}^{N}\bigl\{||x_n-\bar{x}||^2 - 2E[z_n]^TW^T(x_n-\bar{x}) + Tr(E[z_nz_n^T]W^TW)\bigr\}
cependant,
Est.
Après avoir converti le nombre de données x nombre de matrice de dimensions en nombre de données x nombre de matrice de données par le noyau, l'analyse en composantes principales est effectuée.
cependant,
Pour $ \ tilde {K} $ obtenu de cette manière, la réduction de dimension est effectuée en obtenant la valeur propre et le vecteur propre comme dans le cas de l'analyse en composantes principales.
La réduction de dimension est effectuée à l'aide de l'analyse en composantes principales (ACP), de l'analyse probabiliste en composantes principales (PPCA), de l'analyse bayésienne en composantes principales (BPCA) et de l'analyse des composantes principales du noyau (KPCA).
Les données utilisées sont des données d'iris (les données de 3 types de plantes sont représentées par des vecteurs à 4 dimensions, et il y a 50 données pour chaque type).
Codez ici https://github.com/kenchin110100/machine_learning
La figure ci-dessous est tracée après avoir réduit les dimensions à deux dimensions.
PCA
PPCA
BPCA
KPCA
Les limites entre les types sont clairement visibles dans PPCA et BPCA que dans PCA. KPCA se sent différent, mais il a certainement des graphiques pour chaque type.
Quatre types d'analyses des composants principaux ont été effectués, et il semble facile à utiliser par BPCA Il existe deux axes comme méthode d'élargissement de l'ACP: le calcul probabiliste ou l'utilisation du noyau. Il semble y avoir l'analyse en composantes principales la plus solide qui les combine ...