[PYTHON] [Rabbit Challenge (E qualification)] Mathématiques appliquées

introduction

C'est un record d'apprentissage lorsque j'ai pris le Rabbit Challenge dans le but de réussir la qualification JDLA (Japan Deep Learning Association) E, qui se tiendra les 19 et 20 janvier 2021.

Rabbit Challenge est un cours qui utilise le matériel pédagogique édité à partir de la vidéo enregistrée du cours de fréquentation scolaire du «cours d'apprentissage en profondeur qui peut être écrasé sur le terrain». Il n'y a pas de support pour les questions, mais c'est un cours bon marché (le prix le plus bas en juin 2020) pour passer l'examen de qualification E.

Veuillez vérifier les détails à partir du lien ci-dessous.

Chapitre 1: Algèbre linéaire

--Scalaire —— Généralement, les nombres dits ordinaires

Matrice unitaire et matrice inverse

Une matrice telle que "1" dont le partenaire ne change pas même si elle est multipliée est appelée matrice unitaire. $ I = \begin{pmatrix} 1 & & \\\ & 1 & \\\ & & \ddots \\ \end{pmatrix} $ Une matrice qui agit comme un inverse est appelée une matrice inverse. $ AA^{-1} = A^{-1}A = I $

Caractéristiques de la formule matricielle

Quand vous pensez à une matrice comme une combinaison de deux vecteurs horizontaux $ \begin{pmatrix} a & b \\\ c & d \end{pmatrix} = \begin{pmatrix} \vec{v_1} \\\ \vec{v_2} \end{pmatrix} $ L'aire du quadrilatère parallèle créé par est déterminée comme ayant une matrice inverse. Cette zone est $ \ begin {vmatrix} a & b \
c & d \end{vmatrix} = \begin{vmatrix} \vec{v_1} \
\vec{v_2} Exprimé comme \ end {vmatrix} $ et appelé une expression matricielle. Lorsque $ \ vec {v_1} = (a, b, c), \ vec {v_2} = (a, b, c), \ vec {v_3} = (a, b, c) $ $ \begin{vmatrix} \vec{v_1} \\\ \vec{v_2} \\\ \vec{v_3} \end{vmatrix} = \begin{vmatrix} a & b & c \\\ d & e & f \\\ g & h & i \end{vmatrix} = \begin{vmatrix} a & b & c \\\ 0 & e & f \\\ 0 & h & i \end{vmatrix} + \begin{vmatrix} 0 & b & c \\\ d & e & f \\\ 0 & h & i \end{vmatrix} + \begin{vmatrix} 0 & b & c \\\ 0 & e & f \\\ g & h & i \end{vmatrix} = a \begin{vmatrix} e & f \\\ h & i \end{vmatrix} - d \begin{vmatrix} b & c \\\ h & i \end{vmatrix} + g \begin{vmatrix} b & c \\\ e & f \end{vmatrix} $

Une expression matricielle constituée de n vecteurs a les caractéristiques suivantes.

--Expression de matrice nulle si le même vecteur de ligne est inclus $ \begin{vmatrix} \vec{v_1} \\\ \vdots \\\ \vec{w} \\\ \vdots \\\ \vec{w} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} = 0 $ --Lorsqu'un vecteur est multiplié par $ \ lambda $, l'expression matricielle est multipliée par $ \ lambda $ $ \begin{vmatrix} \vec{v_1} \\\ \vdots \\\ \lambda\vec{v_i} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} = \lambda \begin{vmatrix} \vec{v_1} \\\ \vdots \\\ \vec{v_i} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} $ --Si tous les autres composants sont identiques mais que seul le vecteur $ i $ th est différent, les expressions matricielles sont additionnées. $ \begin{vmatrix} \vec{v_1}\\\ \vdots \\\ \vec{v_i} + \vec{w} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} = \begin{vmatrix} \vec{v_1} \\\ \vdots \\\ \vec{v_i} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} + \begin{vmatrix} \vec{v_1} \\\ \vdots \\\ \vec{w} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} $ --Le signe change lorsque vous échangez des lignes $ \begin{vmatrix} \vec{v_1} \\\ \vdots \\\ \vec{v_s} \\\ \vdots \\\ \vec{v_t} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} = - \begin{vmatrix} \vec{v_1} \\\ \vdots \\\ \vec{v_t} \\\ \vdots \\\ \vec{v_s} \\\ \vdots \\\ \vec{v_n} \end{vmatrix} $

Des valeurs uniques et des vecteurs uniques

Pour une matrice $ A $, il existe un vecteur spécial $ \ vec {x} $ et un coefficient de droite $ \ lambda $ pour lesquels l'équation suivante est vraie. $ A\vec{x} = \lambda\vec{x} $ Le produit de la matrice $ A $ et de son vecteur spécial $ \ vec {x} $ est le même que le produit du seul nombre de scalaires $ \ lambda $ et de son vecteur spécial $ \ vec {x} $. Ce vecteur spécial $ \ vec {x} $ et son coefficient $ \ lambda $ sont appelés vecteurs propres et valeurs propres pour la matrice $ A $.

Décomposition de valeur unique

Supposons qu'une matrice $ A $ créée en arrangeant des nombres réels dans un carré a des valeurs propres $ \ lambda_1, \ lambda_2,… $ et des vecteurs propres $ \ vec {v_1}, \ vec {v_2},… . Une matrice dans laquelle ces valeurs propres sont disposées en diagonale (les autres composants sont 0) $ A = \begin{pmatrix} \lambda_1 & & \
& \lambda_2 & \
& & \ddots \ \end{pmatrix} $ Et une matrice dans laquelle les vecteurs propres correspondants sont disposés $ V = (\vec{v_1} \quad \vec{v_2} \quad …) $ Quand ils ont préparé $ AV = VA $ Est associée à. Donc $ A = VAV^{-1} $$ Peut être transformé. La transformation d'une matrice carrée en le produit des trois matrices décrites ci-dessus est appelée décomposition des valeurs propres. Cette transformation présente des avantages tels que faciliter le calcul de la puissance de la matrice.

Décomposition de singularité

Autre que la matrice carrée, il est possible de ressembler à la décomposition des valeurs propres. $ M \vec{v} = \sigma\vec{u} $ $ M^\top \vec{u} = \sigma\vec{v} $ S'il existe un tel vecteur d'unité spécial, il peut être décomposé en valeurs singulières. $ MV = US \qquad M^\top U = VS^\top $ $ M = USV^{-1} \qquad M^\top = VS^\top U^{-1} $ Ces produits sont $ MM^\top = USV^{-1}VS^\top U^{-1} = USS^\top U^{-1} $ En d'autres termes, si $ MM ^ \ top $ est décomposé en valeurs propres, le vecteur singulier gauche et le carré de la valeur singulière peuvent être obtenus.

Chapitre 2: Probabilité / Statistiques

--Variable aléatoire $ x $: valeur réellement réalisée (valeur réalisée) $ \ Hspace {112pt} $… Une valeur entière de 1 à 6 si vous lancez un dé

Probabilite conditionnelle

P(Y=y|X=x) = \frac{P(Y=y,X=x)}{P(X=x)}

Étant donné un événement X = x, la probabilité que Y = y.

Probabilité simultanée d'événements indépendants

P(X=x,Y=y) = P(X=x)P(Y=y)=P(Y=y,X=x)

Théorème de Bayes

P(x|y) = \frac{P(y|x)P(x)}{\sum_x P(y|x)P(x)}

Théorème additif (loi de toutes les probabilités)P(y) = \sum_x P(x,y) = \sum_x P(y|x)P(x)Probabilite conditionnelleP(x|y) = \frac{P(x,y)}{P(y)} = \frac{P(y|x)P(x)}{P(y)}Lorsqu'il est utilisé dans, il est obtenu.

Valeur attendue

Diverses distributions de probabilité

Confusing discrete Résumé de la distribution

Chapitre 3: Théorie de l'information

Quantité d'auto-information

I(x) = -\log{P(x)}

Même si des événements fréquents sont observés, ils ne fournissent pas beaucoup d'informations, alors que la quantité d'informations est plus importante pour les événements rares. Par conséquent, l'inverse de probabilité $ \ frac {1} {P (x)} $ est un candidat pour la définition de la quantité d'information. Cependant, la quantité d'informations obtenue en observant les deux phénomènes indépendants $ x et y $ n'est pas $ \ frac {1} {P (x) P (y)} $, mais la somme de la quantité d'informations que chacun possède. Puisqu'il s'agit d'une définition plus naturelle, prenez une logarithmique. Lorsque la base du logarithme est 2, l'unité est le bit. Lorsque la base du logarithme est le nombre Napier $ e $, l'unité est nat.

Entropie de Shannon (quantité moyenne d'informations)

H(x) = E\bigl(I(x)\bigl) = -E\Bigl(\log\bigl(P(x)\bigl)\Bigl) = -\sum_x P(x)\log\bigl(P(x)\bigl)

Valeur attendue de la quantité d'auto-information (quantité d'auto-information calculée en moyenne pour toutes les valeurs observées.

Divergence Kullback-Leibler

D_{KL}(P||Q) = E_x \Bigl[log\frac{P(x)}{Q(x)}\Bigl] = \sum_x P(x)\bigl(\log{P(x)}-\log{Q(x)}\bigl)

Un index qui montre combien d'informations sont différentes lorsque l'on regarde une nouvelle distribution de $ P $ à partir de la distribution de $ Q . Divergence généralement KLQAvec une fonction convexe vers le bas surP=QValeur minimale uniquement lorsqueD_{KL}(P||P)=0$devenir. C'est donc certainement comme la distance entre les distributions,PQuandQFut remplacéD_{KL}(Q||P)Est une valeur différente et est différente de la vraie distance mathématique.

Entropie croisée

H(P,Q) = -E_{X \sim P} \log{Q(x)} = -\sum_xP(x)\log{Q(x)}

Un indice indiquant la distance entre les deux distributions de probabilité en faisant la moyenne de la quantité d'auto-information sur Q avec la distribution de P.

L'entropie d'intersection des distributions de probabilité $ P (x) $ et $ Q (x) $ est la divergence KL de $ Q (x) $ vue à partir de l'entropie de $ P (x) $ et $ P (x) . C'est une combinaison. $ \begin{align} H(P,Q) &= -\sum_xP(x)\log{Q(x)} \
&= -\sum_xP(x)\log{\frac{P(x)Q(x)}{P(x)}} \
&= -\sum_xP(x)\bigl(\log{P(x)}+\log{Q(x)}-\log{P(x)}\bigl) \
&= -\sum_xP(x)\log{P(x)} + \sum_xP(x)\bigl(\log{P(x)}-\log{Q(x)}\bigl) \
&= H(P) + D_{KL}(P||Q) \
\end{align} $$

Recommended Posts

[Rabbit Challenge (E qualification)] Mathématiques appliquées
La qualification JDLA E mesure les mathématiques appliquées
[Rabbit Challenge (E qualification)] Apprentissage en profondeur (jour2)
[Rabbit Challenge (E qualification)] Apprentissage en profondeur (jour3)
[Rabbit Challenge (E qualification)] Deep learning (day4)
Défi de lapin d'apprentissage automatique
Bulletin de rapport de qualification E