introduction

C'est le contenu du cours 1, semaine 3 (C1W3) de Spécialisation en apprentissage profond.

(C1W3L01) Newral Network Overview

Contenu

La semaine 3 explique la mise en œuvre du réseau de neurones --À propos de la première couche du réseau neuronal
$ W ^ {[1]} $, $ b ^ {[1]} $; Paramètres
- z^{[1]} = W^{[1]} x + b^{[1]}
- a^{[1]} = \sigma(z^{[1]}) --À propos de la deuxième couche du réseau neuronal
- z^{[2]} = W^{[2]} a^{[1]} + b^{[2]}
- a^{[2]} = \sigma(z^{[2]}) -Calculer $ L (a ^ {[2]}, y) $
propagation arrière
- da^{[2]} → dz^{[2]} → dW^{[2]}, db^{[2]} → …

(C1W3L02) Neural Network Representation

Contenu

--Explication d'une seule couche cachée (= réseau de neurones à 2 couches, lors du comptage des couches, la couche d'entrée n'est pas comptée, la couche cachée et la couche de sortie sont comptées)

input layer ; x = a^{[0]}
hidden layer
Les paramètres sont $ w ^ {[1]} $ ((4, 3) matrice) et $ b ^ {[1]} $ ((4, 1) matrice)
$ a ^ {[1]} $ correspond à 4 nœuds
output layer
Les paramètres sont $ w ^ {[2]} $ ((1, 4) matrice) et $ b ^ {[1]} $ ((1, 1) matrice)
- \hat{y} = a^{[2]}

(C1W3L03) Computing a Neural Network Output

Contenu

--Explication de la façon de calculer le réseau neuronal

$ a_i ^ {[l]} $; $ i $ ème nœud de $ l $ couche
Vectoriser et calculer

z^{[1]} = W^{[1]} x + b^{[1]} \\
a^{[1]} = \sigma(z^{[1]}) \\
z^{[2]} = W^{[2]} a^{[1]} + b^{[2]} \\
a^{[2]} = \sigma(z^{[2]}) \\

(C1W3L04) Vectorizing Across Multiple Examples

Contenu

--Comment calculer plusieurs exemples de formation

$ X = \ [x ^ {(1)} , x ^ {(2)} , \ cdots x ^ {(m)} ] $ ($ (n_x, m) $ matrice, $ m $ Est le nombre d'exemples de formation)

Z^{[1]} = W^{[1]} X + b^{[1]} \\
A^{[1]} = \sigma\left(Z^{[1]}\right) \\
Z^{[2]} = W^{[2]} Z^{[1]} + b^{[2]} \\
A^{[2]} = \sigma\left(Z^{[2]}\right)

$ Z ^ {[1]} $, $ A ^ {[1]} $ --Lignes; nombre d'unités cachées --Colonne; $ m $

Z^{[1]} = \left[ z^{[1](1)}\,z^{[1](2)}\,\cdotsz^{[1](m)} \right] \\
A^{[1]} = \left[ a^{[1](1)}\,a^{[1](2)}\,\cdotsa^{[1](m)} \right]

Impressions

Expliquant très lentement et poliment. C'est important, et si vous trébuchez, vous aurez de gros ennuis plus tard.

(C1W3L05) Explanation For Vectorized Implementation

Contenu

X = \left[x^{(1)} \, x^{(2)} \, \cdots x^{(m)}\right] \\
Z^{[1]} = \left[z^{[1](1)}\,z^{[1](2)}\,\cdotsz^{[1](m)}\right] \\
Z^{[1]} = W^{[1]} X + b^{[1]}

$ b ^ {[1]} $ devient une matrice en utilisant les diffusions Python

(C1W3L06) Activation functions

Contenu

--fonction sigmoïde - a = \frac{1}{1+e^{-z}}

Utilisé uniquement pour la classification binaire

fonction --tanh - a = \tanh z = \frac{e^z - e^{-z}}{e^z + e^{-z}}

Mieux que la fonction sigmoïde. Parce que la valeur moyenne sera zéro. --Cependant, l'inconvénient commun de la fonction sigmoïde et de la fonction tanh est que la pente s'approche de 0 où $ z $ est grand, ce qui ralentit la convergence de la méthode de descente la plus raide.
Fonction ReLU
- a = \max$0, z$ -Bien que le différentiel ne puisse pas être défini par $ z = 0 $, il n'y a pas de problème car ce n'est pas exactement $ z = 0 $ au moment du calcul. --ReLU est utilisé par défaut dans le réseau neuronal (parfois tanh) -L'inconvénient est que la pente devient 0 à $ z \ lt 0 $
Leaky ReLU
- a = \max(0.01z, z) -Bien que $ z \ lt 0 $ ait une légère inclinaison --0.01 peut être considéré comme l'un des paramètres d'apprentissage, mais peu de personnes l'implémentent.
La fonction d'activation peut changer en fonction de la couche (la couche cachée est tanh, la couche de sortie est sigmoïde, etc.)
Il existe de nombreux choix pour le réseau neuronal (type de fonction d'activation, méthode d'initialisation des paramètres, etc.), mais il est difficile de fournir des directives.

(C1W3L07) Why do you need non-linear activation function

Contenu

――Pourquoi utiliser une fonction non linéaire pour la fonction d'activation? → Si vous en faites une fonction linéaire, même si vous augmentez le calque caché, ce ne sera finalement qu'une fonction linéaire, donc c'est inutile.

(C1W3L08) Derivatives of activation functions

Contenu

sigmoid activation function

g(z) = \frac{1}{1+e^{-z}} \\
g^\prime(z) = g(z) \left( 1-g(z) \right)

Tanh activation function

g(z) = \tanh (z) \\
g^\prime(z) = 1-\left( \tanh(z) \right)^2

ReLU

g(z) = \max\left(0, z\right) \\
g^\prime(z) = 0 \ (\text{if}\  z \lt 0) \\
g^\prime(z) = 1 \ (\text{if}\  z \ge 0)

Leaky ReLU

g(z) = \max\left(0.01z, z\right) \\
g^\prime(z) = 0.01 \ (\textrm{if}\  z \lt 0) \\
g^\prime(z) = 1 \ (\textrm{if}\  z \ge 0)

La différenciation de $ z = 0 $ dans ReLU et Leaky ReLU peut être 0, 1 ou indéfinie (car il est peu probable que $ z = 0 $ soit exactement pendant le calcul).

(C1W3L09) Gradient descent for neural network

Contenu

$ n ^ {[0]} = n_x, n ^ {[1]}, n ^ {[2]} (= 1) $
Les paramètres sont $ W ^ {[1]} $ ($ (n ^ {[1]}, n ^ {[0]}) $ matrice), $ b ^ {[1]} $ ($ (n ^ {) [1]}, 1) $ Matrix), $ W ^ {[2]} $ ($ (n ^ {[2]}, n ^ {[1]}) $ Matrix), $ b ^ {[2] } $ ($ (n ^ {[2]}, 1) $ matrice)
cost function ; J(W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}) = \frac{1}{m}\Sigma_{i=1}^{m}L(\hat{y}, y) --Propagation de mot (la couche de sortie est la classification binaire → fonction sigmoïde)

Z^{[1]} = W^{[1]} X + b^{[1]} \\
A^{[1]} = g^{[1]}\left( Z^{[1]} \right) \\
Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]} \\
A^{[2]} = g^{[2]}\left( Z^{[2]} \right) = \sigma \left( Z^{[2]} \right)

-backpropagation

dZ^{[2]} = A^{[2]} - Y \ \ \left( Y = \left[ y^{(1)} \, y^{(2)} \, \cdots y^{(m)} \right] \right) \\
dW^{[2]} = \frac{1}{m} dZ^{[2]} A^{[1]\textrm{T}}\\
db^{[2]} = \frac{1}{m} \textrm{np.sum} \left( dZ^{[2]} \textrm{, axis=1, keepdims=True} \right)\\

dZ^{[1]} = W^{[2]\textrm{T}}dZ^{[2]} \ast g^{[1]\prime} \left(Z^{[1]}\right) \\
dW^{[1]} = \frac{1}{m}dZ^{[1]} X^{\text{T}} \\
db^{[1]} = \frac{1}{m} \textrm{np.sum} \left( dZ^{[1]} \textrm{, axis=1, keepdims=True} \right)\\

--Si vous n'ajoutez pas keepdims = True``` à np.sum```, ce sera un vecteur $ (n ^ {[i]},) $. Avec keepdims = True```, il devient un vecteur $ (n ^ {[i]}, 1) $. --Si vous n'ajoutez pas keepdims = True```, faites remodeler```

$ \ ast $ dans l'expression $ dZ ^ {[1]} $ est le produit de chaque élément

Impressions

--Les pointes de `` np.sum '' sont entrelacées avec désinvolture (il est important d'être conscient de la dimension)

(C1W3L10) Backpropagation Intuition (optional)

Contenu

Explication intuitive de la mise en œuvre vectorisée de la rétropropagation de la régression logistique ―― "La partie mathématiquement la plus difficile du réseau neuronal"

(C1W3L11) Random Initialization

Contenu

En cas de régression logistique, il est possible d'initialiser le poids avec 0 --Dans un réseau de neurones, il est NG d'initialiser le poids W avec 0
En supposant que les éléments de $ W ^ {[1]} $ sont tous 0 et que les éléments de $ b ^ {[1]} $ sont tous 0, le même calcul doit être effectué quel que soit le nombre d'unités de calque masquées. devenir. Dans ce cas, il ne sert à rien d'avoir plusieurs unités, et ce sera la même chose que s'il n'y avait qu'une seule unité.
Méthode d'initialisation

W^{[1]} = \textrm{np.random.randn(2, 2)} \ast 0.01 \\
b^{[1]} = \textrm{np.zero((2, 1))}

$ b ^ {[1]} $ peut être égal à 0 car la symétrie est cassée si $ W ^ {[1]} $ est initialisé aléatoirement.
La valeur initiale de $ W $ doit être petite. Si $ W $ est grand, $ Z = Wx + b $ sera grand, mais si la valeur de sigmoïde et $ \ tanh $ est grande, la pente sera petite et la vitesse d'apprentissage de la méthode de descente la plus raide sera lente.
Pour les réseaux de neurones peu profonds tels qu'une couche cachée, 0,01 est OK. Pour les réseaux de neurones profonds, il peut s'agir d'une valeur autre que 0,01

référence

Dossier d'auto-apprentissage de la spécialisation en apprentissage profond (Coursera) (table des matières)

[PYTHON] Spécialisation en apprentissage profond (Coursera) Dossier d'auto-apprentissage (C1W3)

introduction

Contenu

Contenu

Contenu

Contenu

Impressions

Contenu

Contenu

Contenu

Contenu

Contenu

Impressions

Contenu

Contenu

référence