[PYTHON] Deep Learning Specialization (Coursera) Selbststudienprotokoll (C2W1)

Einführung

Dies ist der Inhalt von Kurs 2, Woche 1 (C2W1) von Deep Learning Specialization.

(C2W1L01) Train / Dev / Test sets

Inhalt

(C2W1L02) Bias / Variance

Inhalt

――Hohe Vorspannung und hohe Varianz können in zwei Dimensionen dargestellt werden, jedoch nicht in hohen Dimensionen.

train set error dev set error
1% 11% high variance
15% 16% high bias
15% 30% high bias & high variance
0.5% 1% low bias & low variance

--Wenn der Fehler (optimaler Fehler oder Bayes-Fehler) bei der Beurteilung durch eine Person auf 0 gesetzt wird

(C2W1L03) Basic "recipe" for machine learning

Inhalt

(C2W1L04) Regularization

Inhalt

J\left(w, b\right) = \frac{1}{m} \sum^{m}_{i=1}L\left(\hat{y}^{(i)}, y^{(i)}\right) + \frac{\lambda}{2m}\|w\|^2_2
J\left(w^{[1]}, b^{[1]}, \cdots , w^{[L]}, b^{[l]}\right) = \frac{1}{m} \sum^{m}_{i=1} L\left(\hat{y}^{(i)}, y^{(i)}\right) + \frac{\lambda}{2m} \sum^{L}_{l=1} \|w^{[l]}\|^2\\
\|w^{[l]}\|^2 = \sum^{n^{[l-1]}}_{i=1}\sum^{n^{[l]}}_{j=1}\left(w_{ij}^{[l]}\right)^2

-Die Dimension von $ w $ ist $ (n ^ {[l-1]}, n ^ {[l]}) $

dw^{[l]} = \left( \textrm{from backprop} \right) + \frac{\lambda}{m}w^{[l]} \\
w^{[l]} = w^{[l]} - \alpha dw^{[l]} = \left(1 - \alpha \frac{\lambda}{m} \right)w^{[l]} - \alpha \left( \textrm{from backprop} \right)

(C2W1L05) Why Regularization Reduces Overfitting

Inhalt

-Wenn $ \ lambda $ groß ist, wird es zu $ w ^ {[l]} \ sim 0 $. Dann kann der Einfluss der verborgenen Einheit verringert werden, und es wird angenommen, dass das Netzwerk einfach geworden ist. Kommen Sie also der hohen Tendenz näher -Wenn $ \ lambda $ groß ist, kommt es der logistischen Regression nahe. -Wenn $ g (z) = \ tanh (z) $ ist und $ z $ klein ist, wird der lineare Bereich von $ g (z) $ verwendet.

(C2W1L06) Dropout Regularization

Inhalt

d3 = \mathrm{np.random.rand(} a3 \mathrm{.shape[0], }\, a3 \mathrm{.shape[1])} < \mathrm{keep\_prob} \\
a3 = \mathrm{np.multiply(} a3, d3 \mathrm{)} \\
a3\  /= \mathrm{keep\_prob} \\
a^{[4]} = W^{[4]} a^{[3]} + b^{[4]}

(C2W1L07) Understanding dropout

Inhalt

(C2W1L08) Other Regularization Methods

Inhalt

(C2W1L09) Normalizing inputs

Inhalt

--Normalisieren Sie die Eingabefunktion, wenn sich die Skalierung der Eingabefunktion erheblich unterscheidet. Auf diese Weise kann die Methode mit dem steilsten Abstieg schnell berechnet werden.

\mu = \frac{1}{m} \sum^{m}_{i=1} x^{(i)} \\
x := x - \mu \\
\sigma^2 = \frac{2}{m} \sum^{m}_{i=1} x^{(i)} \ast\ast 2 \\
x \ /= \sigma^2

--Verwenden Sie beim Normalisieren des Entwicklungssatzes $ \ mu $ und $ \ sigma $ des Zugsatzes

(C2W1L10) Vanishing / exploding gradients

Inhalt

(C2W1L11) Weight initialization for deep networks

Inhalt

W^{[l]} = \mathrm{np.random.randn} \left( \cdots \right) \ast \mathrm{np.sqrt} \left( \frac{2}{n^{[l-1]}} \right)

(C2W1L12) Numerial Approximation of Gradients

Inhalt

(C2W1L13) Gradient checking

Inhalt

d\theta_{approx}^{[i]} = \frac{J(\theta_1, \cdots, \theta_i+\epsilon, \cdots) - J(\theta_1, \cdots, \theta_i-\epsilon, \cdots)}{2\epsilon} \sim d\theta^{[i]}

--check ($ \ epsilon = 10 ^ {-7} $)

\frac{\|d\theta_{approx} - d\theta\|_2}{\|d\theta_{approx}\|_2 + \|d\theta\|_2}
value judgement
10^{-7} great!
10^{-5} Es kann in Ordnung sein, aber überprüfen Sie
10^{-3} Möglicher Fehler

--Wenn es wie ein Fehler aussieht, überprüfen Sie, wo der Unterschied zwischen $ d \ theta_ {approx} $ und $ d \ theta $ für ein bestimmtes $ i $ groß ist.

(C2W1L14) Gradient Checking Implementation Notes

Inhalt

Referenz

Recommended Posts

Deep Learning Specialization (Coursera) Selbststudienprotokoll (C3W1)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C1W3)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C4W3)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C1W4)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C2W1)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C1W2)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C3W2)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C2W2)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C4W1)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C2W3)
Deep Learning Specialization (Coursera) Selbststudienprotokoll (C4W2)
Lernaufzeichnung
Lernrekord Nr. 3
Lernrekord Nr. 1
Lernrekord Nr. 2
Tiefes Lernen
Lernbericht über das Lesen von "Deep Learning von Grund auf neu"
"Deep Learning from Grund" Memo zum Selbststudium (Teil 12) Deep Learning
Selbststudien-Memo "Deep Learning from Grund" (unlesbares Glossar)
"Deep Learning from Grund" Memo zum Selbststudium (Nr. 9) MultiLayerNet-Klasse
Deep Learning Memorandum
Starten Sie Deep Learning
Python Deep Learning
Deep Learning × Python
"Deep Learning from Grund" Memo zum Selbststudium (10) MultiLayerNet-Klasse
"Deep Learning from Grund" Memo zum Selbststudium (Nr. 11) CNN
"Deep Learning from Grund" Memo zum Selbststudium (Nr. 19) Datenerweiterung
Bisherige Lernbilanz
Erstes tiefes Lernen ~ Kampf ~
Python: Deep Learning-Praxis
Deep Learning / Aktivierungsfunktionen
Deep Learning von Grund auf neu
Lernrekord 4 (8. Tag)
Lernrekord 9 (13. Tag)
Lernrekord 3 (7. Tag)
Deep Learning 1 Übung des Deep Learning
Deep Learning / Cross Entropy
Lernrekord 5 (9. Tag)
Lernrekord 6 (10. Tag)
Erstes tiefes Lernen ~ Vorbereitung ~
Programmieren des Lernprotokolls 2. Tag
Erstes tiefes Lernen ~ Lösung ~
Lernrekord 8 (12. Tag)
[AI] Deep Metric Learning
Lernrekord 1 (4. Tag)
Lernrekord 7 (11. Tag)
Ich habe versucht, tief zu lernen
Python: Deep Learning Tuning
Lernrekord 2 (6. Tag)
Deep Learning Großtechnologie
Linux-Lernprotokoll ① Planen
Lernrekord 16 (20. Tag)
Lernrekord 22 (26. Tag)
Deep Learning / Softmax-Funktion
Selbststudien-Memo "Deep Learning from Grund" (Nr. 18) Eins! Miau! Grad-CAM!
Selbststudien-Memo "Deep Learning from Grund" (Nr. 15) TensorFlow-Anfänger-Tutorial