Einführung

Dies ist der Inhalt von Kurs 1, Woche 2 (C1W2) von Deep Learning Specialization.

(C1W2L01) Binary Classification

Inhalt

Erklärung der binären Klassifizierung im Fall der Beurteilung, ob es sich um eine Katze handelt oder nicht, anhand von Bilddaten
Erklärung der Notation (Bedeutung des Symbols)
$ X ; 1 Datenmerkmal in Zeilenrichtung ( n_x ), Trainingsbeispiel ( m $ Teile) in Spaltenrichtung ($ X \ in \ mathbb {R} ^ {n_x \ times m} $)
Y ; Y \in \mathbb{R}^{1\times m}

Impressionen

Die Bedeutung der Zeilen und Spalten von $ X $ hat sich im Vergleich zur Vorlesung über maschinelles Lernen geändert.

(C1W2L02) Logistic Regression

Inhalt

Vorausgesagter Wert $ \ hat {y} = P (y = 1 | x) $ (Wahrscheinlichkeit von $ y = 1 $)
Definieren Sie den Parameter $ w \ in \ mathbb {R} ^ {n_x} $, $ b \ in \ mathbb {R} $
$ \ hat {y} = \ sigma (w ^ T x + b) $; Sigmoidfunktion
\sigma(z) = \frac{1}{1+e^{-z}}

Impressionen

――Das Symbol ist sowohl hier als auch beim maschinellen Lernen unterschiedlich. Verwenden Sie nicht $ x_0 ^ {(i)} = 1 $. Fügen Sie den konstanten Term $ b $ nicht in $ w $ ein.

(C1W2L03) Logistic Regression Cost Function

Inhalt

cost function ; J(w, b) = -\frac{1}{m} \Sigma^m_{i=1}\[y^{(i)}\log\hat{y}^{(i)} + $1-y^{(i)}$\log$1-\hat{y}^{(i)}$ \]

(C1W2L04) Gradient Descent

Inhalt

Intuitive Erklärung des Gefälles
$ \ frac {\ partielle J (w, b)} {\ partielle w} $ wird in Programmen oft als "dw" geschrieben
$ \ frac {\ partielle J (w, b)} {\ partielle b} $ wird in Programmen oft als "db" geschrieben

(C1W2L05) Derivatives

Inhalt

Eine kurze Erklärung der Differenzierung

Impressionen

――Da es sich um grundlegende Inhalte handelt, können Sie das Video 1,75 Mal ansehen.

(C1W2L06) More Derivatives Example

Inhalt

Eine kurze Erklärung der Differenzierung

Impressionen

――Da es sich um grundlegende Inhalte handelt, können Sie das Video 1,75 Mal ansehen.

(C1W2L07) Computation Graph

Inhalt

-Wenn $ J (a, b, c) = 3 \ (a + bc ) $, zerlegen Sie als $ u = bc $, $ v = a + u $, $ J = 3v $ Illustrieren Sie, wie man berechnet

(C1W2L08) Derivatives With Computation Graph

Inhalt

Erklärung der Differenzierung ($ \ frac {dJ} {da} = \ frac {dJ} {dv} \ frac {dv} {da} $) bei Verwendung von Computational Graph

(C1W2L09) Logistic Regression Gradient Descent

Inhalt

Erklärung der Differenz des Verlustes $ L \ (a, y ) $ der logistischen Regression

(C1W2L10) Gradient Descent on m Example

Inhalt

Erläuterung, wie die Kostenfunktion $ J \ (w, b ) $ unterschieden und auf die Methode mit dem steilsten Abstieg angewendet werden kann, wenn die Anzahl der Stichproben $ m $ beträgt
Wie in der for-Schleife erläutert, ist die Vektorisierung wichtig, da die for-Schleife ineffizient ist.

(C1W2L11) Vectorization

Inhalt

-Erläuterung des Konzepts der Vektorisierung am Beispiel von $ w ^ T x $ von $ z = w ^ T x + b $

Demonstrierte die Berechnungszeit für die Schleifen- und Vektorberechnung (z = np.dot (w, x) + b) auf dem Jupyter-Notebook. 300 mal anders
SIMD ; Single Instruction Multiple Data
Python Numpy parallelisiert Berechnungen

Ich habe auch die Zeit mit der Schleifen- und Vektorberechnung verglichen.

`vectorization.py`


import numpy as np
import time

a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)
toc = time.time()

print(c)
print("Vectorization version:" + str(1000*(toc-tic)) + "ms")

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i]*b[i]
toc = time.time()

print(c)
print("for loop:" + str(1000*(toc-tic)) + "ms")

Das Ergebnis. Es gab einen Unterschied von weniger als 700 Mal, 12 ms für die Vektorisierung und 821 ms für die Schleife.

249840.57440415953
Vectorization version:12.021541595458984ms
249840.57440415237
for loop:821.0625648498535ms

(C1W2L12) More Vectorization Examples

Inhalt

Richtlinie zur Programmierung eines neuronalen Netzwerks; ** Vermeiden Sie nach Möglichkeit explizite for-Schleifen / Vermeiden Sie for-Schleifen so weit wie möglich **

`example.py`


import numpy as np

u = np.dot(A, v) #Produkt aus Matrix und Vektor

u = np.exp(v) #Lassen Sie exp auf jedes Element einwirken
u = np.log(v) #Machen Sie das Protokoll Element für Element
u = np.abs(v) #Abs für jedes Element(Absolutwert)Zu handeln
u = np.maximum(v, 0) #Elemente unter 0 sollten 0 sein
u = v ** 2 #Quadrat für jedes Element
u = 1/v #Invers für jedes Element

(C1W2L13) Vectorizing Logistics Regression

Inhalt

--Vektorisierung der Logistik-Regressionsberechnung

X = \left[x^{(1)} \ x^{(2)} \cdots \ x^{(m)}\right] \ (X \in \mathbb{R}^{n_x \times m}) \\
Z = \left[z^{(1)} \ z^{(2)} \cdots \ z^{(m)}\right] \ (Z \in \mathbb{R}^m ) \\
A = \left[a^{(1)} \ a^{(2)} \cdots \ a^{(m)}\right] \ (A \in \mathbb{R}^m ) \\
Z = w^T X + \left[b \ b \ \cdots b \right] \\
A = \mathrm{sigmoid}\left( Z \right) \ (\mathrm{sigmoid} \Implementieren Sie die Funktion ordnungsgemäß)

In Python wird `Z = np.dot (w.T, X) + b``` (` b``` wird automatisch in einen Spaltenvektor von [1, m] konvertiert)

(C1W2L14) Vectorizing Logistics Regression's Gradient Computation

Inhalt

Erklärung der Vektorisierung der Differentialberechnung der logistischen Regression

db = \frac{1}{m} \cdot \mathrm{np.sum}(Z) \\
dw = \frac{1}{m} \cdot X\ dZ^T

Impressionen

Eine Mischung aus gewöhnlichen mathematischen Ausdrücken und Python-Code. Sie können es verstehen, während Sie der Klasse zuhören, aber es kann schwierig sein, es zu verstehen, wenn Sie später darauf zurückblicken.

(C1W2L15) Broadcasting in Python

Inhalt

Erklärung der Python-Übertragung
Wenn die (m, n) Matrix und die (1, n) Matrix hinzugefügt werden, wird die (1, n) Matrix automatisch zur (m, n) Matrix.
Wenn Sie die (m, n) -Matrix und die (m, 1) -Matrix hinzufügen, wird die (m, 1) -Matrix automatisch zur (m, n) -Matrix.
Einzelheiten finden Sie in der NumPy-Broadcast-Dokumentation
Die bsxfun-Funktion von Matlab / Octave ist etwas anders (?)

`example.py`


>>> import numpy as np
>>> a = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
>>> b = np.array([100, 200, 300, 400])
>>> a + b
array([[101, 202, 303, 404],
       [105, 206, 307, 408]])

(C1W2L16) A Note on Python/numpy vectors

Inhalt

Die Flexibilität von Python / NumPy ist sowohl ein Vorteil als auch ein Nachteil
Auch wenn Sie den Zeilenvektor und den Spaltenvektor hinzufügen, tritt kein Fehler auf und es werden einige Berechnungsergebnisse erhalten, sodass es schwierig ist, den Fehler zu finden.
** Verwenden Sie keine Arrays der Größe `(n,)` (verwenden Sie keine Arrays mit Rang 1) **

`example.py`


>>> import numpy as np
>>> a = np.random.rand(5) #Rang 1 Array
>>> print(a)
[0.4721318  0.73582028 0.78261299 0.25030022 0.69326545]
>>> print(a.T)
[0.4721318  0.73582028 0.78261299 0.25030022 0.69326545] #Die Anzeige ändert sich auch dann nicht, wenn Sie die Position wechseln
>>> print(np.dot(a, a.T)) #Ich berechne das innere Produkt, bin mir aber nicht sicher, ob ich das innere Produkt oder das äußere Produkt berechnen soll.
1.9200902050946715
>>>
>>> a = np.random.rand(5, 1) # (5, 1)Matrix
>>> print(a) #Zeilenvektor
[[0.78323543]
 [0.18639053]
 [0.45103025]
 [0.48060903]
 [0.93265189]]
>>> print(a.T)
[[0.78323543 0.18639053 0.45103025 0.48060903 0.93265189]] #Spaltenvektor nach der Landung
>>> print(np.dot(a, a.T)) #Berechnen Sie das Produkt aus Zeilenvektor und Spaltenvektor korrekt
[[0.61345774 0.14598767 0.35326287 0.37643002 0.73048601]
 [0.14598767 0.03474143 0.08406777 0.08958097 0.17383748]
 [0.35326287 0.08406777 0.20342829 0.21676921 0.42065422]
 [0.37643002 0.08958097 0.21676921 0.23098504 0.44824092]
 [0.73048601 0.17383748 0.42065422 0.44824092 0.86983955]]

Wenn Sie die Dimension nicht kennen, geben Sie `assert (a.shape == (5, 1))` usw. ein.
Ein Array von Rang 1 wird explizit als `a = a.reshape ((5,1))` umgeformt

Impressionen

――Das ist hier wichtig, weil ich bei maschinellem Lernen oft den Überblick über die Größe der Matrix verloren habe.

(C1W2L17) Quick tour of Jupyter/ipython notebooks

Inhalt

Erklärung zur Verwendung des Jupyter / ipython-Notizbuchs bei Kursen bei Coursera

(C1W2L18) Explanation of Logistics Regression Cost Function (Optional)

Inhalt

(Neu-) Beschreibung der Kostenfunktion der logistischen Regression
\hat{y} = \sigma(w^T x + b) {y}when \sigma(z) = \frac{1}{1 + e^{-z}}
\hat{y} = P(y=1 | x) ; y=1Wahrscheinlichkeit alsoy=1Wennp(y|x) = \hat{y}，y=0Wennp(y|x) = 1 - \hat{y}
Um dies zusammenzufassen, können Sie auch $ p (y | x) = \ hat {y} ^ y (1- \ hat {y}) ^ {(1-y)} $ schreiben
Da die logarithmische Funktion auch eine zunehmende Funktion ist, ist es dasselbe, den Logarithmus der obigen Formel zu maximieren.
\log p(y|x) = y\log\hat{y} + (1-y)\log(1-\hat{y}) = -L(\hat{y}, y)
Geben Sie die Wahrscheinlichkeiten in mehreren Trainingssätzen an: $ \ Pi ^ {m} _ {i = 1} p (y ^ {(i)} | x ^ {(i)}) $
Geben Sie den Logarithmus dafür an: $ \ Sigma ^ {m} _ {i = 1} \ log p (y ^ {(i)} | x ^ {(i)}) = - \ Sigma L (\ hat { y} ^ {(i)}, y ^ {(i)}) $. Dies wird maximiert.
Die Kostenfunktion ist $ \ frac {1} {m} $ und wird minimiert. Nehmen Sie also das negative Vorzeichen und $ J (w, b) = \ frac {1} {m} \ Sigma ^ {m} _ {i = 1} L (\ hat {y} ^ {(i)}, y ^ {(i)}) $

Impressionen

Ehrlich gesagt verstehe ich nicht viel: -p
$ L (\ hat {y}, y) = --y \ log \ hat {y} - (1-y) \ log (1- \ hat {y}) Es ist für mich intuitiver, von $ aus zu sprechen Es war leicht zu verstehen

Referenz

Deep Learning Specialization (Coursera) Selbststudienprotokoll (Inhaltsverzeichnis)

[PYTHON] Deep Learning Specialization (Coursera) Selbststudienprotokoll (C1W2)

Einführung

Inhalt

Impressionen

Inhalt

Impressionen

Inhalt

Inhalt

Inhalt

Impressionen

Inhalt

Impressionen

Inhalt

Inhalt

Inhalt

Inhalt

Inhalt

vectorization.py

Inhalt

example.py

Inhalt

Inhalt

Impressionen

Inhalt

example.py

Inhalt

example.py

Impressionen

Inhalt

Inhalt

Impressionen

Referenz

`vectorization.py`

`example.py`

`example.py`

`example.py`