Einführung
Dies ist ein Lernrekord, als ich die Rabbit Challenge mit dem Ziel absolvierte, die Qualifikation der Japan Deep Learning Association (JDLA) E zu bestehen, die am 19. und 20. Januar 2021 stattfinden wird.
Rabbit Challenge ist ein Kurs, der die Unterrichtsmaterialien verwendet, die aus dem aufgezeichneten Video des Schulbesuchskurses "Deep Learning-Kurs, der vor Ort vernichtet werden kann" bearbeitet wurden.
Es gibt keine Unterstützung für Fragen, aber es ist ein billiger Kurs (der niedrigste Preis ab Juni 2020) für die E-Qualifikationsprüfung.
Bitte überprüfen Sie die Details über den unten stehenden Link.
Kapitel 1: Lineare Algebra
- Skalar
- Im Allgemeinen sogenannte gewöhnliche Zahlen
-
-
- × ÷ kann berechnet werden
- Kann ein Koeffizient für einen Vektor sein
- Vektor
- Hat "Größe" und "Richtung"
- Durch Pfeil dargestellt
- Wird als Skalarsatz angezeigt
- Warteschlange
- Skalartabelle
- Angeordnete Vektoren
Einheitsmatrix und inverse Matrix
Eine Matrix wie "1", deren Partner sich auch bei Multiplikation nicht ändert, wird als Einheitsmatrix bezeichnet.
$ I = \begin{pmatrix}
1 & & \\\
& 1 & \\\
& & \ddots \\
\end{pmatrix} $
Eine Matrix, die wie eine Inverse wirkt, wird als Inverse Matrix bezeichnet.
$ AA^{-1} = A^{-1}A = I $
Merkmale der Matrixformel
Wenn Sie sich eine Matrix als eine Kombination zweier horizontaler Vektoren vorstellen
$ \begin{pmatrix}
a & b \\\
c & d
\end{pmatrix} = \begin{pmatrix}
\vec{v_1} \\\
\vec{v_2}
\end{pmatrix} $
Die durch erzeugte Fläche des parallelen Vierecks weist eine inverse Matrix auf.
Dieser Bereich ist $ \ begin {vmatrix}
a & b \
c & d
\end{vmatrix} = \begin{vmatrix}
\vec{v_1} \
\vec{v_2}
Wird als \ end {vmatrix} $ ausgedrückt und als Matrixausdruck bezeichnet.
Wenn $ \ vec {v_1} = (a, b, c), \ vec {v_2} = (a, b, c), \ vec {v_3} = (a, b, c) $
$ \begin{vmatrix}
\vec{v_1} \\\
\vec{v_2} \\\
\vec{v_3}
\end{vmatrix} = \begin{vmatrix}
a & b & c \\\
d & e & f \\\
g & h & i
\end{vmatrix} = \begin{vmatrix}
a & b & c \\\
0 & e & f \\\
0 & h & i
\end{vmatrix} + \begin{vmatrix}
0 & b & c \\\
d & e & f \\\
0 & h & i
\end{vmatrix} + \begin{vmatrix}
0 & b & c \\\
0 & e & f \\\
g & h & i
\end{vmatrix} = a \begin{vmatrix}
e & f \\\
h & i
\end{vmatrix} - d \begin{vmatrix}
b & c \\\
h & i
\end{vmatrix} + g \begin{vmatrix}
b & c \\\
e & f
\end{vmatrix} $
Ein Matrixausdruck, der aus n Vektoren besteht, weist die folgenden Eigenschaften auf.
- Nullmatrixausdruck, wenn der gleiche Zeilenvektor enthalten ist
$ \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{w} \\\
\vdots \\\
\vec{w} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = 0 $
- Wenn ein Vektor mit $ \ lambda $ multipliziert wird, wird der Matrixausdruck mit $ \ lambda $ multipliziert
$ \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\lambda\vec{v_i} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = \lambda \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_i} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} $
--Wenn alle anderen Komponenten gleich sind, aber nur der $ i $ -te Vektor unterschiedlich ist, werden die Matrixausdrücke addiert.
$ \begin{vmatrix}
\vec{v_1}\\\
\vdots \\\
\vec{v_i} + \vec{w} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_i} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} + \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{w} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} $
- Das Vorzeichen ändert sich, wenn Sie Linien tauschen
$ \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_s} \\\
\vdots \\\
\vec{v_t} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} = - \begin{vmatrix}
\vec{v_1} \\\
\vdots \\\
\vec{v_t} \\\
\vdots \\\
\vec{v_s} \\\
\vdots \\\
\vec{v_n}
\end{vmatrix} $
Eindeutige Werte und eindeutige Vektoren
Für eine Matrix $ A $ gibt es einen speziellen Vektor $ \ vec {x} $ und einen Koeffizienten $ \ lambda $ auf der rechten Seite, für den die folgende Gleichung gilt.
$ A\vec{x} = \lambda\vec{x} $
Das Produkt der Matrix $ A $ und ihres speziellen Vektors $ \ vec {x} $ ist dasselbe wie das Produkt nur der Anzahl der Skalare $ \ lambda $ und ihres speziellen Vektors $ \ vec {x} $.
Dieser spezielle Vektor $ \ vec {x} $ und sein Koeffizient $ \ lambda $ werden Eigenvektoren und Eigenwerte für die Matrix $ A $ genannt.
Einzigartige Wertzerlegung
Angenommen, eine Matrix $ A $, die durch Anordnen reeller Zahlen in einem Quadrat erstellt wird, hat Eigenwerte $ \ lambda_1, \ lambda_2,… $ und Eigenvektoren $ \ vec {v_1}, \ vec {v_2},… . Eine Matrix, in der diese Eigenwerte diagonal angeordnet sind (andere Komponenten sind 0)
$ A = \begin{pmatrix}
\lambda_1 & & \
& \lambda_2 & \
& & \ddots \
\end{pmatrix} $
Und eine Matrix, in der die entsprechenden Eigenvektoren angeordnet sind
$ V = (\vec{v_1} \quad \vec{v_2} \quad …) $
Als sie sich vorbereiteten
$ AV = VA $
Wird assoziiert mit. Deshalb
$ A = VAV^{-1} $$
Kann transformiert werden. Das Transformieren einer quadratischen Matrix in das Produkt der drei oben beschriebenen Matrizen wird als Eigenwertzerlegung bezeichnet. Diese Transformation hat Vorteile wie die Erleichterung der Berechnung der Leistung der Matrix.
Singularitätszerlegung
Anders als die quadratische Matrix ist es möglich, der Eigenwertzerlegung zu ähneln.
$ M \vec{v} = \sigma\vec{u} $
$ M^\top \vec{u} = \sigma\vec{v} $
Wenn es einen solchen speziellen Einheitsvektor gibt, kann er in singuläre Werte zerlegt werden.
$ MV = US \qquad M^\top U = VS^\top $
$ M = USV^{-1} \qquad M^\top = VS^\top U^{-1} $
Diese Produkte sind
$ MM^\top = USV^{-1}VS^\top U^{-1} = USS^\top U^{-1} $
Mit anderen Worten, wenn $ MM ^ \ top $ in Eigenwerte zerlegt wird, können der linke Singularvektor und das Quadrat des Singularwerts erhalten werden.
Kapitel 2: Wahrscheinlichkeit / Statistik
-
Zufallsvariable $ x $: Tatsächlich realisierter Wert (realisierter Wert)
$ \ Hspace {112pt} $… Ein ganzzahliger Wert von 1 bis 6, wenn Sie einen Würfel werfen
-
Wahrscheinlichkeitsverteilung $ P (x) $: Wie einfach es ist, den realisierten Wert $ x $ zu wählen
$ \ Hspace {145pt} $… Im Würfelbeispiel ist $ P (1) =… = P (6) = \ frac {1} {6} $
Bedingte Wahrscheinlichkeit
P(Y=y|X=x) = \frac{P(Y=y,X=x)}{P(X=x)}
Bei einem Ereignis X = x ist die Wahrscheinlichkeit, dass Y = y.
Gleichzeitige Wahrscheinlichkeit unabhängiger Ereignisse
P(X=x,Y=y) = P(X=x)P(Y=y)=P(Y=y,X=x)
Satz von Bayes
P(x|y) = \frac{P(y|x)P(x)}{\sum_x P(y|x)P(x)}
Additiver Satz (Gesetz aller Wahrscheinlichkeiten)P(y) = \sum_x P(x,y) = \sum_x P(y|x)P(x)Bedingte WahrscheinlichkeitP(x|y) = \frac{P(x,y)}{P(y)} = \frac{P(y|x)P(x)}{P(y)}Bei Verwendung in wird es erhalten.
Erwarteter Wert
- Erwarteter Wert: Durchschnittswert der stochastischen Variablen in der Verteilung oder "wahrscheinlicher" Wert
$ E(f) = \sum_{k=1}^nP(X=x_k)f(X=x_k) $
$ \ hspace {28pt} $ Für aufeinanderfolgende Werte ...
$ \int P(X=x)f(X=x)dx $
--Verteilt: Wie die Daten verstreut sind
$ Var(f) = E\Bigl(\bigl(f_{(X=x)}-E_{(f)}\bigl)\^2\Bigl) = E\bigl(f^2_{(X=x)}\bigl)-\bigl(E_{(f)}\bigl)\^2$
--Kovarianz: Unterschied in den Trends zwischen den beiden Datenreihen
$ Cov(f,g) = E\Bigl(\bigl(f_{(X=x)}-E(f)\bigl)\bigl(g_{(Y=y)}-E(g)\bigl)\Bigl) = E(fg)-E(f)E(g) $
- Standardabweichung: Streuung der Daten (Da die Varianz quadriert ist, unterscheidet sich die Einheit von den Originaldaten, sodass die Quadratwurzel gezogen und die Einheit wiederhergestellt wird.)
$ \sigma = \sqrt{Var(f)} = \sqrt{E\bigl((f_{(X=x)}-E_{(f)})^2\bigl)} $
Verschiedene Wahrscheinlichkeitsverteilungen
- Bernouy-Verteilung: Verteilung mit den Ergebnissen von Versuchen, bei denen nur zwei Arten von Ergebnissen erzielt werden können (Bild des Münzwurfs)
$ P(x|\mu) = \mu^x(1-\mu)^{1-x} $
--Multi-nooy (kategoriale) Verteilung: Verteilung, die die Ergebnisse von Versuchen zeigt, mit denen mehrere Arten von Ergebnissen erzielt werden können (Bild des Würfelns)
$ P(x|\mu) = \prod_{k=1}^K \mu_k^{x_k} $
- Biterm-Distribution: Multi-Trial-Version der Bernoulli-Distribution
$ P(x|\lambda,n) = \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x} $
- Gaußsche Verteilung: Glockenförmige kontinuierliche Verteilung
$ N(x;\mu,\sigma^2) = \sqrt\frac{1}{2\pi\sigma^2}\exp\bigl(-\frac{1}{2\sigma^2}(x-\mu)^2\bigl) $
Verwirrende diskrete Verteilung Zusammenfassung der Verteilung
Kapitel 3: Informationstheorie
Menge an Selbstinformationen
Selbst wenn häufige Ereignisse beobachtet werden, liefern sie nicht viele Informationen, während die Informationsmenge für seltene Ereignisse größer ist.
Daher ist die Umkehrung der Wahrscheinlichkeit $ \ frac {1} {P (x)} $ ein Kandidat für die Definition der Informationsmenge.
Die Informationsmenge, die durch Beobachtung der beiden unabhängigen Phänomene $ x und y $ erhalten wird, ist jedoch nicht $ \ frac {1} {P (x) P (y)} $, sondern die Summe der Informationsmenge, die jeder hat. Da es sich um eine natürlichere Definition handelt, nehmen Sie einen Logarithmus.
Wenn die Basis des Logarithmus 2 ist, ist die Einheit Bit.
Wenn die Basis des Logarithmus die Napier-Zahl $ e $ ist, ist die Einheit nat.
Shannon-Entropie (durchschnittliche Informationsmenge)
H(x) = E\bigl(I(x)\bigl) = -E\Bigl(\log\bigl(P(x)\bigl)\Bigl) = -\sum_x P(x)\log\bigl(P(x)\bigl)
Erwarteter Wert der Selbstinformationsmenge (Selbstinformationsmenge gemittelt für alle beobachteten Werte.
Kullback-Leibler-Divergenz
D_{KL}(P||Q) = E_x \Bigl[log\frac{P(x)}{Q(x)}\Bigl] = \sum_x P(x)\bigl(\log{P(x)}-\log{Q(x)}\bigl)
Ein Index, der zeigt, wie viele Informationen sich bei der Betrachtung einer neuen Verteilung von $ P $ von der Verteilung von $ Q $ unterscheiden.
Im Allgemeinen KL-DivergenzQMit einer nach unten konvexen Funktion anP=QMindestwert nur wennD_{KL}(P||P)=0werden.
Es ist also sicherlich wie der Abstand zwischen Verteilungen,PWannQWurde ersetztD_{KL}(Q||P)Ist ein anderer Wert und unterscheidet sich von der wahren mathematischen Distanz.
Kreuzentropie
H(P,Q) = -E_{X \sim P} \log{Q(x)} = -\sum_xP(x)\log{Q(x)}
Ein Index, der zeigt, wie weit die beiden Wahrscheinlichkeitsverteilungen sind, indem die Menge der Selbstinformationen über Q mit der Verteilung von P gemittelt wird.
Die Schnittpunktentropie der Wahrscheinlichkeitsverteilungen $ P (x) $ und $ Q (x) $ ist die KL-Divergenz von $ Q (x) $, gesehen aus der Entropie von $ P (x) $ und $ P (x) . Es ist eine Kombination.
$ \begin{align}
H(P,Q) &= -\sum_xP(x)\log{Q(x)} \
&= -\sum_xP(x)\log{\frac{P(x)Q(x)}{P(x)}} \
&= -\sum_xP(x)\bigl(\log{P(x)}+\log{Q(x)}-\log{P(x)}\bigl) \
&= -\sum_xP(x)\log{P(x)} + \sum_xP(x)\bigl(\log{P(x)}-\log{Q(x)}\bigl) \
&= H(P) + D_{KL}(P||Q) \
\end{align} $$