Während ich "Deep Learning from Grund" (gelesen von Yasuki Saito, veröffentlicht von O'Reilly Japan) lese, werde ich die Websites notieren, auf die ich mich bezog.

Es ist natürlich, dass neue Wörter und Begriffe in neuen Feldern erscheinen, aber wenn es sich um Abkürzungen handelt, die den Kopf des Alphabets bilden, wissen Nicht-Engländer nicht, wie sie sie lesen sollen. Vor langer Zeit, als die Schüler an einer Berufsschule COBOL unterrichteten, stießen die Schüler als erstes auf die Aussprache und Bedeutung der in COBOL verwendeten Anweisungen. Ich kann mich nicht erinnern, was ich nicht aussprechen kann, und ich kann es nicht benutzen.

Indem ich das sage

Hier sind einige der Wörter, die ich in diesem Buch nachgeschlagen habe. Ich lese, also in der Reihenfolge, in der sie im Buch erscheinen.

Kapitel 1

Python
Python Ursprünglich ein englisches Wort, das "Nishikihebi" bedeutet. Lesen Sie es also mit dieser Aussprache. Warum eine Schlange? Apropos, es gibt eine TV-Sendung namens Monty Python ... (Da es sich um eine berühmte Geschichte handelt, wird sie weggelassen.)

NumPy　 Nampai Dies ist ursprünglich eine Python-Bibliothek für numerische Operationen, daher habe ich mich gefragt, ob es in Ordnung wäre, Nampai mit der Nummer Nan und Python Pie zu verwenden.

SciPy　 Saipai Weil es für die Berechnung von Wissenschaft und Technologie (Wissenschaftswissenschaft) ist, Saipai. Vor langer Zeit war die Rede davon, SF-Romane (Science-Fiction) SF oder SciFi zu nennen, aber es ist eine ganz andere Geschichte.

TensorFlow Tenser Flow In Japan lesen einige Leute es als "Tensol Flow", aber Google-Leute lesen es als Tenser Flow. Das Wort Tensor ist Tensor in englischer Sprache und Tensor in deutscher Sprache. "Tensol" ist der Mainstream in der japanischen Literatur zu Wissenschaft und Technologie. Es kann ein Wort sein, das vor dem Krieg festgelegt wurde.

Matplotlib　 Matt Plot Rib Eine Bibliothek, mit der Python dieselbe numerische Analysesoftware wie MATLAB verwenden kann. Mat scheint das ursprüngliche Wort für Matrix zu sein. plot ist das englische Wort "draw a graph". Eine Bibliothek, die Matrizen (Arrays) grafisch darstellt.

Anaconda Anakonda Ursprünglich der Name einer südamerikanischen Schlange. Da Python eine Schlange ist, ist die Verteilung wahrscheinlich der Name der Schlange.

Kapitel 2

AND 　NAND 　OR 　XOR Und Nando oder Exor ist die Basis der logischen Berechnung.

Kapitel 3

activation function　 Aktivierungsaktivierungsfunktion Später wird das Wort Aktivierung (Ausgabedaten nach der Aktivierungsfunktion) angezeigt.

sigmoid function Sigmaid-Funktion Sigmoid ist S-förmig

exp() 　exponential function Eine Exponentialfunktion mit e (Anzahl der Napier) als Basis. exp (x) ist e zur x-ten Potenz. Es scheint, dass einige Leute es richtig als Exponential X lesen, aber die X-te Potenz von E macht Sinn.

ReLU（Rectified Linear Unit）　 Rel Eine Einheit, die eine gleichgerichtete lineare (lineare Funktion) verwendet. Wenn Sie das Lesen des Originalworts verbinden, wird es zu einem rel. Es scheint einen anderen Namen für die Rampenfunktion zu geben, aber es wäre unnatürlich, sie erneut zu lesen.

softmax　 Softmax Eine Soft-Version der Funktion, die angibt, welches der Argumente das Maximum ist. Später wird es eine Funktion namens argmax geben

MNIST　Modified National Institute of Standards and Technology database　 Emnist NIST ist das National Institute of Standards and Technology, eine Regierungsbehörde, die Standards in Bezug auf US-Technologie, Industrie und Industrie standardisiert. Handelt es sich um eine modifizierte Version der von NIST erstellten Datenbank?

Kapitel 4

Verlustfunktion

Die Verlustfunktion ist ein Indikator für die "Schlechtigkeit" der Leistung des neuronalen Netzwerks. Es zeigt, wie gut das aktuelle neuronale Netzwerk zu den Lehrerdaten passt und wie viel es nicht zu den Lehrerdaten passt.

Gradient

Lernrate

Lernrate $ \ Eta $ Eta → Wie man griechische Zeichen liest

Differential

\frac{dy}{dx}DWD X.

Teilweise Differenzierung

\frac{\delta f}{ \delta x}Del F Del X.

Kapitel 5

Schicht

Schicht Legen (flach stapeln)

Affine　 Es scheint, dass es Begriffe wie Affin-Affin-Konvertierung und Affin-Raum gibt.

Kapitel 6

SGD　stochastic gradient descent SGD: Diese Art von Dingen, die nicht gelesen werden können, ist leicht zu verstehen. Stokastischer Gradientenabstieg Probabilistische Gradientenabstiegsmethode Eine der Methoden, um die optimalen Parameter zu finden Anstelle einer Wahrscheinlichkeit fühlt es sich so an, als würden Sie in den Bestand stecken und nach einer Richtung suchen, in die der Hang abfällt.

Momentum Impuls Impuls Eine der Methoden, um den optimalen Parameter zu finden

AdaGrad　 Adagrad? Wenn Sie die Lesungen der ursprünglichen Wörter verbinden, sieht es so aus. Adaptive Subgradientenmethoden Adaptive Subgradientenmethoden? Eine der Methoden, um den optimalen Parameter zu finden

Adam　 Adam AdaGrad und Momentum verschmolzen? Eine der Methoden, um den optimalen Parameter zu finden

Gaußsche Verteilung mit Standardabweichung von 0,01

Die Gaußsche Verteilung wird auch als Normalverteilung bezeichnet. Unter den Normalverteilungen wird die Verteilung von μ (mu-Durchschnittswert) = 0 und $ σ ^ 2 $ (Sigma-Quadrat-Varianz) = 1 als Standardnormalverteilung bezeichnet und kann durch die Randn-Methode im Rondom-Modul der Numpy-Bibliothek erzeugt werden.

np.random.randn(node_num, node_num)

Wenn Sie im Gegensatz zu randn die normale Methode verwenden, können Sie auch ein zufälliges Array generieren, das einer Normalverteilung folgt, in der μ (Mittelwert) und σ (Sigma-Standardabweichung) willkürlich angegeben werden.

np.random.normal(loc=0, scale=0.01, size=(node_num, node_num))

P178 verwendet jedoch die Randn-Methode anstelle der normalen Methode.

P178 Bisher war der Anfangswert des Gewichts Wir haben einen kleinen Wert verwendet, z. B. 0,01 * np.random.randn (10, 100), der das 0,01-fache des aus der Gaußschen Verteilung erzeugten Werts ist - eine Gaußsche Verteilung mit einer Standardabweichung von 0,01.

Ich bin mit diesem Bereich nicht vertraut, aber wenn ich das normalverteilte X standardisiere und es in die Standardnormalverteilung Z konvertiere Es scheint, dass $ Z = \ frac {X --μ} {σ} $ ist. Wenn also der Durchschnitt μ = 0 und die Standardabweichung σ = 0,01 ist, Weil $ Z = \ frac {X} {0.01} $ X = 0.01 ×Z Bedeutet das?

Einschränkung der Ausdruckskraft

P182 Die Verteilung der Aktivierungen in jeder Schicht muss mäßig verteilt sein. Dies liegt daran, dass mäßig unterschiedliche Daten durch jede Schicht fließen, was zu einem neuronalen Netz führt. Dies liegt daran, dass Arbeit effizient erlernt werden kann. Im Gegenteil, wenn voreingenommene Daten fließen, Das Lernen ist möglicherweise aufgrund von Problemen wie Verteilungsverlust und "Einschränkung der Ausdruckskraft" nicht erfolgreich. Ich werde.

Darstellung? Ich verstand die Bedeutung des plötzlich auftauchenden Wortes "Ausdruckskraft" nicht und suchte nach Referenzen, die hilfreich sein könnten.

Ausdruckskraft ist ein Konzept, das die Größe einer Reihe von Funktionen ausdrückt, die ein maschinelles Lernmodell annähern kann. → Mathematische Analyse und Design basierend auf der Ausdruckskraft tiefer neuronaler Netze mit verbleibenden Sprungverbindungen

Eine der schockierendsten Tatsachen über neuronale Netze ist die Fähigkeit, beliebige Funktionen darzustellen. Angenommen, jemand gibt Ihnen eine komplexe und wellenförmige Funktion f (x): Für jede mögliche Eingabe x, unabhängig von ihrer Funktion, ist der Ausgabewert f (x) (oder eine Annäherung davon). ) Es gibt ein neuronales Netzwerk. → Visueller Beweis, dass das neuronale Netzwerk beliebige Funktionen darstellen kann

Selbst mit einem dreischichtigen Perzeptron kann jede Funktion mit beliebiger Genauigkeit approximiert werden, indem die Anzahl der Einheiten in der mittleren Schicht unendlich erhöht wird. Warum ist es besser, tief zu sein? Weil die Ausdruckskraft in Bezug auf die Tiefe exponentiell zunimmt → Technologie des maschinellen Lernens und ihre mathematischen Grundlagen

Anfangswert von Xavier

Aus dem Namen des Forschers Xavier Glorot Xavier? Missionar?

Anfangswert von He

Aus dem Namen des Forschers Kaiming He. Was? Wer?

Tanh-Funktion

Hyperbolische Tangenten-Bikurvenfunktion \tanh x=\frac{\sinh x}{\cosh x}

Batch Normalization Chargennormalisierung Beim Lernen wird für jeden Mini-Batch eine Normalisierung in Mini-Batch-Einheiten durchgeführt.

Robust auf den Anfangswert

robust <Menschen, Körperbau usw.> Robust, stark, solide

P259 Die hier erwähnte Robustheit bedeutet beispielsweise, dass ein neuronales Netzwerk als Eingabebild verwendet wird. Es hat eine robuste Eigenschaft, dass sich das Ausgabeergebnis nicht ändert, selbst wenn ein kleines Rauschen hinzugefügt wird. darüber. Dank dieser Robustheit fließen die Daten durch das Netzwerk Selbst wenn es "verschlechtert" ist, kann davon ausgegangen werden, dass die Auswirkung auf das Ausgabeergebnis gering ist.

Überanpassung überlernen

Überanpassung Ich habe gelernt, nur die Trainingsdaten anzupassen.

Weight decay Gewichtsabnahme Lastdämpfung Eine Technik, die oft lange Zeit angewendet wird, um das Überlernen zu unterdrücken

L2 Norm

Betrag, der die "Größe" verschiedener Dinge darstellt Die Norm p-ter Ordnung des M-dimensionalen Vektors x ist die unten definierte Größe.

∥x∥_p =(∑^M_i|x_i|^p)^{1/p}= \sqrt[p]{|x_1|^p + · · · + |x_M|^p}

Die L2-Norm ist die quadratische Norm des M-dimensionalen Vektors x.

∥x∥_2 =(∑^M_i|x_i|^2)^{1/2}= \sqrt{|x_1|^2 + · · · + |x_M|^2}

Wenn dies zweidimensional ist, sieht es so aus.

∥x∥_2 = \sqrt{x_1^2 + x_2^2}

Aus der Perspektive des Satzes von Pitagolas ist dies die Länge der diagonalen Seite eines rechtwinkligen Dreiecks. Wenn Sie die Route quadrieren und entfernen

r^2 = x^2 + y^2

Dann wird es eine Gleichung eines Kreises mit einem Radius r, der auf dem Ursprung zentriert ist.

damit

Wenn das Gewicht W ist, ist der Gewichtsabfall der L2-Norm $ \ frac {1} {2} \ lambda \ W ^ 2 $, was $ \ frac {1} {2} \ lambda \ W ^ 2 ist Fügen Sie der Verlustfunktion $ hinzu.

Addieren Sie also $ 0,5 x λ x (w_1 ^ 2 + ··· + w_M ^ 2) $ zur Verlustfunktion. Als Bild zeichne ich einen Kreis mit dem Ursprung der Verlustfunktion 0 (der Stelle, an der sie überpasst) und lerne dazu, aber ich habe das Gefühl, dass ich ihn nicht in den Umfang setzen kann? Wenn Ausnahmedaten in die Trainingsdaten gemischt werden und das Gewicht w groß wird, um mit der Ausnahme übereinzustimmen, wird der Kreis ebenfalls groß und das Lernen wird gestört, und wenn die Ausnahmedaten ignoriert werden und das Gewicht w klein wird, wird der Kreis ebenfalls klein und lernt. Heißt das, Sie jammen nicht?

λ Lambda Weight Decay (L2 Norm) Stärke

Dropout Dropout: Eine Lernmethode, bei der Neuronen zufällig gelöscht werden, um das Überlernen zu unterdrücken

Hyperparameter

Anzahl der Neuronen in jeder Schicht, Chargengröße, Lernkoeffizient beim Aktualisieren von Parametern, Gewichtsabfall usw.

Stanford University Klasse "CS231n"

CS231n: Convolutional Neural Networks for Visual Recognition

Kapitel 7

CNN　convolutional neural network CNN: Diese Art von Dingen, die nicht gelesen werden können, ist leicht zu verstehen. Faltungsneuronales Netzwerk Faltungswirbel

Faltungsschicht

Faltungswirbel Es fühlt sich an, als würde der Filter auf den Eingabedaten herumlaufen?

Polsterung

Pad "Füllung zum Formen" Füllen Sie den Bereich um die Eingabedaten mit 0, um sie zu formen.

Schreiten

Straddle ~

Pooling-Schicht

Pooling Gemeinsame Nutzung

im2col Es ist eine Abkürzung für Bild zu Spalte, also Imtukar? Vom Bild zur Matrix

Primitive Informationen wie Edge und Blob

LeNet Renette? Wenn Sie auf Französisch lesen, lesen Sie Le as le. Faltungsneurales Netzwerk, erstellt vom Franzosen Yann LeCun

AlexNet Alex Net Faltungsneurales Netzwerk von Alex Krizhevsky erstellt

Referenzierte Site

Wie man griechische Schriftzeichen liest Qiitas Formel-Spickzettel Maschinelles Lernen Was ist die LP-Norm? ](Https://qiita.com/kenmatsu4/items/cecb466437da33df2870)

[PYTHON] Selbststudien-Memo "Deep Learning from Grund" (unlesbares Glossar)