Während ich "Deep Learning from Grund" (gelesen von Yasuki Saito, veröffentlicht von O'Reilly Japan) lese, werde ich die Websites notieren, auf die ich mich bezog.
Es ist natürlich, dass neue Wörter und Begriffe in neuen Feldern erscheinen, aber wenn es sich um Abkürzungen handelt, die den Kopf des Alphabets bilden, wissen Nicht-Engländer nicht, wie sie sie lesen sollen. Vor langer Zeit, als die Schüler an einer Berufsschule COBOL unterrichteten, stießen die Schüler als erstes auf die Aussprache und Bedeutung der in COBOL verwendeten Anweisungen. Ich kann mich nicht erinnern, was ich nicht aussprechen kann, und ich kann es nicht benutzen.
Indem ich das sage
Hier sind einige der Wörter, die ich in diesem Buch nachgeschlagen habe. Ich lese, also in der Reihenfolge, in der sie im Buch erscheinen.
Python
Python Ursprünglich ein englisches Wort, das "Nishikihebi" bedeutet. Lesen Sie es also mit dieser Aussprache.
Warum eine Schlange? Apropos, es gibt eine TV-Sendung namens Monty Python ... (Da es sich um eine berühmte Geschichte handelt, wird sie weggelassen.)
NumPy Nampai Dies ist ursprünglich eine Python-Bibliothek für numerische Operationen, daher habe ich mich gefragt, ob es in Ordnung wäre, Nampai mit der Nummer Nan und Python Pie zu verwenden.
SciPy Saipai Weil es für die Berechnung von Wissenschaft und Technologie (Wissenschaftswissenschaft) ist, Saipai. Vor langer Zeit war die Rede davon, SF-Romane (Science-Fiction) SF oder SciFi zu nennen, aber es ist eine ganz andere Geschichte.
TensorFlow Tenser Flow In Japan lesen einige Leute es als "Tensol Flow", aber Google-Leute lesen es als Tenser Flow. Das Wort Tensor ist Tensor in englischer Sprache und Tensor in deutscher Sprache. "Tensol" ist der Mainstream in der japanischen Literatur zu Wissenschaft und Technologie. Es kann ein Wort sein, das vor dem Krieg festgelegt wurde.
Matplotlib Matt Plot Rib Eine Bibliothek, mit der Python dieselbe numerische Analysesoftware wie MATLAB verwenden kann. Mat scheint das ursprüngliche Wort für Matrix zu sein. plot ist das englische Wort "draw a graph". Eine Bibliothek, die Matrizen (Arrays) grafisch darstellt.
Anaconda Anakonda Ursprünglich der Name einer südamerikanischen Schlange. Da Python eine Schlange ist, ist die Verteilung wahrscheinlich der Name der Schlange.
AND NAND OR XOR Und Nando oder Exor ist die Basis der logischen Berechnung.
activation function Aktivierungsaktivierungsfunktion Später wird das Wort Aktivierung (Ausgabedaten nach der Aktivierungsfunktion) angezeigt.
sigmoid function Sigmaid-Funktion Sigmoid ist S-förmig
exp() exponential function Eine Exponentialfunktion mit e (Anzahl der Napier) als Basis. exp (x) ist e zur x-ten Potenz. Es scheint, dass einige Leute es richtig als Exponential X lesen, aber die X-te Potenz von E macht Sinn.
ReLU(Rectified Linear Unit) Rel Eine Einheit, die eine gleichgerichtete lineare (lineare Funktion) verwendet. Wenn Sie das Lesen des Originalworts verbinden, wird es zu einem rel. Es scheint einen anderen Namen für die Rampenfunktion zu geben, aber es wäre unnatürlich, sie erneut zu lesen.
softmax Softmax Eine Soft-Version der Funktion, die angibt, welches der Argumente das Maximum ist. Später wird es eine Funktion namens argmax geben
MNIST Modified National Institute of Standards and Technology database Emnist NIST ist das National Institute of Standards and Technology, eine Regierungsbehörde, die Standards in Bezug auf US-Technologie, Industrie und Industrie standardisiert. Handelt es sich um eine modifizierte Version der von NIST erstellten Datenbank?
Verlustfunktion
Die Verlustfunktion ist ein Indikator für die "Schlechtigkeit" der Leistung des neuronalen Netzwerks. Es zeigt, wie gut das aktuelle neuronale Netzwerk zu den Lehrerdaten passt und wie viel es nicht zu den Lehrerdaten passt.
Gradient
Lernrate $ \ Eta $ Eta → Wie man griechische Zeichen liest
\frac{dy}{dx}DWD X.
\frac{\delta f}{ \delta x}Del F Del X.
Schicht Legen (flach stapeln)
Affine Es scheint, dass es Begriffe wie Affin-Affin-Konvertierung und Affin-Raum gibt.
SGD stochastic gradient descent SGD: Diese Art von Dingen, die nicht gelesen werden können, ist leicht zu verstehen. Stokastischer Gradientenabstieg Probabilistische Gradientenabstiegsmethode Eine der Methoden, um die optimalen Parameter zu finden Anstelle einer Wahrscheinlichkeit fühlt es sich so an, als würden Sie in den Bestand stecken und nach einer Richtung suchen, in die der Hang abfällt.
Momentum Impuls Impuls Eine der Methoden, um den optimalen Parameter zu finden
AdaGrad Adagrad? Wenn Sie die Lesungen der ursprünglichen Wörter verbinden, sieht es so aus. Adaptive Subgradientenmethoden Adaptive Subgradientenmethoden? Eine der Methoden, um den optimalen Parameter zu finden
Adam Adam AdaGrad und Momentum verschmolzen? Eine der Methoden, um den optimalen Parameter zu finden
Die Gaußsche Verteilung wird auch als Normalverteilung bezeichnet. Unter den Normalverteilungen wird die Verteilung von μ (mu-Durchschnittswert) = 0 und $ σ ^ 2 $ (Sigma-Quadrat-Varianz) = 1 als Standardnormalverteilung bezeichnet und kann durch die Randn-Methode im Rondom-Modul der Numpy-Bibliothek erzeugt werden.
np.random.randn(node_num, node_num)
Wenn Sie im Gegensatz zu randn die normale Methode verwenden, können Sie auch ein zufälliges Array generieren, das einer Normalverteilung folgt, in der μ (Mittelwert) und σ (Sigma-Standardabweichung) willkürlich angegeben werden.
np.random.normal(loc=0, scale=0.01, size=(node_num, node_num))
P178 verwendet jedoch die Randn-Methode anstelle der normalen Methode.
P178 Bisher war der Anfangswert des Gewichts Wir haben einen kleinen Wert verwendet, z. B. 0,01 * np.random.randn (10, 100), der das 0,01-fache des aus der Gaußschen Verteilung erzeugten Werts ist - eine Gaußsche Verteilung mit einer Standardabweichung von 0,01.
Ich bin mit diesem Bereich nicht vertraut, aber wenn ich das normalverteilte X standardisiere und es in die Standardnormalverteilung Z konvertiere
Es scheint, dass $ Z = \ frac {X --μ} {σ} $ ist. Wenn also der Durchschnitt μ = 0 und die Standardabweichung σ = 0,01 ist,
Weil $ Z = \ frac {X} {0.01} $
P182 Die Verteilung der Aktivierungen in jeder Schicht muss mäßig verteilt sein. Dies liegt daran, dass mäßig unterschiedliche Daten durch jede Schicht fließen, was zu einem neuronalen Netz führt. Dies liegt daran, dass Arbeit effizient erlernt werden kann. Im Gegenteil, wenn voreingenommene Daten fließen, Das Lernen ist möglicherweise aufgrund von Problemen wie Verteilungsverlust und "Einschränkung der Ausdruckskraft" nicht erfolgreich. Ich werde.
Darstellung? Ich verstand die Bedeutung des plötzlich auftauchenden Wortes "Ausdruckskraft" nicht und suchte nach Referenzen, die hilfreich sein könnten.
Ausdruckskraft ist ein Konzept, das die Größe einer Reihe von Funktionen ausdrückt, die ein maschinelles Lernmodell annähern kann. → Mathematische Analyse und Design basierend auf der Ausdruckskraft tiefer neuronaler Netze mit verbleibenden Sprungverbindungen
Eine der schockierendsten Tatsachen über neuronale Netze ist die Fähigkeit, beliebige Funktionen darzustellen. Angenommen, jemand gibt Ihnen eine komplexe und wellenförmige Funktion f (x): Für jede mögliche Eingabe x, unabhängig von ihrer Funktion, ist der Ausgabewert f (x) (oder eine Annäherung davon). ) Es gibt ein neuronales Netzwerk. → Visueller Beweis, dass das neuronale Netzwerk beliebige Funktionen darstellen kann
Selbst mit einem dreischichtigen Perzeptron kann jede Funktion mit beliebiger Genauigkeit approximiert werden, indem die Anzahl der Einheiten in der mittleren Schicht unendlich erhöht wird. Warum ist es besser, tief zu sein? Weil die Ausdruckskraft in Bezug auf die Tiefe exponentiell zunimmt → Technologie des maschinellen Lernens und ihre mathematischen Grundlagen
Aus dem Namen des Forschers Xavier Glorot Xavier? Missionar?
Aus dem Namen des Forschers Kaiming He. Was? Wer?
Hyperbolische Tangenten-Bikurvenfunktion
Batch Normalization Chargennormalisierung Beim Lernen wird für jeden Mini-Batch eine Normalisierung in Mini-Batch-Einheiten durchgeführt.
robust <Menschen, Körperbau usw.> Robust, stark, solide
P259 Die hier erwähnte Robustheit bedeutet beispielsweise, dass ein neuronales Netzwerk als Eingabebild verwendet wird. Es hat eine robuste Eigenschaft, dass sich das Ausgabeergebnis nicht ändert, selbst wenn ein kleines Rauschen hinzugefügt wird. darüber. Dank dieser Robustheit fließen die Daten durch das Netzwerk Selbst wenn es "verschlechtert" ist, kann davon ausgegangen werden, dass die Auswirkung auf das Ausgabeergebnis gering ist.
Überanpassung Ich habe gelernt, nur die Trainingsdaten anzupassen.
Weight decay Gewichtsabnahme Lastdämpfung Eine Technik, die oft lange Zeit angewendet wird, um das Überlernen zu unterdrücken
Betrag, der die "Größe" verschiedener Dinge darstellt Die Norm p-ter Ordnung des M-dimensionalen Vektors x ist die unten definierte Größe.
∥x∥_p =(∑^M_i|x_i|^p)^{1/p}= \sqrt[p]{|x_1|^p + · · · + |x_M|^p}
Die L2-Norm ist die quadratische Norm des M-dimensionalen Vektors x.
∥x∥_2 =(∑^M_i|x_i|^2)^{1/2}= \sqrt{|x_1|^2 + · · · + |x_M|^2}
Wenn dies zweidimensional ist, sieht es so aus.
∥x∥_2 = \sqrt{x_1^2 + x_2^2}
Aus der Perspektive des Satzes von Pitagolas ist dies die Länge der diagonalen Seite eines rechtwinkligen Dreiecks. Wenn Sie die Route quadrieren und entfernen
r^2 = x^2 + y^2
Dann wird es eine Gleichung eines Kreises mit einem Radius r, der auf dem Ursprung zentriert ist.
damit
Wenn das Gewicht W ist, ist der Gewichtsabfall der L2-Norm $ \ frac {1} {2} \ lambda \ W ^ 2 $, was $ \ frac {1} {2} \ lambda \ W ^ 2 ist Fügen Sie der Verlustfunktion $ hinzu.
Addieren Sie also $ 0,5 x λ x (w_1 ^ 2 + ··· + w_M ^ 2) $ zur Verlustfunktion. Als Bild zeichne ich einen Kreis mit dem Ursprung der Verlustfunktion 0 (der Stelle, an der sie überpasst) und lerne dazu, aber ich habe das Gefühl, dass ich ihn nicht in den Umfang setzen kann? Wenn Ausnahmedaten in die Trainingsdaten gemischt werden und das Gewicht w groß wird, um mit der Ausnahme übereinzustimmen, wird der Kreis ebenfalls groß und das Lernen wird gestört, und wenn die Ausnahmedaten ignoriert werden und das Gewicht w klein wird, wird der Kreis ebenfalls klein und lernt. Heißt das, Sie jammen nicht?
λ Lambda Weight Decay (L2 Norm) Stärke
Dropout Dropout: Eine Lernmethode, bei der Neuronen zufällig gelöscht werden, um das Überlernen zu unterdrücken
Anzahl der Neuronen in jeder Schicht, Chargengröße, Lernkoeffizient beim Aktualisieren von Parametern, Gewichtsabfall usw.
CS231n: Convolutional Neural Networks for Visual Recognition
CNN convolutional neural network CNN: Diese Art von Dingen, die nicht gelesen werden können, ist leicht zu verstehen. Faltungsneuronales Netzwerk Faltungswirbel
Faltungswirbel Es fühlt sich an, als würde der Filter auf den Eingabedaten herumlaufen?
Pad "Füllung zum Formen" Füllen Sie den Bereich um die Eingabedaten mit 0, um sie zu formen.
Straddle ~
Pooling Gemeinsame Nutzung
im2col Es ist eine Abkürzung für Bild zu Spalte, also Imtukar? Vom Bild zur Matrix
LeNet Renette? Wenn Sie auf Französisch lesen, lesen Sie Le as le. Faltungsneurales Netzwerk, erstellt vom Franzosen Yann LeCun
AlexNet Alex Net Faltungsneurales Netzwerk von Alex Krizhevsky erstellt
Wie man griechische Schriftzeichen liest Qiitas Formel-Spickzettel Maschinelles Lernen Was ist die LP-Norm? ](Https://qiita.com/kenmatsu4/items/cecb466437da33df2870)
Recommended Posts