[PYTHON] Deep Learning Kurs, der vor Ort zerquetscht werden kann

output_0_0.png

Day2

■ Lerntechniken für tiefe Modelle

** Abschnitt 1) Überblick über das Problem des Verschwindens des Gradienten ** 1-1 Aktivierungsfunktion ・ ReLU-Funktion ・ Sigmaid (logistische) Funktion ・ Regelmäßiger Doppelkurvenkontakt 1-2 So stellen Sie den Anfangswert ein -Xavier --- Der Wert, der durch Teilen des Gewichtselements durch die Quadratwurzel der Anzahl der Knoten in der vorherigen Ebene erhalten wird. ⇒ Zielaktivierungsfunktion: ReLU-, Sigmoid-, Bicurve-Tangentenfunktion

  #Anfangswert von Xavier
    network['W1'] = np.random.randn(input_layer_size, hidden_layer_1_size) / (np.sqrt(input_layer_size))
    network['W2'] = np.random.randn(hidden_layer_1_size, hidden_layer_2_size) / (np.sqrt(hidden_layer_1_size))
    network['W3'] = np.random.randn(hidden_layer_2_size, output_layer_size) / (np.sqrt(hidden_layer_2_size))

・ He-- $ für den Wert, der durch Teilen des Gewichtselements durch die Quadratwurzel der Anzahl der Knoten in der vorherigen Ebene erhalten wird. \sqrt{2} Wert multipliziert mit $ ⇒ Zielaktivierungsfunktion: ReLU

    #Anfangswert von He
    network['W1'] = np.random.randn(input_layer_size, hidden_layer_1_size) / np.sqrt(input_layer_size) * np.sqrt(2)
    network['W2'] = np.random.randn(hidden_layer_1_size, hidden_layer_2_size) / np.sqrt(hidden_layer_1_size) * np.sqrt(2)
    network['W3'] = np.random.randn(hidden_layer_2_size, output_layer_size) / np.sqrt(hidden_layer_2_size) * np.sqrt(2)

1-3 Chargennormalisierung Die Chargennormalisierung ist eine Methode zur Unterdrückung der Verzerrung von Eingabewertdaten in Mini-Batch-Einheiten. Fügen Sie die Chargennormalisierung vor und nach der Übergabe des Werts an die Aktivierungsfunktion zum Zeitpunkt der Chargennormalisierung hinzu.

** Abschnitt 2) Methode zur Optimierung der Lernrate ** Wenn der Wert der Lernrate groß ist, wird der optimale Wert nicht für immer erreicht und divergiert. Wenn der Wert für die Lernrate klein ist, wird er nicht divergieren. Wenn er jedoch zu klein ist, dauert es einige Zeit, bis er konvergiert. Außerdem wird es schwierig, zum globalen lokalen Optimalwert zu konvergieren. ◆ Methode zur Optimierung der Lernrate: ・ Stellen Sie die anfängliche Lernrate auf einen großen Wert ein und verringern Sie die Lernrate schrittweise. ・ Variable Lernrate für jeden Parameter 2-1 Momentum Nach Subtraktion des Produkts des durch den Parameter und die Lernrate differenzierten Fehlers (Gradientenabstiegsmethode) wird das Produkt aus dem aktuellen Gewicht abzüglich des vorherigen Gewichts und der Trägheit addiert. ◆ Vorteile der Dynamik ・ Es ist keine lokale optimale Lösung, sondern eine globale optimale Lösung. ・ Die Zeit vom Tal bis zur niedrigsten Position (optimaler Wert) ist schnell.  2-2 AdaGrad Subtrahieren Sie das Produkt aus der neu definierten Lernrate und der Parameterdifferenzierung des Fehlers. ◆ Vorteile von AdaGrad ・ Nähern Sie sich bei Hängen mit leichten Hängen dem optimalen Wert. ◆ Probleme ・ Da die Lernrate allmählich abnahm, verursachte sie manchmal ein Sattelpunktproblem.

2-3 RMSProp Subtrahieren Sie das Produkt aus der neu definierten Lernrate und der Parameterdifferenzierung des Fehlers. ◆ Vorteile von RMS Drop ・ Es ist keine lokale optimale Lösung, sondern eine globale optimale Lösung. -Es gibt nur wenige Fälle, in denen Hyperparameter angepasst werden müssen.  2-4 Adam Eine Optimierungsmethode, die Impuls (exponentieller Abklingdurchschnitt vergangener Gradienten) und RMSProp (exponentieller Abklingdurchschnitt des Quadrats vergangener Gradienten) umfasst. ◆ Vorteile von Adam ・ Es handelt sich um einen Optimierungsalgorithmus, der die Vorteile von Momentum und RMS Drop bietet.

** Abschnitt 3) Über Überlernen ** Die Lernkurve weicht zwischen dem Testfehler und dem Trainingsfehler ab ⇒ Aus den folgenden Gründen habe ich mich auf das Lernen für ein bestimmtes Trainingsmuster mit einem hohen Grad an Netzwerkfreiheit (Anzahl der Schichten, Anzahl der Knoten, Parameterwerte usw.) spezialisiert. • Große Anzahl von Parametern • Falsche Parameterwerte • Viele Knoten usw.

3-1 L1-Regularisierung, L2-Regularisierung ⇒ Lasso, Ridge Regularisierung

3-2 Drop A. Löschen Sie die zu lernenden Knoten nach dem Zufallsprinzip ◆ Als Verdienst ・ Es kann interpretiert werden, dass verschiedene Modelle trainiert werden, ohne die Datenmenge zu ändern.

■ Über das Faltungsnetzwerk

** Abschnitt 4) Konzeptioneller Überblick über das Faltungsnetzwerk (CNN-Strukturdiagramm) ** 4-1 Faltschicht Das Ergebnis der Faltungsberechnung für jeden Filter wird ausgegeben. ◆ Als Verdienst ・ Durch die Aufrechterhaltung räumlicher Informationen können die Nachteile der vollständig verbundenen Schicht überwunden werden.

4-2 Pooling-Schicht Gilt nach der Faltungsschicht. Transformieren Sie die Eingabedaten in eine übersichtlichere Form. Komprimieren Sie die Informationen und das Down-Sample. ◆ Als Verdienst ・ Robust gegen winzige Positionsänderungen ・ Überlernen Sie das Überlernen bis zu einem gewissen Grad ・ Reduzieren Sie die Berechnungskosten

4-3 Andere verwendete Schichten ・ Vollständig verbundene Netzwerkschicht ・ Dropout-Ebene ・ Chargennormalisierungsschicht usw.

** Abschnitt 5) Neueste CNN ** 5-1 AlexNet ・ Modellstruktur ⇒ Besteht aus 3 vollständig verbundenen Schichten, einschließlich 5 Faltschichten und Poolschichten ・ Maßnahmen zur Verhinderung von Überlernen ⇒ Ein Dropout wird für die Ausgabe einer vollständig verbundenen Schicht der Größe 4096 verwendet.

◆ Überlegung zu Tag 2

[P20] Finden Sie dz / dx nach dem Prinzip des Kettengesetzes.  z = t2  t = x + y

** ● Überlegung: ** $ \frac{dz}{dx}=\frac{dz}{dt}\frac{dt}{dx}  $ $  ⇒  \frac{dz}{dt} = 2t, \frac{dt}{dx} = 1 ,t=x+y $ Substitutionsergebnis der obigen Formel: $ \frac{dz}{dx} = 2(x+y) $

[P12] Wenn die Sigmoidfunktion unterschieden wird, wird der Maximalwert genommen, wenn der Eingabewert 0 ist. Wählen Sie den richtigen Wert aus den Optionen. (1)0.15 (2)0.25 (3)0.35 (4)0.4

** ● Überlegung: ** $ sigmoid'(x) = sigmoid(x)(1-sigmoid(x)) $       $ sigmoid(0) = 0.5 $

Substitutionsergebnis der obigen Formel: $ sigmoid'(0) = 0.5*(1-0.5) = 0.25 $ Daher lautet die richtige Antwort (2)

[P28] Was für ein Problem tritt auf, wenn der Anfangswert des Gewichts auf 0 gesetzt wird? Kurz erklären.

** ● Überlegung: ** Wenn Sie den Anfangswert des Gewichts auf 0 setzen, ist er 0, wenn Sie das Gewicht mit dem Eingabewert multiplizieren, und alle Werte werden mit demselben Wert an die untere Ebene übertragen, sodass Sie den Gewichtswert nicht einstellen können.

[P31] Nennen Sie zwei häufig berücksichtigte Auswirkungen der Chargennormalisierung. ** ● Überlegung: ** Stabilisieren Sie den gesamten Lernprozess. Erhöhen Sie die Lerngeschwindigkeit.

[P47] Erklären Sie kurz die Eigenschaften von Momentum, AdaGrad und RMS Drop.
** ● Überlegung: ** ・ Impulsmerkmale Die Parameter werden durch Hinzufügen des α-fachen zum vorherigen Aktualisierungsbetrag unter Berücksichtigung der Trägheit aktualisiert. (Eigentlich automatische Anpassung der Lernrate) ・ Funktionen von AdaGrad Die Lernrate wird automatisch angepasst, indem alle vergangenen Gradienteninformationen gleichmäßig berücksichtigt werden, und die Lernrate η, die berechnet wird, wenn das Lernen wiederholt wird, wird kleiner. ・ Funktionen von RMS Drop Die beim Lernen berechnete Lernrate η wird wiederholt, indem der exponentielle gleitende Durchschnitt des Quadrats des vergangenen Gradienten kleiner wird.

[P68] Beantworten Sie in der folgenden Abbildung eines der Diagramme, die die L1-Regularisierung zeigen. ** ● Überlegung: ** output_5_0.png

[P100] Beantworten Sie die Größe des Ausgabebilds, wenn das Eingabebild der Größe 6x6 mit dem Filter der Größe 2x2 gefaltet wird. Der Schritt und die Polsterung werden auf 1 gesetzt. ** ● Überlegung: ** Antwort: Höhe: (6 + 2 * 0 - 2) / 2 + 1 = 3 Breite: (6 + 2 * 0 - 2) / 2 + 1 = 3

Quellcode-Übungen_Lösen der Implementierung des Problems des Verschwindens von Gradienten

Der Teil des Gradienten-Verschwindens wird gelöscht und stattdessen ReLU-He mit geänderten Parametern eingefügt. output_8_0.png

Quellcode übungen_Programmimplementierung Optimierung der Lernrate

output_10_0.png

Quellcode übungen_Programmimplementierung Overlearning-Lösung

output_12_0.png

Quellcode übungen_Programmimplementierung Faltung

output_14_0.png

Quellcode Exercises_Program Implementing Pooling Layer

output_16_0.png

Quellcode Exercise_Program Implementierung Gesamt-CNN

output_18_0.png

================================================================================================================= Day3

■ Rückblick auf das Gesamtbild des Deep Learning Das neueste CNN

*  • AlexNet* AlexNet ist ein Modell, das mit großem Abstand den zweiten Platz im Bilderkennungswettbewerb 2012 gewonnen hat. Mit dem Aufkommen von AlexNet erhielt Deep Learning viel Aufmerksamkeit

■ Über rekursives neuronales Netzwerk

** Abschnitt 1) Konzept des rekursiven neuronalen Netzwerks ** ・ Übersicht über RNN Es ist ein neuronales Netzwerk, das Daten verarbeiten kann, die in regelmäßigen Abständen beobachtet werden und statistische Abhängigkeiten voneinander aufweisen.
Zum Beispiel: Sprachdaten, Textdaten usw. ・ Über RNN RNN hat eine rekursive Struktur, die den Anfangszustand und den Zustand der vergangenen Zeit t-1 in der verborgenen Schicht enthält und t das nächste Mal von dort aus rekursiv findet. ・ Mathematische RNN-Beschreibung

u^t = W_{ (in) }x^t + Wz^{ t-1 } + b \\
z^t = f(W_{ (in) }x^t + Wz^{ t-1 } + b)\\
v^t = W_{ out } z^t + c\\
y^t = g(W_{ out }z^t + c)\\

1-2 BPTT ・ Eine Art von Parameteranpassungsmethode in RNN ⇒ Eine Art von Fehlerrückübertragung

** Abschnitt 2) LSTM-Übersicht (vorheriger Ablauf und Vision der Probleme) ** 2-1 CEC Ich möchte die gespeicherten Informationen von CEC jederzeit an andere Knoten weitergeben oder jederzeit vergessen. ⇒ So lösen Sie das Verschwinden von Gradienten und die Explosion von Gradienten. 2-2 Eingangs- und Ausgangsgatter Durch Hinzufügen von Eingabe- / Ausgabegattern können die Gewichte der Eingabewerte zu jedem Gatter durch die Gewichtsmatrizen W und U geändert werden. 2-3 Vergessenheitstor Wenn Sie die früheren Informationen nicht mehr benötigen, löschen Sie sie. 2-4 Gucklochverbindung Ich möchte die gespeicherten Informationen von CEC jederzeit an andere Knoten weitergeben oder jederzeit vergessen. ⇒ Maskieren Sie die CEC-Informationen.

Section3) GRU Im herkömmlichen LSTM war die Berechnungslast hoch, da es viele Parameter gab. In GRU wurden die Parameter jedoch erheblich reduziert, und es ist zu erwarten, dass die Genauigkeit gleich oder höher ist.

** Abschnitt 4) Bidirektionale RNN ** Ein Modell zur Verbesserung der Genauigkeit, indem nicht nur vergangene, sondern auch zukünftige Informationen hinzugefügt werden

bidirecory.png

■ Verarbeitung natürlicher Sprache mit RNN

** Abschnitt 5) Seq2Seq Übersicht ** Seq2seq bezieht sich auf eine Art Encoder-Decoder-Modell. Es wird für den maschinellen Dialog und die maschinelle Übersetzung verwendet. 5-1 Encoder RNN Eine Struktur, in der vom Benutzer eingegebene Textdaten in Token wie Wörter unterteilt und übergeben werden. 5-2 Decoder RNN Eine Struktur, in der das System Ausgabedaten für jedes Token generiert, z. B. ein Wort. 5-3 HRED Sie können mit der Geschichte vergangener Äußerungen antworten. 5-4 VHRED HRED mit dem Konzept der latenten VAE-Variablen hinzugefügt. 5-5 VAE VAE hat es möglich gemacht, Daten in eine Struktur zu verschieben, die als Wahrscheinlichkeitsverteilung der latenten Variablen z bezeichnet wird. 5-5-1 Auto Encoder Eine des unbeaufsichtigten Lernens. Daher sind die Eingabedaten zum Zeitpunkt des Lernens nur Trainingsdaten, keine Lehrerdaten.

Section6) Word2vec Aus den Trainingsdaten wurde ein Vokabular erstellt, und das Erlernen der verteilten Darstellung großer Datenmengen wurde mit einer realistischen Berechnungsgeschwindigkeit und Speichermenge möglich.

Section7) AttentionMechanism Ein Mechanismus, um den Grad der Relevanz zu erfahren, "welche Wörter in der Eingabe und Ausgabe zusammenhängen".

◆ Überlegung zu Tag 3

[P11] Beantworten Sie die Größe des Ausgabebilds, wenn das Eingabebild der Größe 5x5 mit dem Filter der Größe 3x3 gefaltet wird. Der Schritt ist 2 und die Polsterung ist 1.
** ● Überlegung: ** Antwort: Höhe: (5 + 2 * 1-3) / 2 + 1 = 3 Breite: (5 + 2 * 1-3) / 2 + 1 = 3

[P23] Das RNN-Netzwerk hat drei Hauptgewichte. Eines ist das Gewicht, das angewendet wird, wenn die aktuelle mittlere Ebene aus der Eingabe definiert wird, und das andere ist das Gewicht, das angewendet wird, wenn die Ausgabe aus der mittleren Ebene definiert wird. Erklären Sie das verbleibende Gewicht.

** ● Überlegung: ** Antwort: Gewicht, das verwendet wird, um rekursiv den (t-1) Zeitzustand → den aktuellen Zeitzustand (t) in der verborgenen Schicht zu erhalten

[P35] Finden Sie dz / dx nach dem Prinzip des Kettengesetzes.  z = t2  t = x + y

** ● Überlegung: ** $ \frac{dz}{dx}=\frac{dz}{dt}\frac{dt}{dx}  $ $  ⇒  \frac{dz}{dt} = 2t, \frac{dt}{dx} = 1 ,t=x+y $ Substitutionsergebnis der obigen Formel: $ \frac{dz}{dx} = 2(x+y) $

[P44] Drücken Sie y1 in der folgenden Abbildung mit einer Formel aus, die x, s0, s1, win, w und wout verwendet.

ddd.png

** ● Überlegung: **

z_{ 1 } = sigmoid(W_{ (in) }x_{ 1 } + Ws_{ 0 } + b ) \\
y_{ 1 } = sigmoid(W_{ (out) }z_{ 1 } + c ) \\ 

[P61] Wenn die Sigmoidfunktion unterschieden wird, wird der Maximalwert genommen, wenn der Eingabewert 0 ist. Wählen Sie den richtigen Wert aus den Optionen. (1)0.15 (2)0.25 (3)0.35 (4)0.4
** ● Überlegung: ** $ sigmoid'(x) = sigmoid(x)(1-sigmoid(x)) $       $ sigmoid(0) = 0.5 $ Substitutionsergebnis der obigen Formel: $ sigmoid'(0) = 0.5*(1-0.5) = 0.25 $
Daher lautet die richtige Antwort (2)

[P71] Angenommen, Sie möchten den folgenden Satz in LSTM eingeben und die Wörter vorhersagen, die für die Leerzeichen gelten. Das Wort "sehr" im Text hat keine Auswirkung, wenn es in der leeren Vorhersage verschwindet. Welches Tor funktioniert in einem solchen Fall?
"Der Film war interessant. Übrigens war ich so hungrig, dass etwas ____."

** ● Überlegung: ** Das Vergissmeinnicht-Tor hat die Funktion, Informationen zu dem Zeitpunkt zu vergessen, zu dem die vergangenen Informationen nicht mehr benötigt werden. ⇒ Die Antwort lautet daher das Vergessenstor.

[P87] Beschreiben Sie kurz die Probleme, mit denen LSTM und CEC konfrontiert sind.

** ● Überlegung: ** ・ Probleme mit LSTM LSTM hat das Problem, dass die Anzahl der Parameter groß und die Berechnungslast hoch ist. ※Lösung GRU reduziert die Parameter des herkömmlichen LSTM erheblich und verwendet dies in einer Struktur, von der erwartet werden kann, dass sie die gleiche oder eine höhere Genauigkeit aufweist, um die Berechnungslast zu reduzieren. ・ KEK-Probleme Das Gewicht der Eingabedaten ist unabhängig von der Zeitabhängigkeit einheitlich. ⇒ Es gibt keine Lerncharakteristik des neuronalen Netzwerks ※Lösung Die Gucklochkopplung ist eine Struktur, mit der der Wert von CEC selbst über eine Gewichtsmatrix weitergegeben werden kann. Wenn frühere Informationen nicht mehr benötigt werden, werden die Informationen zu diesem Zeitpunkt vergessen. )

[P91] Beschreiben Sie kurz den Unterschied zwischen LSTM und GRU.

** ● Überlegung: ** ・ In GRU sind das Vergessensgatter und das Eingangsgatter nicht klar voneinander getrennt. ・ GRU hat nur wenige Parameter.

[P108] Wählen Sie aus den folgenden Optionen die aus, die seq2seq beschreibt. (1) RNNs in Vorwärts- und Rückwärtsrichtung in Bezug auf die Zeit werden konstruiert, und diese zwei Zwischenschichtdarstellungen werden als Merkmalsgrößen verwendet. (2) Eine Art von Encoder-Decoder-Modell, das RNN verwendet und für Modelle wie die maschinelle Übersetzung verwendet wird. (3) Syntax Dies ist ein neuronales Netzwerk, das den Ausdrucksvektor des gesamten Satzes erhält, indem die Operation zum Erstellen eines Ausdrucksvektors (einer Phrase) aus benachbarten Wörtern in einer Baumstruktur wie einem Baum (mit demselben Gewicht) ausgeführt wird. (4) Eine Art von RNN, die das Problem des Verschwindens von Gradienten, das bei einfachen RNNs ein Problem darstellt, durch Einführung des Konzepts von CEC und Gate löst.

** ● Überlegung: ** Antwort: (2)

[P118] Beschreiben Sie kurz den Unterschied zwischen seq2seq und HRED sowie HRED und VHRED. ** ● Überlegung: ** -Der Unterschied zwischen seq2seq und HRED besteht darin, dass es in Seq2seq keinen Kontext für die Frage gibt, nur die Antwort wird fortgesetzt, und in HRED folgt die Antwort dem Fluss des vorherigen Wortes. ・ Der Unterschied zwischen HRED und VHRED besteht darin, dass HRED dieselbe Ausgabe für dieselbe Eingabe hat, VHRED jedoch verschiedene Ausgaben für dieselbe Eingabe zulässt, indem der Kontextebene eine latente Variable hinzugefügt wird, die probabilistisches Rauschen darstellt. ..

[P127] Beantworten Sie die Wörter, die für die Leerzeichen in der nachstehenden Erläuterung zu VAE gelten. Einführung von ____ in die latente Variable des Selbstcodierers.

** ● Überlegung: ** Antwort: Wahrscheinlichkeitsverteilung

[P136] Beschreiben Sie kurz den Unterschied zwischen RNN und word2vec sowie seq2seq und Attention.

** ● Überlegung: ** -Der Unterschied zwischen RNN und word2vec besteht darin, dass RNN NN keine Zeichenfolge variabler Länge wie ein Wort geben kann und word2vec ein Wort in einem Format fester Länge darstellen kann. ・ Der Unterschied zwischen seq2seq und Attention besteht darin, dass es schwierig ist, mit langen Sätzen mit seq2seq umzugehen. Die Aufmerksamkeit kann den Grad der Relevanz von "welche Wörter in der Eingabe und Ausgabe in Beziehung stehen" lernen, was es einfacher macht, mit langen Sätzen umzugehen.

Exercise_Program Implementation (RNN)

output_24_0.png

================================================================================================================= Day4

** Abschnitt 1) TensorFlow-Implementierungsübung **

** Abschnitt 2) Stärkung des Lernens ** ** 2-1 Was ist Verstärkungslernen ** Ein Bereich des maschinellen Lernens, der darauf abzielt, Agenten zu erstellen, die Aktionen in der Umgebung auswählen können, damit die Belohnungen langfristig maximiert werden können. ⇒ Es handelt sich um einen Mechanismus zur Verbesserung des Prinzips der Bestimmung von Maßnahmen auf der Grundlage der Vorteile (Belohnungen), die sich aus Maßnahmen ergeben. ** 2-2 Anwendungsbeispiel für Bestärkungslernen ** Umwelt: Abteilung für Unternehmensförderung Agent: Software, die anhand ihres Profils und ihrer Kaufhistorie bestimmt, welche Kunden Kampagnen-E-Mails senden. Aktion: Sie müssen für jeden Kunden zwischen zwei Aktionen wählen: Senden und Nicht-Senden. Belohnung: Erhalten Sie eine negative Belohnung für die Kosten der Kampagne und eine positive Belohnung für die Verkäufe, die voraussichtlich durch die Kampagne generiert werden.

** 2-3 Kompromiss zwischen Exploration und Nutzung ** Mit perfekter Kenntnis der Umgebung im Voraus ist es möglich, ein optimales Verhalten vorherzusagen und zu bestimmen. Bei intensivem Lernen werden Daten gesammelt, während aufgrund unvollständigen Wissens gehandelt wird. Finde die beste Aktion. ・ Wenn Sie in den vergangenen Daten immer nur das beste Verhalten verwenden, können Sie das beste Verhalten nicht finden. ・ Wenn Sie weiterhin nur unbekannte Maßnahmen ergreifen, können Sie Ihre bisherigen Erfahrungen nicht nutzen. Auf diese Weise wird der oben erwähnte Kompromisszustand 2 erhalten, in dem die Suche unzureichend und die Verwendung unzureichend ist. ** 2-4 Bild des verbesserten Lernens **

reforceNN.png

** 2-5 Unterschied beim Lernen zur Stärkung ** Der Unterschied zwischen intensivem Lernen und regelmäßig unterrichtetem und unbeaufsichtigtem Lernen. Fazit: unterschiedliche Ziele ・ Unbeaufsichtigt und beim Lernen besteht das Ziel darin, in den Daten enthaltene Muster zu finden und aus den Daten Vorhersagen zu treffen. ・ Ziel der Stärkung des Lernens ist es, hervorragende Maßnahmen zu finden ** 2-6 Aktionswertfunktion ** Es gibt zwei Arten von Aktionswertfunktionen, die Statuswertfunktion und die Aktionswertfunktion, als Funktionen, die Werte ausdrücken. Wenn Sie sich auf den Wert eines Zustands konzentrieren, die Zustandswertfunktion Wenn Sie sich auf den Wert konzentrieren, der den Zustand und den Wert kombiniert, die Aktionswertfunktion.

** 2-7 Richtlinienfunktion ** Eine Richtlinienfunktion ist eine Funktion, die die Wahrscheinlichkeit angibt, welche Maßnahmen in einem bestimmten Zustand in einer auf Richtlinien basierenden Lernmethode zur Verstärkung ergriffen werden müssen. ** 2-8 Policy Gradient-Methode ** Richtlinien-Iterationsmethode Eine Technik zum Modellieren und Optimieren von Richtlinien

\theta^{ t+1 } = \theta^{ t } + \epsilon \nabla J(\theta) \\

$ * Mit der Güte J (\ theta) der definierten Richtlinie $ auswerten

◆ Richtlinie Definieren der Verlaufsmethode ・ Durchschnittliche Belohnung ・ Rabattbelohnungssumme

Übung 1)

output_28_0.png

Übung 2)

output_30_0.png


Recommended Posts

Deep Learning Kurs, der vor Ort zerquetscht werden kann
Übersicht und nützliche Funktionen von Scikit-Learn, die auch für Deep Learning verwendet werden können
<Kurs> Tiefes Lernen: Day2 CNN
<Kurs> Tiefes Lernen: Tag 1 NN
Erklären und bewegen Sie das SMIS-Modell, das durch tiefes Lernen "Kleidung virtuell anprobieren" kann
Bestätigung, dass rkhunter installiert werden kann
[Windows Edition] Keras-Kurs, eine Bibliothek, in der Sie Deep Learning sofort ausprobieren können - Teil 1
Python-Standardmodul, das in der Befehlszeile verwendet werden kann
Blenden Sie die Warnung aus, dass zsh auf dem Mac standardmäßig verwendet werden kann
Anfänger des maschinellen Lernens nehmen an Courseras Deep Learning-Kurs teil
Zusammenfassender Hinweis zu Deep Learning -4.2 Verlustfunktion-
<Kurs> Deep Learning Day4 Stärkung des Lernens / Tensorflusses
Beschleunigen Sie Deep Learning mit der Rasperry Pi 4-CPU
Zusammenfassende Anmerkung zu Deep Learning -4.3 Gradientenmethode-
[Hackason] Über das Erstellen eines Werkzeugs, das auf Raspberry Pi gedruckt werden kann [Praktisches Werkzeug]
Tiefes Lernen
Kann maschinelles Lernen parallele Vierecke vorhersagen? (1) Kann es extern eingefügt werden?
Dateitypen, die mit Go verwendet werden können
Funktionen, die in der for-Anweisung verwendet werden können
GitHub des guten Buches "Deep Learning von Grund auf neu"
Erstellen von Sphinx, das mit Markdown geschrieben werden kann
Listen Sie Pakete auf, die mit pip aktualisiert werden können
Einführung des Befehls "Glances", eines auf einen Blick verständlichen Überwachungstools, auf den Mac
Einführung des automatischen Bildersammlungspakets "icrawler" (0.6.3), das beim maschinellen Lernen verwendet werden kann
So filtern Sie die externen Schlüssel, die auf dem Django-Verwaltungsbildschirm ausgewählt werden können