select_max_ucb_child()
Eine Methode, die den untergeordneten Knoten auswählt, der den Wert der folgenden Formel maximiert, die in Kapitel 4 angezeigt wird, den sogenannten UCB-Wert.
St ist der aktuelle Zustand des Knotens, dh die Phase.
a ist ein Kandidatenzug.
Q (St, a) ist der Erwartungswertterm. Stellt den Aktionswert der Aktion a im Status St. dar. In diesem Buch wird die Gesamtgewinnrate des untergeordneten Knotens a durch die Anzahl der Besuche des untergeordneten Knotens a geteilt.
U (St, a) ist ein Bonusgegenstand. Die Hand mit der geringeren Anzahl von Suchen wird bevorzugt ausgewählt. Zusätzlich wird auch die Wahrscheinlichkeit der Bewegung P (s, a) verwendet, die aus dem Richtliniennetzwerk erhalten wird, so dass vielversprechende Bewegungen bevorzugt gesucht werden.
Cpuct: Eine Konstante, die das Gewicht der Bonuslaufzeit anpasst. P (s, a): Voraussichtliche Startwahrscheinlichkeit des Richtliniennetzwerks. N (s, a): Die Anzahl der Besuche von Aktion a in Zustand s. Im Buch ist es +1. Soll vermieden werden, dass der Nenner 0 wird, wenn die Anzahl der Besuche 0 beträgt? √ΣN (s, b): Anzahl der Besuche für alle Aktionen in Zustand s.
Recommended Posts