select_max_ucb_child() Eine Methode, die den untergeordneten Knoten auswählt, der den Wert der folgenden Formel maximiert, die in Kapitel 4 angezeigt wird, den sogenannten UCB-Wert. St ist der aktuelle Zustand des Knotens, dh die Phase. a ist ein Kandidatenzug. Q (St, a) ist der Erwartungswertterm. Stellt den Aktionswert der Aktion a im Status St. dar. In diesem Buch wird die Gesamtgewinnrate des untergeordneten Knotens a durch die Anzahl der Besuche des untergeordneten Knotens a geteilt. U (St, a) ist ein Bonusgegenstand. Die Hand mit der geringeren Anzahl von Suchen wird bevorzugt ausgewählt. Zusätzlich wird auch die Wahrscheinlichkeit der Bewegung P (s, a) verwendet, die aus dem Richtliniennetzwerk erhalten wird, so dass vielversprechende Bewegungen bevorzugt gesucht werden.
Cpuct: Eine Konstante, die das Gewicht der Bonuslaufzeit anpasst. P (s, a): Voraussichtliche Startwahrscheinlichkeit des Richtliniennetzwerks. N (s, a): Die Anzahl der Besuche von Aktion a in Zustand s. Im Buch ist es +1. Soll vermieden werden, dass der Nenner 0 wird, wenn die Anzahl der Besuche 0 beträgt? √ΣN (s, b): Anzahl der Besuche für alle Aktionen in Zustand s.
Recommended Posts