Was ist zufälliger Wald?

Random Forest ist ein Ensemble-Algorithmus, der häufig beim maschinellen Lernen verwendet wird. Dies ist eine Ensemble-Lernmethode, die die Genauigkeit verbessert, indem das überwachte Lernmodell ** Entscheidungsbaum ** kombiniert wird. Wie in der folgenden Abbildung gezeigt, wird es als zufälliger Wald bezeichnet, da es eine waldähnliche Struktur aufweist, die die Ergebnisse mehrerer Bäume kombiniert. Eines der Merkmale des Entscheidungsbaums ist, dass es leicht zu überlernen ist **. Zufällige Wälder können die Auswirkungen von Übertraining auf diesen Entscheidungsbaum verringern.

Zufälliger Waldalgorithmus

Wählen Sie zufällig k Merkmale aus einem Beispieldatensatz mit m Merkmalen aus.
Erstellen Sie einen Entscheidungsbaum mit k Funktionen.
Wiederholen Sie die Schritte 1 und 2 n Mal, während Sie die Kombination der Merkmalsgrößen ändern (oder die verwendete Teilmenge zufällig ändern ** Boosttrap reichlich **), um n Entscheidungsbäume zu erstellen.
Im Klassifizierungsproblem wird der häufigste Wert der Ergebnisse aller Entscheidungsbäume ausgegeben, und im Regressionsproblem wird der Durchschnittswert der Ergebnisse aller Entscheidungsbäume als Endergebnis ausgegeben.

Random Forest Vor- und Nachteile

Vorteile

Kann sowohl für die Regression als auch für die Klassifizierung verwendet werden.
Die Auswirkungen des Überlernens können reduziert werden.
Es ist unwahrscheinlich, dass das Modell von geringfügigen Schwankungen der Eingabedaten beeinflusst wird.

Nachteile

Übermäßiges Lernen mit zu verrauschten Daten. -Komplizierte Berechnung als der Entscheidungsbaum.
Die Berechnungszeit ist lang.

Scikit-Learn Random Forest

import sklearn.ensemble
rf = sklearn.ensemble.RandomForestClassifier()
rf.fit(train_X, train_y)

RandomForest-Parameter

Parameter-	Überblick	Möglichkeit	Standard
criterion	Kriterien teilen	"gini", "entropy"	"gini"
splitter	Split-Auswahlstrategie	"best", "random"	"best"
max_depth	Die tiefste Tiefe des Baumes	int	None
min_samples_split	Minimale Stichprobengröße des Post-Split-Knotens(Wenn es klein ist, neigt es dazu, überlernt zu werden.)	int(Anzahl von Beispielen)/float(Verhältnis zu allen Proben)	2
min_samples_leaf	Blatt(Letzter Knoten)Mindeststichprobengröße erforderlich für(Wenn es klein ist, neigt es dazu, überlernt zu werden.)	int/float	2
max_features	Anzahl der für die Teilung verwendeten Merkmale(Größere neigen dazu, zu viel zu lernen)	int/float, auto, log2	None
class_weight	Klassengewicht	"balanced", none	none
presort	Vorsortierung von Daten(Die Berechnungsgeschwindigkeit ändert sich je nach Datengröße)	bool	False
min_impurity_decrease	Begrenzen Sie die Unreinheit und die Dehnung des Kontrollknotens	float	0.
boostrap	Gibt an, ob beim Erstellen eines Entscheidungsbaums eine Teilmenge von Beispielen verwendet werden soll	bool	1
oob_score	Gibt an, ob Beispiele verwendet werden sollen, die nicht im Bootstrap zur Genauigkeitsbewertung verwendet werden	bool	False
n_jobs	Gibt an, ob der Prozessor mit Predict and Fit parallelisiert werden soll(-1)Verwenden Sie alle gleichzeitig	0,1,-1	0
random_state	Samen, der beim Generieren von Zufallszahlen verwendet wird	int	none
verbose	Verbalisierung der Ergebnisse	1/0	0

[PYTHON] [Maschinelles Lernen] Versuchen Sie, zufällige Wälder zu studieren