Python-Lernnotiz für maschinelles Lernen von Chainer Kapitel 9 Einführung in das Scikit-Lernen

What

Dies ist ein Artikel, der zusammenfasst, was mir aufgefallen ist und was ich beim Erlernen des maschinellen Lernens mit Chainer untersucht habe. Dieses Mal werde ich Scicit-Learn studieren.

Es wurde nach meinem Verständnis geschrieben, daher kann es falsch sein. Ich werde alle Fehler korrigieren, bitte vergib mir.

Content

scikit-learn ** Es scheint, dass Sie Ihr Modell trainieren können, wenn Sie diese Bibliothek beherrschen. ** **. Modelltraining? ?? Was? Es fühlt sich an wie, aber können Sie verstehen, wenn Sie weiterlesen? Datensatz für das Training? Wie

Wir verwenden einen Datensatz namens Bostoner Immobilienpreisdatensatz, der erstellt wird, indem Informationen wie Informationen zum Lebensumfeld für jede Region von 506 in Boston, USA, und Informationen zur Durchschnittsmiete gesammelt werden. * *

Ich werde es versuchen. Es scheint, dass der mittlere Immobilienpreis aus dem 506-Beispieldatensatz vorhergesagt und mit dem tatsächlichen Medianwert verglichen wird.

Vorbereitung von Trainingsdaten und Testdaten

In der Situation, in der Daten aus dem Bostoner Immobilienpreisdatensatz angegeben werden, werden die Daten von 506 Stichproben optimiert, wenn alle diese Daten für das Training verwendet werden (= Modelloptimierung), und sie sind dem Modell tatsächlich unbekannt. Wenn Sie versuchen, Daten anzugeben, macht das Training keinen Sinn, wenn es überhaupt nicht der tatsächlichen Situation entspricht. Da es sich um (Übertraining genannt) handelt, sollten einige Daten zur Überprüfung der Modellgültigkeit verwendet werden. ** Die zufällige Zuordnung von Daten für Training und Test wird als Holdout-Methode bezeichnet. ** **. Kann mit einer der folgenden Funktionen aufgeteilt werden

#Aufteilung in Trainings- und Testdatensätze
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.3, random_state=0)

Es scheint, dass Methoden zur Verhinderung von Überlernen Gegenstand akademischer Forschung geworden sind. In dieser Bibliothek können Daten so vorverarbeitet werden, dass der Durchschnittswert des Datensatzes 0 und die Verteilung 1 beträgt.

Der Fluss von der Datenvorverarbeitung zur multiplen Regressionsanalyse und -auswertung mit einer Entscheidungsfunktion ist Sie können die Verarbeitung über eine Pipeline integrieren

Comment Ich lerne hart, also dachte ich, ich wollte etwas machen Ich habe einen Wettbewerb namens Deep Racer gespielt. Ich wollte im AWS Deep Racer erscheinen.