[PYTHON] [Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)

Thema

Das 7. Projekt, um den Inhalt der praktischen Übungen zu notieren, bei denen jeder das berühmte Thema "Hauspreis" von Kaggle in Frage stellen wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo. Die Vorbereitung wurde letztes Mal abgeschlossen und befindet sich schließlich in der Analysephase.

Die heutige Arbeit

Erstellen eines Vorhersagemodells

#Teilen Sie die zusammengeführten Daten in Trainingsdaten und Testdaten
train_ = all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
test_ = all_data[all_data['WhatIsData']=='Test'].drop(['WhatIsData','SalePrice'], axis=1).reset_index(drop=True)
#Aufteilung innerhalb der Trainingsdaten
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
#Testdaten aufteilen
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)

Teilen Sie die zusammengeführten Daten in Trainingsdaten und Testdaten

Überprüfen Sie auf der Zugseite.

all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)

Überprüfen Sie zunächst den Inhalt von all_data [all_data ['WhatIsData'] == 'Train']. Es wird nur der Zug in all_data abgerufen. スクリーンショット 2020-07-06 11.55.36.png

all_data [all_data ['WhatIsData'] == 'Train']. Drop (['WhatIsData', 'Id'], axis = 1) Inhaltsprüfung WhatIsData, Id wird aus der Spalte entfernt. スクリーンショット 2020-07-06 11.56.45.png

Überprüfen Sie den Inhalt von all_data [all_data ['WhatIsData'] == 'Train']. Drop (['WhatIsData', 'Id'], axis = 1). Index zurücksetzen (Wenn es sich um ein aufgenommenes Bild handelt, können Sie es nicht sehen, indem Sie einmal wechseln ...) スクリーンショット 2020-07-06 12.00.03.png

(Übrigens scheinen sowohl Zug als auch Test absichtlich ein Array erstellt zu haben ... Ich dachte, es wäre notwendig, das ganze Bild davon zu überprüfen.)

Aufteilung innerhalb der Trainingsdaten

train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])

Bei train_x = train_.drop ('SalePrice', axis = 1) werden andere Spalten als SalePrice als erklärende Variablen verwendet.

Bereiten Sie die Zielvariable mit "train_y = np.log (train_ ['SalePrice'])" vor. (Vergessen Sie nicht die letzte logarithmische Konvertierung)

Testdaten aufteilen

test_id = test_['Id']
test_data = test_.drop('Id',axis=1)

Siehst du es dir noch an? .. .. Wie erwartet wird hier die Bestätigung von test_id und test_data weggelassen.

Erstellen eines Vorhersagemodells

Ich dachte, ich würde eintreten, aber ich werde von Dingen überwältigt, die ich nicht verstehe, also werde ich mein Bestes tun, um mich vorzubereiten, ohne einzutreten. Hauptsächlich Wortsuche.

StandardScaler () # scaling

"[0,001, 0,01, 0,1, 1,0, 10,0, 100,0, 1000,0] #Parametergitter"

make_pipeline (scaler, ls) #generate Pipeline

Das ist es.

Geht es darum, zuerst alle diese Hausaufgaben zu lesen? Kann ich sagen, was ich dachte? Ich dachte, es sei "das Ende des Spiels", aber er sagte, dass alles, was er bisher getan habe, eine Vorverarbeitung sei.

Recommended Posts

[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)
[Praktisch für Anfänger] Lesen Sie zaggles "Vorhersage der Eigenheimpreise" Zeile für Zeile (8. Erstellen eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (5. Dummy von kategorialen Variablen)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)
[Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)