Das 7. Projekt, um den Inhalt der praktischen Übungen zu notieren, bei denen jeder das berühmte Thema "Hauspreis" von Kaggle in Frage stellen wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo. Die Vorbereitung wurde letztes Mal abgeschlossen und befindet sich schließlich in der Analysephase.
#Teilen Sie die zusammengeführten Daten in Trainingsdaten und Testdaten
train_ = all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
test_ = all_data[all_data['WhatIsData']=='Test'].drop(['WhatIsData','SalePrice'], axis=1).reset_index(drop=True)
#Aufteilung innerhalb der Trainingsdaten
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
#Testdaten aufteilen
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)
Überprüfen Sie auf der Zugseite.
all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
Überprüfen Sie zunächst den Inhalt von all_data [all_data ['WhatIsData'] == 'Train']
. Es wird nur der Zug in all_data abgerufen.
all_data [all_data ['WhatIsData'] == 'Train']. Drop (['WhatIsData', 'Id'], axis = 1)
Inhaltsprüfung WhatIsData, Id wird aus der Spalte entfernt.
Überprüfen Sie den Inhalt von all_data [all_data ['WhatIsData'] == 'Train']. Drop (['WhatIsData', 'Id'], axis = 1)
. Index zurücksetzen (Wenn es sich um ein aufgenommenes Bild handelt, können Sie es nicht sehen, indem Sie einmal wechseln ...)
(Übrigens scheinen sowohl Zug als auch Test absichtlich ein Array erstellt zu haben ... Ich dachte, es wäre notwendig, das ganze Bild davon zu überprüfen.)
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
Bei train_x = train_.drop ('SalePrice', axis = 1)
werden andere Spalten als SalePrice als erklärende Variablen verwendet.
Bereiten Sie die Zielvariable mit "train_y = np.log (train_ ['SalePrice'])" vor. (Vergessen Sie nicht die letzte logarithmische Konvertierung)
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)
Siehst du es dir noch an? .. .. Wie erwartet wird hier die Bestätigung von test_id und test_data weggelassen.
Ich dachte, ich würde eintreten, aber ich werde von Dingen überwältigt, die ich nicht verstehe, also werde ich mein Bestes tun, um mich vorzubereiten, ohne einzutreten. Hauptsächlich Wortsuche.
StandardScaler () # scaling
make_pipeline (scaler, ls) #generate Pipeline
Geht es darum, zuerst alle diese Hausaufgaben zu lesen? Kann ich sagen, was ich dachte? Ich dachte, es sei "das Ende des Spiels", aber er sagte, dass alles, was er bisher getan habe, eine Vorverarbeitung sei.
Recommended Posts