Dies ist das dritte Mal, dass ich Wohnraum analysiert habe. Bis zum letzten Mal lag die Punktzahl bei 0,17, und selbst wenn ich das Modell ändern würde, würde es nicht mehr wachsen.
Diesmal wurde das Standardverfahren mit CRISP-DM verwendet.
Der Datenanalyseprozess umfasst KDD, das sich mehr auf den Datenanalyseteil als auf CRISP-DM und CRIISP-DM als Standardprozesse konzentriert (die KDD-Erklärung wird diesmal weggelassen).
Der CRISP-DM-Prozess läuft in der folgenden Reihenfolge ab: (1) Geschäftsverständnis → (2) Datenverständnis → (3) Datenaufbereitung → (4) Modellierung → (5) Bewertung → (6) Anwendung. Abbildung 1 CRISP-DM
Ich möchte vorstellen, was ich über diese Dinge gedacht habe. Da es Teil 1 ist, werde ich es mehrmals vorstellen.
Die Herausforderung bei diesem Wettbewerb besteht darin, den Preis des Hauses vorherzusagen. Also stellte ich mir vor, welche Faktoren den Preis eines Hauses beeinflussen würden.
=================== Die folgende Vorstellung ==================== ** Im Allgemeinen "Lage" In der Nähe von städtischen Gebieten und Bahnhöfen, bequemen Transport, Luxuswohnungen ** ** "Hausgröße" Grundstücksfläche, Anzahl der Stockwerke, Gebäudegröße ** ** "Inklusive" mit Pool, Tennisplatz usw. ** ** Ich halte "Neubau" oder "Gebraucht" für ziemlich wichtig (wie alt ist wichtig?) ** ** Ich denke, dass "Qualität" ein wichtiger Faktor für Materialien ist. ** ** **
Schließlich werden wir uns den Inhalt von kaggle ansehen
# 1-1.Daten lesen
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_train.head()
Ausgabeergebnis
Id | MSSubClass | MSZoning | LotFrontage | LotArea | Street | Alley | LotShape | LandContour | Utilities | ... | PoolArea | PoolQC | Fence | MiscFeature | MiscVal | MoSold | YrSold | SaleType | SaleCondition | SalePrice | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 60 | RL | 65.0 | 8450 | Pave | NaN | Reg | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 2 | 2008 | WD | Normal | 208500 |
1 | 2 | 20 | RL | 80.0 | 9600 | Pave | NaN | Reg | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 5 | 2007 | WD | Normal | 181500 |
2 | 3 | 60 | RL | 68.0 | 11250 | Pave | NaN | IR1 | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 9 | 2008 | WD | Normal | 223500 |
3 | 4 | 70 | RL | 60.0 | 9550 | Pave | NaN | IR1 | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 2 | 2006 | WD | Abnorml | 140000 |
4 | 5 | 60 | RL | 84.0 | 14260 | Pave | NaN | IR1 | Lvl | AllPub | ... | 0 | NaN | NaN | NaN | 0 | 12 | 2008 | WD | Normal | 250000 |
# 1-2.Bestätigung der Datenstruktur
print(df_train.shape)
print(df_test.shape)
df_train.columns
Ausgabeergebnis (1460, 81) (1459, 80) Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street', 'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType', 'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1', 'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating', 'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual', 'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual', 'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC', 'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType', 'SaleCondition', 'SalePrice'], dtype='object')
** Es gibt 80 erklärende Variablen. ** ** **
Diesmal ist das aus Platzgründen alles. Nächstes Mal werden wir endlich die Datenvorverarbeitung durchführen.
Recommended Posts