[PYTHON] Kaggle ~ Gehäuseanalyse Part ~ Teil1

1. Zuallererst

Dies ist das dritte Mal, dass ich Wohnraum analysiert habe. Bis zum letzten Mal lag die Punktzahl bei 0,17, und selbst wenn ich das Modell ändern würde, würde es nicht mehr wachsen.

Diesmal wurde das Standardverfahren mit CRISP-DM verwendet.

Der Datenanalyseprozess umfasst KDD, das sich mehr auf den Datenanalyseteil als auf CRISP-DM und CRIISP-DM als Standardprozesse konzentriert (die KDD-Erklärung wird diesmal weggelassen).

Der CRISP-DM-Prozess läuft in der folgenden Reihenfolge ab: (1) Geschäftsverständnis → (2) Datenverständnis → (3) Datenaufbereitung → (4) Modellierung → (5) Bewertung → (6) Anwendung. image.png Abbildung 1 CRISP-DM

Ich möchte vorstellen, was ich über diese Dinge gedacht habe. Da es Teil 1 ist, werde ich es mehrmals vorstellen.

2. Geschäftsverständnis

Die Herausforderung bei diesem Wettbewerb besteht darin, den Preis des Hauses vorherzusagen. Also stellte ich mir vor, welche Faktoren den Preis eines Hauses beeinflussen würden.

=================== Die folgende Vorstellung ==================== ** Im Allgemeinen "Lage" In der Nähe von städtischen Gebieten und Bahnhöfen, bequemen Transport, Luxuswohnungen ** ** "Hausgröße" Grundstücksfläche, Anzahl der Stockwerke, Gebäudegröße ** ** "Inklusive" mit Pool, Tennisplatz usw. ** ** Ich halte "Neubau" oder "Gebraucht" für ziemlich wichtig (wie alt ist wichtig?) ** ** Ich denke, dass "Qualität" ein wichtiger Faktor für Materialien ist. ** ** **

Es ist schwer zu erwähnen, aber ich denke, es ist sehr wichtig für die Vorhersage.

3. Datenverständnis

Schließlich werden wir uns den Inhalt von kaggle ansehen

# 1-1.Daten lesen
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_train.head()

Ausgabeergebnis

Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour Utilities ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold YrSold SaleType SaleCondition SalePrice
0 1 60 RL 65.0 8450 Pave NaN Reg Lvl AllPub ... 0 NaN NaN NaN 0 2 2008 WD Normal 208500
1 2 20 RL 80.0 9600 Pave NaN Reg Lvl AllPub ... 0 NaN NaN NaN 0 5 2007 WD Normal 181500
2 3 60 RL 68.0 11250 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 9 2008 WD Normal 223500
3 4 70 RL 60.0 9550 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 2 2006 WD Abnorml 140000
4 5 60 RL 84.0 14260 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 12 2008 WD Normal 250000
# 1-2.Bestätigung der Datenstruktur
print(df_train.shape)
print(df_test.shape)
df_train.columns

Ausgabeergebnis (1460, 81) (1459, 80) Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street', 'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType', 'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1', 'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating', 'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual', 'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual', 'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC', 'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType', 'SaleCondition', 'SalePrice'], dtype='object')

** Es gibt 80 erklärende Variablen. ** ** **

Diesmal ist das aus Platzgründen alles. Nächstes Mal werden wir endlich die Datenvorverarbeitung durchführen.

Recommended Posts

Kaggle ~ Gehäuseanalyse Part ~ Teil1
Kaggle Zusammenfassung: Redhat (Teil 2)
Zeitreihenanalyse Teil 4 VAR
Zeitreihenanalyse Teil 3 Prognose
Wrap-Analyse Teil1 (Datenaufbereitung)
Zeitreihenanalyse Teil 1 Autokorrelation
Japanische Analyseverarbeitung mit Janome Teil1
Kaggle Zusammenfassung: Instacart Market Basket Analyse
Mehrdimensionale Datenanalysebibliothek xarray Teil 2
Zeitreihenanalyse Teil 2 AR / MA / ARMA
[Python] Erste Datenanalyse / maschinelles Lernen (Kaggle)
Kaggle Memorandum ~ NLP mit Katastrophen-Tweets Teil 1 ~
Kaggle: Einführung in das manuelle Feature Engineering Teil 1