[PYTHON] Kaggle ~ Analyse du logement ③ ~ Part1

1.Tout d'abord

C'est la troisième fois que j'analyse le logement. Jusqu'à la dernière fois, le score était d'environ 0,17, et même si je changeais de modèle, il n'augmenterait plus.

Cette fois, le processus standard utilisant CRISP-DM a été utilisé.

Le processus d'analyse des données inclut KDD, qui se concentre davantage sur la partie analyse des données que CRISP-DM et CRIISP-DM en tant que processus standard (l'explication KDD est omise cette fois).

Le processus CRISP-DM se déroule dans l'ordre suivant: (1) compréhension métier → (2) compréhension des données → (3) préparation des données → (4) modélisation → (5) évaluation → (6) application. image.png Figure 1 CRISP-DM

Je voudrais vous présenter ce que j'ai pensé de ces choses. Puisqu'il s'agit de la partie 1, je vais l'introduire plusieurs fois.

2. Compréhension commerciale

Le défi de cette compétition est de prédire le prix de la maison. J'ai donc imaginé quels facteurs allaient affecter le prix d'une maison.

==================== L'imagination suivante ===================== ** Généralement "emplacement" Proche des zones urbaines et des gares, transport pratique, logement de luxe ** ** "Taille de la maison" Superficie du site, nombre d'étages, taille du bâtiment ** ** "Inclus" avec piscine, avec court de tennis, etc. ** ** Je pense que "nouvelle construction" ou "utilisé" est assez important (quel âge est important?) ** ** Je pense que la «qualité» est un facteur important pour les matériaux. ** **

C'est difficile à mentionner, mais je pense que c'est très important pour la prédiction.

3. Compréhension des données

Enfin, nous examinerons le contenu de kaggle

# 1-1.Lire les données
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_train.head()

Résultat de sortie

Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour Utilities ... PoolArea PoolQC Fence MiscFeature MiscVal MoSold YrSold SaleType SaleCondition SalePrice
0 1 60 RL 65.0 8450 Pave NaN Reg Lvl AllPub ... 0 NaN NaN NaN 0 2 2008 WD Normal 208500
1 2 20 RL 80.0 9600 Pave NaN Reg Lvl AllPub ... 0 NaN NaN NaN 0 5 2007 WD Normal 181500
2 3 60 RL 68.0 11250 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 9 2008 WD Normal 223500
3 4 70 RL 60.0 9550 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 2 2006 WD Abnorml 140000
4 5 60 RL 84.0 14260 Pave NaN IR1 Lvl AllPub ... 0 NaN NaN NaN 0 12 2008 WD Normal 250000
# 1-2.Confirmation de la structure des données
print(df_train.shape)
print(df_test.shape)
df_train.columns

Résultat de sortie (1460, 81) (1459, 80) Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street', 'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType', 'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1', 'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating', 'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual', 'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual', 'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC', 'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType', 'SaleCondition', 'SalePrice'], dtype='object')

** Il existe 80 variables explicatives. ** **

Cette fois, en raison des limitations d'espace, c'est tout. La prochaine fois, nous effectuerons enfin un prétraitement des données.

Recommended Posts

Kaggle ~ Analyse du logement ③ ~ Part1
Résumé de Kaggle: Redhat (partie 2)
Analyse des séries chronologiques partie 4 VAR
Analyse de séries chronologiques Partie 3 Prévisions
Wrap Analysis part1 (préparation des données)
Analyse de séries chronologiques Partie 1 Autocorrélation
Traitement de l'analyse japonaise à l'aide de Janome part1
Résumé de Kaggle: Analyse du panier de marché Instacart
Bibliothèque d'analyse de données multidimensionnelle xarray Partie 2
Analyse des séries chronologiques Partie 2 AR / MA / ARMA
[Python] Première analyse de données / apprentissage automatique (Kaggle)
Mémorandum Kaggle ~ PNL avec tweets de catastrophe, partie 1 ~
Kaggle: Introduction à l'ingénierie manuelle des fonctionnalités, partie 1