[PYTHON] [Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)

thème

Le 6ème projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "Prix de la maison" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part. La préparation a été achevée la dernière fois, et elle est enfin au stade de l'analyse.

Le travail d'aujourd'hui

Transformation de la distribution de la variable objective

Vérifiez la répartition du SalePrice (prix de la maison) dans les données de formation. Il a été constaté que la plupart des maisons n'ont pas de piscine au moment de combler le manque. Cela signifie qu'il y a des hôtels particuliers qui ont des piscines à l'envers, et la répartition des prix des logements peut être assez faussée. Est assumé.

Je rappelle qu'il est important de dessiner sur la base d'une telle construction temporaire. Cependant, tout d'abord, le graphique est produit comme il est dit.

sns.distplot(train['SalePrice'])

À propos de Seaborn

"Qu'est-ce que sns?" Je l'ai oublié après le début, mais c'était dans la bibliothèque que j'importais en premier. Cette.

import seaborn as sns

Je vois seaborn

Vérifiez ce qu'il y avait dans le train ['Sale Price']

Après cela, juste au cas où, vérifiez le contenu dans le train ['Prix de vente']. Je vois, les rangées où chacun est aligné. スクリーンショット 2020-06-29 12.07.02.png

Graphique de sortie

Et le graphique de sortie ressemble à ceci.

sns.distplot(train['SalePrice'])

image.png

Conversion de journal

Comme prévu, la base de la distribution s'étend à l'extrême droite. En effectuant une conversion logarithmique, il se rapproche d'une distribution normale.

Cependant, confirmation de "qu'est-ce que la conversion logarithmique?"

sns.distplot(np.log(train['SalePrice']))

Modifications du tableau avant et après la conversion logarithmique

Je vais en sortir beaucoup.

np.log(train['SalePrice'])

Je vois, c'est écrasé. スクリーンショット 2020-06-29 12.17.28.png

Graphique de sortie partie 2

sns.distplot(np.log(train['SalePrice']))

image.png

Je pense qu'il a une distribution assez normale.

Construire un modèle prédictif

Je voulais entrer, mais apparemment ça sent que le temps est écoulé, donc c'est tout pour aujourd'hui.

Comme le nombre de variables est assez important cette fois, nous voulons appliquer une forte pénalité au coefficient, nous allons donc construire un modèle de prédiction utilisant la régression Lasso.

Après la préparation, j'ai étudié la régression Lasso et j'ai terminé.

Régression au lasso

C'est tout.

Après être entré dans la couche d'analyse, j'ai réalisé qu'il était nécessaire de compléter les connaissances de base. Principalement sur l'analyse de régression.

Recommended Posts

[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (6ème: Conversion de la distribution des variables objectives)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des maisons" de kaggle (5ème: Dummy of categorical variables)
[Pratique pour les débutants] Lisez ligne par ligne «Prédiction des prix des logements» de kaggle (7e: Préparation à la création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des logements" de kaggle (Partie 2: Confirmation des valeurs manquantes)
[Pratique pour les débutants] Lisez ligne par ligne "Prédire les prix des logements" de kaggle (Partie 3: Se préparer à remplir les valeurs manquantes)
[Pratique pour les débutants] Lire ligne par ligne "Prédiction des prix des logements" de kaggle (8e: Création d'un modèle de prédiction)
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (4ème: Compléter les valeurs manquantes (terminé))
[Pratique pour les débutants] Lire ligne par ligne "Prédire les prix des maisons" de kaggle (Partie 1: Lire les données)