[PYTHON] ■ Kaggle Practice for Beginners -House Sale Price (j'ai essayé d'utiliser PyCaret) -par Google Colaboratory

  1. Introduction I'd like to show how to use PyCaret thru House Sale Price Competition to introduce how easy to use this library. This introduction is only to show very basic flow, so if you want to improve your score on Kaggle, you need to add some procedures, such as preprocessing steps and modeling techniques.

  2. Setting for Google Colaboratory

Setup thru Google Colaboratory environment using these command below to activate connection with Kaggle.

from google.colab import files
files.upload()
!pip install kaggle
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 /root/.kaggle/kaggle.json

Copy and paste the API linked to datasets you want to download from Kaggle. Don't forget putting "!" mark into front of this command.

# This is an example of House SalePrice
!kaggle competitions download -c house-prices-advanced-regression-techniques
  1. Install PyCaret
!pip install pycaret
  1. Import Dataset
import numpy as np 
import pandas as pd 

train = pd.read_csv("/content/train.csv")
test = pd.read_csv("/content/test.csv")
train.head() 
  1. Setup PyCaret
from pycaret.regression import *
reg = setup(train, target='SalePrice', session_id= 0)   

session_id: int, default = None If None, a random seed is generated and returned in the Information grid. The unique number is then distributed as a seed in all functions used during the experiment. This can be used for later reproducibility of the entire experiment.

  1. Compare Models

Compare Models compare_models(blacklist = None, fold = 10, round = 4, sort = ‘R2’, turbo = True) This function uses all models in the model library and scores them using K-fold Cross Validation. The output prints a score grid that shows MAE, MSE, RMSE, R2, RMSLE and MAPE by fold (default CV = 10 Folds) of all the available models in model library.

['tr'] Thielsen Regressor required long training time, so I removed the method this time. ['lar'] Least Angle Regression showed too large amount of MAE, so I omitted this time.

compare_models(blacklist=['tr', 'lar'])

image.png

6.Create Models

llar1 = create_model('llar', verbose=False)
  1. Predictions
predict_model(llar1)
predictions_llar1 = predict_model(llar1, data=test)
test_ID = test['Id']
predictions_llar_Label = predictions_llar1['Label']
my_submission = pd.DataFrame()
my_submission["Id"] = test_ID
my_submission["SalePrice"] = predictions_llar_Label
my_submission.to_csv('submission_llar.csv', index=False)
  1. Submission Copy and paste the API linked to submission page you want to submit to Kaggle. Don't forget putting "!" mark into front of this command.

# Submission to Kaggle
!kaggle competitions submit -c house-prices-advanced-regression-techniques -f submission_llar.csv -m "Message" 

References: LINKS

Recommended Posts

■ Kaggle Practice for Beginners -House Sale Price (j'ai essayé d'utiliser PyCaret) -par Google Colaboratory
■ Kaggle Practice pour les débutants - Introduction de Python - par Google Colaboratory
[Pour les débutants] J'ai essayé d'utiliser l'API Tensorflow Object Detection
[Kaggle] J'ai essayé le sous-échantillonnage en utilisant un apprentissage déséquilibré
J'ai essayé d'utiliser GLM (modèle linéaire généralisé) pour les données de prix des actions
[Kaggle] J'ai essayé l'apprentissage d'ensemble avec LightGBM
Calcul des premiers principes gratuitement à l'aide de Google Colaboratory
vprof - J'ai essayé d'utiliser le profileur pour Python
J'ai essayé d'utiliser l'API Google Cloud Vision
J'ai essayé d'utiliser Firebase pour le serveur de cache de Django
J'ai essayé d'utiliser google test et CMake en C
Comment analyser avec Google Colaboratory à l'aide de l'API Kaggle
J'ai essayé d'accéder aux feuilles de calcul Google en utilisant Python
J'ai essayé d'utiliser la méthode Seaborn fréquemment utilisée avec le moins d'arguments possible [pour les débutants]
J'ai essayé d'utiliser argparse
J'ai essayé d'utiliser anytree
J'ai essayé d'utiliser aiomysql
J'ai essayé d'utiliser Summpy
J'ai essayé d'utiliser coturn
J'ai essayé d'utiliser "Anvil".
J'ai essayé d'utiliser Hubot
J'ai essayé d'utiliser ESPCN
J'ai essayé d'utiliser openpyxl
J'ai essayé d'utiliser Ipython
J'ai essayé d'utiliser PyCaret
J'ai essayé d'utiliser cron
J'ai essayé d'utiliser ngrok
J'ai essayé d'utiliser face_recognition
J'ai essayé d'utiliser Jupyter
Kaggle ~ Prévision de prix de l'immobilier ② ~
J'ai essayé d'utiliser doctest
J'ai essayé d'utiliser du folium
J'ai essayé d'utiliser jinja2
J'ai essayé d'utiliser du folium
J'ai essayé d'utiliser la fenêtre de temps
J'ai essayé d'utiliser Tensorboard, un outil de visualisation pour l'apprentissage automatique
[Python scraping] J'ai essayé la recherche Google Top10 en utilisant Beautifulsoup et sélénium
Notes diverses sur l'utilisation de python pour les projets
J'ai essayé l'API Google Cloud Vision pour la première fois
[Python] Les principales faiblesses et inconvénients de Google Colaboratory [Pour les débutants]