[PYTHON] ■ Kaggle-Übung für Anfänger - Hausverkaufspreis (ich habe versucht, PyCaret zu verwenden) - von Google Colaboratory

  1. Introduction I'd like to show how to use PyCaret thru House Sale Price Competition to introduce how easy to use this library. This introduction is only to show very basic flow, so if you want to improve your score on Kaggle, you need to add some procedures, such as preprocessing steps and modeling techniques.

  2. Setting for Google Colaboratory

Setup thru Google Colaboratory environment using these command below to activate connection with Kaggle.

from google.colab import files
files.upload()
!pip install kaggle
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 /root/.kaggle/kaggle.json

Copy and paste the API linked to datasets you want to download from Kaggle. Don't forget putting "!" mark into front of this command.

# This is an example of House SalePrice
!kaggle competitions download -c house-prices-advanced-regression-techniques
  1. Install PyCaret
!pip install pycaret
  1. Import Dataset
import numpy as np 
import pandas as pd 

train = pd.read_csv("/content/train.csv")
test = pd.read_csv("/content/test.csv")
train.head() 
  1. Setup PyCaret
from pycaret.regression import *
reg = setup(train, target='SalePrice', session_id= 0)   

session_id: int, default = None If None, a random seed is generated and returned in the Information grid. The unique number is then distributed as a seed in all functions used during the experiment. This can be used for later reproducibility of the entire experiment.

  1. Compare Models

Compare Models compare_models(blacklist = None, fold = 10, round = 4, sort = ‘R2’, turbo = True) This function uses all models in the model library and scores them using K-fold Cross Validation. The output prints a score grid that shows MAE, MSE, RMSE, R2, RMSLE and MAPE by fold (default CV = 10 Folds) of all the available models in model library.

['tr'] Thielsen Regressor required long training time, so I removed the method this time. ['lar'] Least Angle Regression showed too large amount of MAE, so I omitted this time.

compare_models(blacklist=['tr', 'lar'])

image.png

6.Create Models

llar1 = create_model('llar', verbose=False)
  1. Predictions
predict_model(llar1)
predictions_llar1 = predict_model(llar1, data=test)
test_ID = test['Id']
predictions_llar_Label = predictions_llar1['Label']
my_submission = pd.DataFrame()
my_submission["Id"] = test_ID
my_submission["SalePrice"] = predictions_llar_Label
my_submission.to_csv('submission_llar.csv', index=False)
  1. Submission Copy and paste the API linked to submission page you want to submit to Kaggle. Don't forget putting "!" mark into front of this command.

# Submission to Kaggle
!kaggle competitions submit -c house-prices-advanced-regression-techniques -f submission_llar.csv -m "Message" 

References: LINKS

Recommended Posts

■ Kaggle-Übung für Anfänger - Hausverkaufspreis (ich habe versucht, PyCaret zu verwenden) - von Google Colaboratory
■ Kaggle-Übung für Anfänger - Einführung von Python - von Google Colaboratory
[Für Anfänger] Ich habe versucht, die Tensorflow-Objekterkennungs-API zu verwenden
[Kaggle] Ich habe versucht, mit unausgeglichenem Lernen zu unterabtasten
Ich habe versucht, GLM (Generalized Linear Model) für Aktienkursdaten zu verwenden
[Kaggle] Ich habe versucht, Ensemble mit LightGBM zu lernen
Kostenlose First-Principles-Berechnung mit Google Colaboratory
vprof - Ich habe versucht, den Profiler für Python zu verwenden
Ich habe versucht, die Google Cloud Vision-API zu verwenden
Ich habe versucht, Firebase für Djangos Cache-Server zu verwenden
Ich habe versucht, Google Test und CMake in C zu verwenden
Analysieren mit Google Colaboratory mithilfe der Kaggle-API
Ich habe versucht, mit Python auf Google Spread Sheets zuzugreifen
Ich habe versucht, die häufig verwendete Seaborn-Methode mit so wenig Argumenten wie möglich anzuwenden [für Anfänger]
Ich habe versucht, Argparse zu verwenden
Ich habe versucht, anytree zu verwenden
Ich habe versucht, aiomysql zu verwenden
Ich habe versucht, Summpy zu verwenden
Ich habe versucht, Coturn zu verwenden
Ich habe versucht, "Anvil" zu verwenden.
Ich habe versucht, Hubot zu verwenden
Ich habe versucht, ESPCN zu verwenden
Ich habe versucht, openpyxl zu verwenden
Ich habe versucht, Ipython zu verwenden
Ich habe versucht, PyCaret zu verwenden
Ich habe versucht, Cron zu verwenden
Ich habe versucht, ngrok zu verwenden
Ich habe versucht, face_recognition zu verwenden
Ich habe versucht, Jupyter zu verwenden
Kaggle ~ Home Preisprognose ② ~
Ich habe versucht, doctest zu verwenden
Ich habe versucht, Folium zu verwenden
Ich habe versucht, jinja2 zu verwenden
Ich habe versucht, Folium zu verwenden
Ich habe versucht, das Zeitfenster zu verwenden
Ich habe versucht, Tensorboard zu verwenden, ein Visualisierungstool für maschinelles Lernen
[Python Scraping] Ich habe versucht, Google Search Top10 mit Beautifulsoup & Selenium
Verschiedene Hinweise zur Verwendung von Python für Projekte
Ich habe die Google Cloud Vision-API zum ersten Mal ausprobiert
[Python] Die größten Schwächen und Nachteile von Google Colaboratory [Für Anfänger]