Thema

Das sechste Projekt, um den Inhalt des Hands-ons zu notieren, dass jeder das berühmte Thema "Hauspreis" -Problem von Kaggle herausfordern wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo. Die Vorbereitung wurde letztes Mal abgeschlossen und befindet sich schließlich in der Analysephase.

Ursprüngliches Thema: https://www.kaggle.com/c/house-prices-advanced-regression-techniques
Referenzierter Artikel: https://yolo-kiyoshi.com/2018/12/17/post-1003/

Die heutige Arbeit

Verteilungstransformation der Zielvariablen

Zielvariable: Junioren sagen "Y" → ich "..."
Zielvariable: http://www.gen-info.osaka-u.ac.jp/testdocs/tomocom/express/express8.html

Überprüfen Sie die Verteilung von SalePrice (Hauspreis) in den Trainingsdaten. Es wurde festgestellt, dass die meisten Häuser zum Zeitpunkt des Ausfüllens des Mangels keinen Pool haben. Dies bedeutet, dass es einige Villen gibt, die Pools auf der anderen Seite haben, und die Verteilung der Immobilienpreise kann ziemlich verzerrt sein. Wird angenommen.

Ich erinnere mich, dass es wichtig ist, auf der Grundlage einer solchen temporären Konstruktion zu zeichnen. Zunächst wird der Graph jedoch wie gesagt ausgegeben.

sns.distplot(train['SalePrice'])

Über Seaborn

"Was ist sns?" Ich habe es nach dem Anfang vergessen, aber es war in der Bibliothek, die ich zuerst importierte. Dies.

import seaborn as sns

Ich sehe Seaborn

seaborn: Anscheinend eine Bibliothek zum Zeichnen von Grafiken.
Siehe Seaborn: https://qiita.com/hik0107/items/3dc541158fceb3156ee0
distplot: Eine Methode zum Zeichnen eines Histogramms mit Seaborn.

Überprüfen Sie, was im Zug war ['Verkaufspreis']

Überprüfen Sie danach für alle Fälle den Inhalt im Zug ['Verkaufspreis']. Ich sehe, die Reihen, in denen jeder aufgereiht ist. スクリーンショット 2020-06-29 12.07.02.png

Ausgabediagramm

Und das Ausgabediagramm sieht so aus.

sns.distplot(train['SalePrice'])

Protokollkonvertierung

Wie erwartet erstreckt sich die Basis der Verteilung ganz nach rechts. Durch logarithmische Konvertierung wird eine Normalverteilung erreicht.

Bestätigung von "Was ist logarithmische Konvertierung?"

Siehe logarithmische Konvertierung: https://atarimae.biz/archives/13161#:~:text=%E5%AF%BE%E6%95%B0%E5%A4%89%E6%8F%9B%E3%81 % A8% E3% 81% AF% E3% 80% 81% E3% 80% 8C% E5% AF% BE% E6% 95% B0,% E3% 81% 99% E3% 82% 8B% E3% 81% 93% E3% 81% A8% E3% 82% 92% E6% 8C% 87% E3% 81% 97% E3% 81% BE% E3% 81% 99% E3% 80% 82 & Text =% E5% 85% B7 % E4% BD% 93% E7% 9A% 84% E3% 81% AB% E3% 80% 81% E8% AA% AC% E6% 98% 8E% E5% A4% 89% E6% 95% B0,% E8% 80% 83% E3% 81% 88% E3% 81% A6% E3% 81% BF% E3% 81% BE% E3% 81% 97% E3% 82% 87% E3% 81% 86% E3% 80% 82

sns.distplot(np.log(train['SalePrice']))

Änderungen im Array vor und nach der logarithmischen Konvertierung

Ich werde so viel ausgeben.

np.log(train['SalePrice'])

Ich sehe, es ist zerquetscht. スクリーンショット 2020-06-29 12.17.28.png

Ausgabediagramm Teil 2

sns.distplot(np.log(train['SalePrice']))

Ich habe das Gefühl, dass es eine ziemlich normale Verteilung hat.

Erstellen eines Vorhersagemodells

Ich wollte eintreten, aber anscheinend riecht es, als wäre die Zeit abgelaufen, also ist es das für heute.

Da die Anzahl der Variablen diesmal ziemlich groß ist, möchten wir den Koeffizienten stark einschränken, sodass wir ein Vorhersagemodell unter Verwendung der Lasso-Regression erstellen.

Nach der Vorbereitung untersuchte ich die Lasso-Regression und beendete.

Lasso-Regression

Siehe Lasso-Regression: https://aizine.ai/ridge-lasso-elasticnet/

Das ist es.

Nachdem ich die Analyseebene betreten hatte, wurde mir klar, dass es notwendig war, das Hintergrundwissen zu ergänzen. Hauptsächlich über Regressionsanalyse.

[PYTHON] [Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)