[PYTHON] Transformation de Box Cox et algorithme de bois

Un de mes amis qui étudie l'apprentissage automatique travaille sur le prix de l'immobilier de Kaggle. **> Conversion Box-cox **

Je parlais de ça! Cela a amélioré la précision!

https://sonaeru-blog.com/kaggle-4/ Il semble qu'il se soit référé à l'article ci-dessus.

Qu'est-ce que la conversion Box-cox en premier lieu! !! J'ai pensé ainsi Notez ce que vous avez recherché.

L'ami dit

Je me demande si elle est similaire à la logarithmisation en ce sens qu'elle se rapproche d'une distribution normale.

Et cela.

Qu'est-ce que la conversion Box-cox? ??

Cet article a été très utile. https://gakushukun1.hatenablog.com/entry/2019/04/29/112424

formule

Avant et après la conversion

Considérez-le comme une version plus généralisée de la ** conversion de journal **. En fait, lorsque λ = 0, il s'agit d'une conversion logarithmique.

La conversion logarithmique a un pic à 0, ce qui est similaire à la figure ci-dessus. Si la base est beaucoup plus longue que la distribution normale, elle peut théoriquement être complètement remplacée par la distribution normale.

Dans le graphique supérieur réel, λ est plus proche de 0 que dans le graphique inférieur, donc Avec une distribution comme celle-ci, je pense qu'il n'y a presque pas de problème avec la régression linéaire même avec une transformation logarithmique. (D'une manière ou d'une autre, ma propre règle empirique jusqu'à présent. Mais si je la convertis en Box-cox, sera-t-elle plus précise?)

** Mais cela suppose un algorithme de régression linéaire en premier lieu! ** **

L'algorithme d'arbre de décision nécessite-t-il Box-cox?

En tant que personne qui souhaite élever le plus possible le classement en tant que Kaggler Personnellement, le plus important est le soi-disant «système en bois» comme les LGBM. En tant qu'ingénierie de quantité de caractéristiques des variables explicatives Est-il normal de penser que box_cox n'est pas nécessaire? Ou vaut-il mieux l'utiliser? ??

https://toukei-lab.com/box-cox%E5%A4%89%E6%8F%9B%E3%82%92%E7%94%A8%E3%81%84%E3%81%A6%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83%E3%81%AB%E5%BE%93%E3%82%8F%E3%81%AA%E3%81%84%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E8%A7%A3%E6%9E%90

Les méthodes d'apprentissage automatique récemment populaires sont appelées modèles non paramétriques. ＞ Beaucoup d'entre eux n'assument pas la distribution derrière.

D'après cet article, ce n'est pas nécessaire! !!

** "Les paramètres numériques ne peuvent être jugés que par la relation d'amplitude après tout" ** Je pense que c'est la raison.

Cependant, je ne pense pas que ce soit nécessairement le cas avec la variable objective. (En fait, la variable objective est souvent logarithmique) La raison est de réduire la pénalité du modèle pour quelques grandes valeurs aberrantes. Je comprends que.

Puis

Est-il possible de convertir la variable objective en BoxCock?

https://books.google.co.jp/books?id=t1a_DwAAQBAJ&pg=PA222&lpg=PA222&dq=%E7%9B%AE%E7%9A%84%E5%A4%89%E6%95%B0+boxcox&source=bl&ots=L7yjHQ6y6G&sig=ACfU3U3U1ugf0XhDVN_4fKAVnYe9xcFBSQ&hl=ja&sa=X&ved=2ahUKEwi2p_-itoLmAhXZA4gKHUutDmcQ6AEwBXoECAoQAQ#v=onepage&q=%E7%9B%AE%E7%9A%84%E5%A4%89%E6%95%B0%20boxcox&f=false Apparemment, il y en a. Mais cela signifie ne pas utiliser RMSE pour la fonction de coût, C'est probablement aussi, donc je pense que ce choix est plus intuitif. https://www.sciencedirect.com/science/article/abs/pii/S0031320396000775?via%3Dihub Ensuite, j'ai trouvé un article abstrait qui implémentait avec brio une fonction de coût qui transforme la variable objective en boxcox.

Je ne vois pas le contenu! Cependant, j'en ai un peu marre, alors je vais le laisser ici.

L'étude s'accumule

Cette fois, pour la première fois, j'ai cherché des mots inconnus et suis arrivé à une réponse dont j'étais satisfait. Ce fut une expérience très agréable de formuler une nouvelle hypothèse de question et d'en avoir un aperçu.

Cependant, je sentais que chacun était une pile de choses que je venais d'apprendre récemment.

・ Je sais beaucoup de choses sur les fonctions exponentielles (grâce à l'ancien temps) ・ Je connais la fonction β (c'est une session d'étude statistique) ・ Aucune conversion n'est requise pour le bois (cela a été dit par M. Watanabe hier) · La variable objective peut être transformée (ceci est souvent rencontré récemment) ・ RMSE suppose que la distribution des résidus est une distribution normale (cela a été fait en classe) · Les fonctions de coût peuvent être implémentées individuellement (c'est un Kaggle récent)

Je continuerai à faire de mon mieux.