[PYTHON] Box Cox Transformation und Holzalgorithmus

Ein Freund eines Kollegen, der maschinelles Lernen studiert, steht auf Kaggles Hauspreisvergabe. **> Box-Cox-Umwandlung **

Ich habe darüber gesprochen! Das hat die Genauigkeit verbessert!

https://sonaeru-blog.com/kaggle-4/ Es scheint, dass er sich auf den obigen Artikel bezog.

Was ist Box-Cox-Konvertierung überhaupt? !! Ich dachte auch Notieren Sie sich, was Sie recherchiert haben.

Der Freund sagt

Ich frage mich, ob es der Logarithmisierung in dem Sinne ähnlich ist, dass es sich einer Normalverteilung nähert.

Und das.

Was ist eine Box-Cox-Konvertierung? ??

Dieser Artikel war sehr hilfreich. https://gakushukun1.hatenablog.com/entry/2019/04/29/112424

Formel

Vor und nach der Konvertierung

Stellen Sie sich das als eine allgemeinere Version der ** Protokollkonvertierung ** vor. Wenn λ = 0 ist, handelt es sich tatsächlich um eine logarithmische Umwandlung.

Die logarithmische Umwandlung hat einen Peak bei 0, der der obigen Abbildung ähnlich ist. Wenn die Basis viel länger als die Normalverteilung ist, kann sie theoretisch vollständig durch die Normalverteilung ersetzt werden.

Im tatsächlichen oberen Diagramm ist λ näher an 0 als im unteren Diagramm Bei einer solchen Verteilung gibt es meiner Meinung nach fast kein Problem mit der linearen Regression, selbst mit der logarithmischen Transformation. (Irgendwie meine eigene empirische Regel. Aber wenn ich sie in Box-Cox umwandle, wird sie dann genauer sein?)

** Dies setzt aber in erster Linie einen linearen Regressionsalgorithmus voraus! ** ** **

Benötigt der Entscheidungsbaumalgorithmus Box-Cox?

Als Person, die das Ranking als Kaggler so weit wie möglich verbessern will Persönlich ist das Wichtigste das sogenannte "Holzsystem" wie LGBM. Als Feature Quantity Engineering von erklärenden Variablen Ist es in Ordnung zu denken, dass box_cox unnötig ist? Oder ist es besser, es zu benutzen? ??

https://toukei-lab.com/box-cox%E5%A4%89%E6%8F%9B%E3%82%92%E7%94%A8%E3%81%84%E3%81%A6%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83%E3%81%AB%E5%BE%93%E3%82%8F%E3%81%AA%E3%81%84%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E8%A7%A3%E6%9E%90

＞ Viele von ihnen übernehmen nicht die Verteilung dahinter.

Nach diesem Artikel ist es unnötig! !!

** "Numerische Parameter können schließlich nur anhand der Größenbeziehung beurteilt werden" ** Ich denke das ist der Grund.

Ich denke jedoch nicht, dass dies bei der Zielvariablen unbedingt der Fall ist. (Tatsächlich ist die Zielvariable oft logarithmisch) Der Grund ist, die Modellstrafe für einige große Ausreißer zu reduzieren. Ich verstehe das.

Dann

Ist es möglich, die Zielvariable in BoxCock zu konvertieren?

https://books.google.co.jp/books?id=t1a_DwAAQBAJ&pg=PA222&lpg=PA222&dq=%E7%9B%AE%E7%9A%84%E5%A4%89%E6%95%B0+boxcox&source=bl&ots=L7yjHQ6y6G&sig=ACfU3U3U1ugf0XhDVN_4fKAVnYe9xcFBSQ&hl=ja&sa=X&ved=2ahUKEwi2p_-itoLmAhXZA4gKHUutDmcQ6AEwBXoECAoQAQ#v=onepage&q=%E7%9B%AE%E7%9A%84%E5%A4%89%E6%95%B0%20boxcox&f=false

Dies bedeutet jedoch, dass RMSE nicht für die Kostenfunktion verwendet wird. Es ist wahrscheinlich auch, also denke ich, dass die Auswahl intuitiver ist. https://www.sciencedirect.com/science/article/abs/pii/S0031320396000775?via%3Dihub Dann fand ich ein abstraktes Papier, das eine Kostenfunktion brillant implementierte, die die Zielvariable in Boxcox umwandelt.

Ich kann den Inhalt nicht sehen! Ich bin es jedoch ein wenig leid, also lasse ich es hier.

Studie wird akkumuliert

Dieses Mal suchte ich zum ersten Mal nach unbekannten Wörtern und kam zu einer Antwort, mit der ich zufrieden war. Es war eine sehr angenehme Erfahrung, eine neue Fragenhypothese zu formulieren und einen Einblick in diese zu gewinnen.

Ich hatte jedoch das Gefühl, dass jeder ein Stapel von Dingen war, die ich kürzlich gelernt hatte.

・ Ich weiß viel über Exponentialfunktionen (dank der alten Zeiten) ・ Ich kenne die β-Funktion (dies ist eine statistische Studiensitzung) ・ Keine Notwendigkeit, Holz umzuwandeln (dies wurde gestern von Herrn Watanabe gesagt) · Die Zielvariable kann transformiert werden (dies ist in letzter Zeit häufig anzutreffen). ・ RMSE geht davon aus, dass die Verteilung der Residuen eine Normalverteilung ist (dies wurde in der Klasse durchgeführt). · Kostenfunktionen können einzeln implementiert werden (dies ist ein neuer Kaggle)

Ich werde weiterhin mein Bestes geben.