Wir haben zusammengefasst, was wir über Odds und Logit-Transformationen gelernt haben, die Voraussetzungen für das Verständnis der logistischen Regression sind.
Ich habe zum Verständnis der Gewinnchancen und der Logit-Konvertierung auf Folgendes Bezug genommen.
Logistische Regression ist ** Alligorismus **, der häufig verwendet wird, um die Wahrscheinlichkeit zu schätzen, dass ein Datenelement zu einer bestimmten Klasse gehört.
Gewöhnliche lineare Regressionsmodelle werden verwendet, wenn vorhergesagt wird, dass das Ziel quantitativ ist (z. B. Filialverkäufe für einen Monat), wenn das Ziel jedoch qualitativ ist (unabhängig davon, ob es sich bei dieser E-Mail um Spam handelt oder nicht). , Und ob die Blutgruppe Typ A ist oder nicht, kann nicht direkt auf dieses Modell angewendet werden. Selbst wenn eine solche ** Zielvariable eine qualitative Variable ist, wird das generalisierte lineare Modell (GLM) erweitert, so dass das lineare Regressionskonzept angewendet werden kann, und die logistische Regression ist eine davon **.
Die logistische Regression selbst wird durch die folgende Formel ausgedrückt. ($ \ Beta $ ist der Parameter, $ p $ ist die Ausgabewahrscheinlichkeit)
\log(\frac{p}{1-p})=\beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ...+ \beta_{n}x_{n}
Das Folgende ist eine Zusammenfassung der Chancen und Ideen zur Logit-Konvertierung, die Voraussetzung für das Verständnis sind.
Es gibt eine Idee namens "Gewinnchancen", die bei der Durchführung logistischer Analysen auftaucht. Die Gewinnchancen werden als Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt, zur Wahrscheinlichkeit, dass es nicht eintritt, ausgedrückt. Wenn die Wahrscheinlichkeit, dass ein bestimmtes Ereignis eintritt, auf $ p $ festgelegt ist, wird dies durch die folgende Formel ausgedrückt.
\frac{p}{1-p}
Betrachten Sie die folgenden Fälle als spezifische Beispiele. Betrachten Sie die Gewinnchancen für 5 Baseballspiele, 1 Sieg für Ihr Team und 4 Siege für Ihren Gegner. Dann finden Sie die Gewinnchancen wie folgt.
\frac{\frac{1}{5}}{1-\frac{1}{5}}=0.25
In vielen Fällen wird der Logarithmus der obigen Quoten genommen und in der Berechnung verwendet. Folgendes können Sie darstellen, indem Sie die Gewinnchancen logarithmisch berechnen.
Berücksichtigen Sie bei der Betrachtung der Bedeutung des Zählens der Gewinnchancen zwei Gewinnchancenmuster: Wenn Ihr Team sehr schwach ist und wenn Ihr Team sehr stark ist.
Wenn Ihr Team sehr schwach ist, können Sie sehen, dass die Chancen ** immer näher an 0 ** rücken. ** Im Gegenteil, Sie können sehen, dass es mathematisch nicht negativer als 0 sein kann **.
・ Wenn 1 Sieg und 8 Niederlagen
\frac{\frac{1}{9}}{1-\frac{1}{9}}=0.125
・ Wenn 1 Sieg und 16 Niederlagen
\frac{\frac{1}{17}}{1-\frac{1}{17}}=0.062
Sie können sehen, dass wenn Ihr Team sehr stark ist, die Chancen von ** 1 bis unendlich ** steigen können.
・ Wenn 8 gewinnt und 1 verliert
\frac{\frac{8}{9}}{1-\frac{8}{9}}=8
・ Wenn 16 gewinnt und 1 verliert
\frac{\frac{16}{17}}{1-\frac{16}{17}}=16
Wenn Sie sich die beiden obigen Beispiele ansehen, ** liegen die Chancen, wenn Ihr Team schwach ist, zwischen 0 und 1, während die Chancen, wenn Sie stark sind, zwischen 1 und ∞ liegen. Dies ist ein einfacher Vergleich. Sie können sehen, dass Sie nicht können **. Die Gewinnchancen für 1 Sieg und 8 Niederlagen betragen 0,25 $, während die Gewinnchancen für 8 Siege und 1 Verlust 8 $ betragen.
Tatsächlich kann das Problem der obigen Skala durch Verwendung des Logarithmus gelöst werden.
・ Machen Sie ein Protokoll gegen die Gewinnchancen von 1 Sieg und 8 Niederlagen
\log(0.25)\fallingdotseq-2.079
・ Machen Sie ein Protokoll gegen die Gewinnchancen von 8 Siegen und 1 Niederlage
\log(8)\fallingdotseq2.079
Die Ausrichtung der Skala anhand des Logarithmus ist für die logistische Regression sehr wichtig.
Die logistische Regression berechnet die gewichtete Summe der erklärenden Variablen (mit dem hinzugefügten Bias-Term) wie ein normales lineares Regressionsmodell, aber ihre ** Ausgabe gibt eher ein logit-transformiertes Ergebnis als ein direktes Ergebnis zurück. .. Und die Logit-Konvertierung der ** Zielvariablen ist gleich **, wobei das Protokoll der Chancen der zuvor erläuterten Zielvariablen ** genommen wird.
\log(\frac{p}{1-p})
Die logistische Regression ist eine Regression, die eine Wahrscheinlichkeit in der Zielvariablen annimmt. Da die Wahrscheinlichkeit jedoch zwischen 0 und 1 liegt, ist es unpraktisch, sie auf eine normale lineare Regression anzuwenden. ** Durch Ausführen der Logit-Konvertierung ist es möglich, den Wert von -∞ nach ∞ zu konvertieren, und die Unannehmlichkeiten können beseitigt werden. ** ** **
Die Formel für die logistische Regression kann wie folgt ausgedrückt werden.
\log(\frac{p}{1-p})=\beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + ...+ \beta_{n}x_{n}
Das folgende Diagramm zeigt die Wahrscheinlichkeit (p) auf der y-Achse und den logit-konvertierten Wert (logit) auf der x-Achse.
import numpy as np
import matplotlib.pyplot as plt
def logit(x):
return np.log(p/(1-p))
x = np.arange(0.001, 1, 0.001)
y = logit(x)
plt.xlabel("logit")
plt.ylabel("p")
plt.plot(y, p)
Wenn logit 0 ist, beträgt die Wahrscheinlichkeit p 0,5. Die Änderung von p ist um 0 des Logits groß, und die Änderung von p wird allmählich, wenn sich das Logit von 0 entfernt. Egal wie groß das Logit ist, p wird niemals 1 überschreiten, und egal wie klein das Logit ist, es wird niemals kleiner als p sein.
Im Gegensatz dazu kann der logit-konvertierte Wert durch die folgende Formel in einen Wahrscheinlichkeitswert konvertiert werden.
p = \frac{\exp(logit)}{1+\exp(logit)}
Die obige Gleichung kann wie folgt abgeleitet werden.
{\begin{eqnarray*}
logit &=& \log(\frac{p}{1-p})\\
\exp(logit) &=& \frac{p}{1-p}\\
p(1+\exp(logit)) &=& \exp(logit)\\
p &=& \frac{\exp(logit)}{1+\exp(logit)}\\
\end{eqnarray*}}
Der durch logistische Regression erhaltene vorhergesagte Wert kann unter Verwendung der inversen Umwandlung des Logits in einen Wahrscheinlichkeitswert umgewandelt werden.
Next Dieses Mal haben wir das Wissen zusammengefasst, das für das Verständnis der logistischen Regression wesentlich ist. Als nächstes werde ich zusammenfassen, wie die optimalen Parameter (Koeffizienten) in der logistischen Regression gefunden werden.
Recommended Posts