[PYTHON] [Multivariate Analyse] Über Quantifizierungstyp I (001)

Analysegeschichte der Quantifizierung Typ I.

  1. Konvertieren Sie qualitative Variablen in Dummy-Variablen und nehmen Sie ein multiples Regressionsmodell an, indem Sie die Dummy-Variablen als quantitative Variablen betrachten
  2. Bewerten Sie die Leistung der erhaltenen Regressionsgleichung, indem Sie den an den Freiheitsgrad angepassten Beitragssatz erhalten.
  3. Wählen Sie die erklärenden Variablen (Variablenauswahl) und nützliche Variablen aus.
  4. Untersuchen Sie das Rest- und Teco-Verhältnis und beurteilen Sie die Gültigkeit der erhaltenen Regressionsgleichung.
  5. Schätzen Sie anhand der erhaltenen Regressionsgleichung die Populationsregression für den Wert der willkürlich angegebenen erklärenden Variablen und sagen Sie den Wert der Daten voraus, die in Zukunft erhalten werden sollen.

Umgang mit qualitativen Variablen

Eine qualitative Variable ist eine Variable, die ursprünglich keine numerische Variable wie "ausgezeichnet", "gut" oder "akzeptabel" ist, sondern wie 0,1 quantifiziert wird.

In diesem Moment,

Qualitative Variablen Quantitative Variablen
Yu 3
Gut 2
Ja 1

Anstatt wie zu quantifizieren

x_{1\left(1\right)}=\left\{\begin{array}{l}
1 Wenn du gut bist\\
0 Wenn nicht ausgezeichnet
\end{array}\right.
x_{1\left(2\right)}=\left\{\begin{array}{1}
1 Gute Zeit\\
0 Wenn nicht gut
\end{array}\right.
x_{1\left(3\right)}=\left\{\begin{array}{1}
1 Wenn es möglich ist\\
0 Wenn nicht möglich
\end{array}\right.

Konvertieren Sie wie folgt. Dies liegt daran, dass der Unterschied zwischen "ausgezeichnet" und "gut", der Unterschied zwischen "ausgezeichnet" und "akzeptabel" und der Unterschied zwischen "gut" und "akzeptabel" nicht quantitativ ausgedrückt werden kann.

Praktisches Beispiel für Quantifizierungstyp I.

Die folgenden Daten werden als spezifisches Beispiel behandelt.

Originale Daten

No Mathematische Noten Gesamtnote
1 Yu 96
2 Yu 88
3 Yu 77
4 Yu 89
5 Gut 80
6 Gut 71
7 Gut 77
8 Ja 78
9 Ja 70
10 Ja 62

Daten nach Umrechnung von qualitativer Variable in quantitative Variable

Stichprobe Mathematische Noten x_1 x_2 x_3 Gesamtnote
1 Yu 1 0 0 96
2 Yu 1 0 0 88
3 Yu 1 0 0 77
4 Yu 1 0 0 89
5 Gut 0 1 0 80
6 Gut 0 1 0 71
7 Gut 0 1 0 77
8 Ja 0 0 1 78
9 Ja 0 0 1 70
10 Ja 0 0 1 62

Führen Sie eine multiple Regressionsanalyse durch

Das Folgende sind die Bewusstseine, aber ehrlich gesagt denke ich nicht, dass es notwendig ist, sie zu "zwingen". Grundsätzlich wird die Berechnung von Python ausgeführt. Wenn Sie etwa 20 Fragen lösen, können Sie dies als Gefühl verstehen. .. ..

  1. Multiple Regressionsmodell y_{i}=\beta_{0}+\beta_{1\left(2\right)}x_{i1\left(2\right)}+\beta_{1\left(3\right)}x_{i1\left(3\right)}+\epsilon_{i}
  2. Fehler (vorausgesetzt, er folgt einer Normalverteilung) \epsilon_{i}\sim N\left(0,\ \sigma^{2}\right)
  3. Voraussichtlicher Wert \hat{y_{i}}=\hat{\beta_{0}}+\hat{\beta_{1\left(2\right)}}x_{i1\left(2\right)}+\hat{\beta_{1\left(3\right)}}x_{i1\left(3\right)}
  4. Wert jedes Koeffizienten des vorhergesagten Werts \displaystyle \left[\begin{array}{l} \hat{\beta_{1\left(2\right)}}\\\\ \hat{\beta_{1\left(3\right)}} \end{array}\right]=\frac{1}{S_{11}S_{22}-S_{12}^{2}}\left[\begin{array}{l} S_{22}S_{1y}-S_{12}S_{2y}\\\\ -S_{12}S_{1y}+S_{11}S_{2y} \end{array}\right]
  5. Summe der Quadrate und Summe der Abweichungen jedes Koeffizienten S_{11}=\displaystyle \sum_{i=1}^{n}x_{i1\left(2\right)}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n}x_{i1\left(2\right)}\right)^{2}

S_{22}=\displaystyle \sum_{i=1}^{n}x_{i1\left(3\right)}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n}x_{i1\left(3\right)}\right)^{2}

S_{12}=\displaystyle \sum_{i=1}^{n}x_{i1\left(2\right)}x_{i1\left(3\right)}-\frac{1}{n}\sum_{i=1}^{n}x_{i1\left(2\right)}\sum_{i=1}^{n}x_{i1\left(3\right)}

S_{1y}=\displaystyle \sum_{i=1}^{n}x_{i1\left(2\right)}y_{i}-\frac{1}{n}\sum_{i=1}^{n}x_{i1\left(2\right)}\sum_{i=1}^{n}y_{i}

S_{2y}=\displaystyle \sum_{i=1}^{n}x_{i1\left(3\right)}y_{i}-\frac{1}{n}\sum_{i=1}^{n}x_{i1\left(3\right)}\sum_{i=1}^{n}y_{i} 6. Normale Gleichung \hat{\beta_{0}}=\overline{y}-\hat{\beta_{1\left(2\right)}}\overline{x_{1\left(2\right)}}-\hat{\beta_{1\left(3\right)}}\overline{x_{1\left(3\right)}} 7. Durchschnittswert jedes Koeffizienten \displaystyle \overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}

\displaystyle \overline{x_{1\left(2\right)}}=\frac{1}{n}\sum_{i=1}^{n}\overline{x_{i1\left(2\right)}}

\displaystyle \overline{x_{1\left(3\right)}}=\frac{1}{n}\sum_{i=1}^{n}\overline{x_{i1\left(3\right)}}

Berechnung verschiedener Konstanten

Verweise

Einführung in die multivariate Analysemethode (Bibliothek neues Mathematiksystem) Yasushi Nagata (Autor), Masahiko Muchinaka (Autor)

Recommended Posts

[Multivariate Analyse] Über Quantifizierungstyp I (001)
Über den Referenztyp
Ich habe richtig über Systemd gelernt
Was ich über Linux gelernt habe