[PYTHON] [Analyse multivariée] À propos de la quantification de type I (001)

Récit d'analyse de la quantification de type I

  1. Convertissez les variables qualitatives en variables fictives et supposez un modèle de régression multiple en considérant les variables fictives comme des variables quantitatives
  2. Évaluer la performance de l'équation de régression obtenue en obtenant le taux de cotisation ajusté au degré de liberté.
  3. Sélectionnez les variables explicatives (sélection de variables) et sélectionnez les variables utiles.
  4. Examiner le rapport résiduel et teco et juger de la validité de l'équation de régression obtenue.
  5. À l'aide de l'équation de régression obtenue, estimez la régression de population pour la valeur de la variable explicative spécifiée arbitrairement et prédisez la valeur des données à obtenir dans le futur.

Comment gérer les variables qualitatives

Une variable qualitative est une variable qui n'est pas à l'origine une variable numérique, telle que «excellent», «bon» ou «acceptable», mais quantifiée comme 0,1.

Cette fois,

Variables qualitatives Variables quantitatives
Yu 3
Bien 2
Oui 1

Au lieu de quantifier comme

x_{1\left(1\right)}=\left\{\begin{array}{l}
1 Quand tu es bon\\
0 Quand pas excellent
\end{array}\right.
x_{1\left(2\right)}=\left\{\begin{array}{1}
1 Bon moment\\
0 Quand ce n'est pas bon
\end{array}\right.
x_{1\left(3\right)}=\left\{\begin{array}{1}
1 Quand c'est possible\\
0 Lorsque cela n'est pas possible
\end{array}\right.

Convertissez comme suit. En effet, la différence entre «excellent» et «bon», la différence entre «excellent» et «acceptable» et la différence entre «bon» et «acceptable» ne peuvent pas être exprimées quantitativement.

Exemple pratique de quantification de type I

Les données suivantes sont traitées comme un exemple spécifique.

données originales

No Notes mathématiques Note globale
1 Yu 96
2 Yu 88
3 Yu 77
4 Yu 89
5 Bien 80
6 Bien 71
7 Bien 77
8 Oui 78
9 Oui 70
10 Oui 62

Données après conversion de variable qualitative en variable quantitative

échantillon Notes mathématiques x_1 x_2 x_3 Note globale
1 Yu 1 0 0 96
2 Yu 1 0 0 88
3 Yu 1 0 0 77
4 Yu 1 0 0 89
5 Bien 0 1 0 80
6 Bien 0 1 0 71
7 Bien 0 1 0 77
8 Oui 0 0 1 78
9 Oui 0 0 1 70
10 Oui 0 0 1 62

Effectuer une analyse de régression multiple

Ce qui suit sont les consciences, mais honnêtement, je ne pense pas qu'il soit nécessaire de les «forcer». Fondamentalement, le calcul est exécuté par python, et si vous résolvez environ 20 questions, vous pouvez le comprendre comme un sentiment. .. ..

  1. Modèle de régression multiple y_{i}=\beta_{0}+\beta_{1\left(2\right)}x_{i1\left(2\right)}+\beta_{1\left(3\right)}x_{i1\left(3\right)}+\epsilon_{i}
  2. Erreur (en supposant qu'elle suit une distribution normale) \epsilon_{i}\sim N\left(0,\ \sigma^{2}\right)
  3. Valeur prédite \hat{y_{i}}=\hat{\beta_{0}}+\hat{\beta_{1\left(2\right)}}x_{i1\left(2\right)}+\hat{\beta_{1\left(3\right)}}x_{i1\left(3\right)}
  4. Valeur de chaque coefficient de valeur prédite \displaystyle \left[\begin{array}{l} \hat{\beta_{1\left(2\right)}}\\\\ \hat{\beta_{1\left(3\right)}} \end{array}\right]=\frac{1}{S_{11}S_{22}-S_{12}^{2}}\left[\begin{array}{l} S_{22}S_{1y}-S_{12}S_{2y}\\\\ -S_{12}S_{1y}+S_{11}S_{2y} \end{array}\right]
  5. Somme des carrés et somme des écarts de chaque coefficient S_{11}=\displaystyle \sum_{i=1}^{n}x_{i1\left(2\right)}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n}x_{i1\left(2\right)}\right)^{2}

S_{22}=\displaystyle \sum_{i=1}^{n}x_{i1\left(3\right)}^{2}-\frac{1}{n}\left(\sum_{i=1}^{n}x_{i1\left(3\right)}\right)^{2}

S_{12}=\displaystyle \sum_{i=1}^{n}x_{i1\left(2\right)}x_{i1\left(3\right)}-\frac{1}{n}\sum_{i=1}^{n}x_{i1\left(2\right)}\sum_{i=1}^{n}x_{i1\left(3\right)}

S_{1y}=\displaystyle \sum_{i=1}^{n}x_{i1\left(2\right)}y_{i}-\frac{1}{n}\sum_{i=1}^{n}x_{i1\left(2\right)}\sum_{i=1}^{n}y_{i}

S_{2y}=\displaystyle \sum_{i=1}^{n}x_{i1\left(3\right)}y_{i}-\frac{1}{n}\sum_{i=1}^{n}x_{i1\left(3\right)}\sum_{i=1}^{n}y_{i} 6. Équation normale \hat{\beta_{0}}=\overline{y}-\hat{\beta_{1\left(2\right)}}\overline{x_{1\left(2\right)}}-\hat{\beta_{1\left(3\right)}}\overline{x_{1\left(3\right)}} 7. Valeur moyenne de chaque coefficient \displaystyle \overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}

\displaystyle \overline{x_{1\left(2\right)}}=\frac{1}{n}\sum_{i=1}^{n}\overline{x_{i1\left(2\right)}}

\displaystyle \overline{x_{1\left(3\right)}}=\frac{1}{n}\sum_{i=1}^{n}\overline{x_{i1\left(3\right)}}

Calcul de diverses constantes

Les références

Introduction à la méthode d'analyse multivariée (nouveau système de mathématiques de la bibliothèque) Yasushi Nagata (Auteur), Masahiko Muchinaka (Auteur)

Recommended Posts

[Analyse multivariée] À propos de la quantification de type I (001)
À propos du type de référence
J'ai bien étudié Systemd
Ce que j'ai appris sur Linux