[PYTHON] Bases de l'analyse de régression

Les données sans contexte ne sont qu'une liste de nombres. Afin de faire bon usage des données disponibles, il est nécessaire de collecter un large éventail d'informations telles que le mécanisme du phénomène derrière les données, le contexte historique et l'environnement. Ensuite, sur la base de ces informations, collectez plus de données avec des idées gratuites.

Les données n'ont pas de sens simplement en les collectant. Les caractéristiques peuvent être vues en comparant. Le calcul de la moyenne ou de la variance s'appelle l'obtention d'une statistique récapitulative. De plus, un diagramme de fréquence et un graphique linéaire sont dessinés pour visualiser les données afin de saisir les caractéristiques des données.

Lorsque le tableau d'ensemble du phénomène peut être vu en utilisant une telle méthode d'analyse, la méthode statistique est finalement utilisée. Dans ce cas, le but de l'analyse doit être clair. gros

Comprendre la structure du phénomène
Collecte d'informations
Prévision Il peut être classé en trois catégories. Il y a une raison universelle à cette classification. En statistique, nous pensons qu'il existe des données qui sont à la base des données obtenues, et nous appelons cela une population ou simplement un modèle. Et je pense que les données obtenues à portée de main ont été extraites de la population. Les données extraites ou observées sont appelées échantillon pour les distinguer de la population. Obtenir une population équivaut à obtenir un modèle. On dit aussi qu'un vrai modèle a été obtenu. Dans de nombreux cas, avoir un vrai modèle signifie avoir une compréhension de la structure derrière le phénomène. Mais malheureusement, une population est rarement disponible. Cela signifie également que vous ne pouvez pas obtenir de modèle. Par conséquent, si une population ne peut être obtenue, le but est d'obtenir de nouvelles informations telles que saisir la tendance des données à analyser ou saisir la pertinence avec d'autres données. En outre, la prédiction peut réussir même si un vrai modèle ne peut pas être obtenu. Dans de tels cas, faire des prédictions est le but de l'analyse.

Pour ajouter à la comparaison, la comparaison nécessite certains critères. Il y a deux façons de faire ça. La première consiste à rechercher cette norme de l'extérieur. Ceci est une comparaison avec le vrai modèle. Mais c'est presque impossible. Par conséquent, comparez-le avec les données disponibles. Cela correspond à l'utilisation de la distribution t ou de l'analyse de dispersion.

Le terme modèle est déjà apparu, mais en un mot, c'est une distribution de probabilité. C'est l'une des méthodes d'expression d'un phénomène stochastique, et exprime comment un phénomène se produit avec une certaine probabilité. Cependant, il est rare que le phénomène réel suive une telle distribution de probabilité. En effet, les phénomènes que vous voyez réellement sont légèrement différents selon chaque situation. En outre, les données peuvent contenir du bruit observé. Par conséquent, considérez un modèle de distribution conditionnelle. Et le représentant d'un tel modèle est l'analyse de régression. Il existe de nombreuses bibliothèques de statsmodels qui conviennent à une telle analyse.

Modèles de régression linéaire dans les modèles de statistiques $y=f(x_i)+e=\beta_0+\beta_1 x_1 +,\cdots,+ e $ Section ($ \ beta_0 ) et coefficient de régression ( \ beta_i $)

Japonais	statsmodels
Méthode du carré minimum	OLS
Méthode des moindres carrés pondérés	WLS
Méthode du carré minimum généralisé	GLS
Méthode des moindres carrés récursive	Recursive LS

Il est estimé par quatre méthodes. $ x $ est la variable explicative et $ e $ est l'erreur. $ y $ est la variable dépendante et est modélisée comme une combinaison linéaire de $ x $. Pour que le modèle obtenu par la méthode des moindres carrés soit plausible, l'erreur

Il n'y a pas de parti pris.
La dispersion est connue et constante.
La covariance est 0. --Suivez la distribution normale.

Est imposé. GLS est un modèle qui peut gérer l'inhomogénéité de la dispersion dans laquelle la dispersion des erreurs n'est pas constante et les erreurs avec autocorrélation dans lesquelles les erreurs sont corrélées. WLS traite de l'inhomogénéité de la dispersion et LS récursif est une erreur avec autocorrélation. Traite avec. Le coefficient de régression est estimé en apportant divers ajustements au problème des erreurs qui ne peuvent pas satisfaire les conditions de ces modèles et en satisfaisant ces conditions.

Quand on dit régression linéaire

Linéaire par rapport aux paramètres La condition est imposée. Aussi, pour x (variable indépendante, variable explicative) a) Une valeur fixe, pas une variable stochastique b) Variable probabiliste Dans le cas d'une variable stochastique, x doit être indépendant du terme d'erreur.

De plus, il existe un modèle linéaire généralisé dans lequel la distribution de $ y $ est spécifiée comme une famille de distribution exponentielle et le résidu est une distribution arbitraire. En tant que développement ultérieur de cette

Équation d'estimation généralisée --Modèle mixte généralisé
Modèle additif généralisé

etc. L'OLS est utilisé pour la régression linéaire, mais le coefficient de régression est estimé à l'aide de la méthode la plus probable ou d'une méthode similaire au modèle linéaire généralisé et à son développement.