[PYTHON] Bases de l'analyse de régression

Les données sans contexte ne sont qu'une liste de nombres. Afin de faire bon usage des données disponibles, il est nécessaire de collecter un large éventail d'informations telles que le mécanisme du phénomène derrière les données, le contexte historique et l'environnement. Ensuite, sur la base de ces informations, collectez plus de données avec des idées gratuites.

Les données n'ont pas de sens simplement en les collectant. Les caractéristiques peuvent être vues en comparant. Le calcul de la moyenne ou de la variance s'appelle l'obtention d'une statistique récapitulative. De plus, un diagramme de fréquence et un graphique linéaire sont dessinés pour visualiser les données afin de saisir les caractéristiques des données.

Lorsque le tableau d'ensemble du phénomène peut être vu en utilisant une telle méthode d'analyse, la méthode statistique est finalement utilisée. Dans ce cas, le but de l'analyse doit être clair. gros

  1. Comprendre la structure du phénomène
  2. Collecte d'informations
  3. Prévision Il peut être classé en trois catégories. Il y a une raison universelle à cette classification. En statistique, nous pensons qu'il existe des données qui sont à la base des données obtenues, et nous appelons cela une population ou simplement un modèle. Et je pense que les données obtenues à portée de main ont été extraites de la population. Les données extraites ou observées sont appelées échantillon pour les distinguer de la population. Obtenir une population équivaut à obtenir un modèle. On dit aussi qu'un vrai modèle a été obtenu. Dans de nombreux cas, avoir un vrai modèle signifie avoir une compréhension de la structure derrière le phénomène. Mais malheureusement, une population est rarement disponible. Cela signifie également que vous ne pouvez pas obtenir de modèle. Par conséquent, si une population ne peut être obtenue, le but est d'obtenir de nouvelles informations telles que saisir la tendance des données à analyser ou saisir la pertinence avec d'autres données. En outre, la prédiction peut réussir même si un vrai modèle ne peut pas être obtenu. Dans de tels cas, faire des prédictions est le but de l'analyse.

Pour ajouter à la comparaison, la comparaison nécessite certains critères. Il y a deux façons de faire ça. La première consiste à rechercher cette norme de l'extérieur. Ceci est une comparaison avec le vrai modèle. Mais c'est presque impossible. Par conséquent, comparez-le avec les données disponibles. Cela correspond à l'utilisation de la distribution t ou de l'analyse de dispersion.

Le terme modèle est déjà apparu, mais en un mot, c'est une distribution de probabilité. C'est l'une des méthodes d'expression d'un phénomène stochastique, et exprime comment un phénomène se produit avec une certaine probabilité. Cependant, il est rare que le phénomène réel suive une telle distribution de probabilité. En effet, les phénomènes que vous voyez réellement sont légèrement différents selon chaque situation. En outre, les données peuvent contenir du bruit observé. Par conséquent, considérez un modèle de distribution conditionnelle. Et le représentant d'un tel modèle est l'analyse de régression. Il existe de nombreuses bibliothèques de statsmodels qui conviennent à une telle analyse.

Modèles de régression linéaire dans les modèles de statistiques $y=f(x_i)+e=\beta_0+\beta_1 x_1 +,\cdots,+ e $ Section ($ \ beta_0 ) et coefficient de régression ( \ beta_i $)

Japonais statsmodels
Méthode du carré minimum OLS
Méthode des moindres carrés pondérés WLS
Méthode du carré minimum généralisé GLS
Méthode des moindres carrés récursive Recursive LS

Il est estimé par quatre méthodes. $ x $ est la variable explicative et $ e $ est l'erreur. $ y $ est la variable dépendante et est modélisée comme une combinaison linéaire de $ x $. Pour que le modèle obtenu par la méthode des moindres carrés soit plausible, l'erreur

Est imposé. GLS est un modèle qui peut gérer l'inhomogénéité de la dispersion dans laquelle la dispersion des erreurs n'est pas constante et les erreurs avec autocorrélation dans lesquelles les erreurs sont corrélées. WLS traite de l'inhomogénéité de la dispersion et LS récursif est une erreur avec autocorrélation. Traite avec. Le coefficient de régression est estimé en apportant divers ajustements au problème des erreurs qui ne peuvent pas satisfaire les conditions de ces modèles et en satisfaisant ces conditions.

Quand on dit régression linéaire

  1. Linéaire par rapport aux paramètres La condition est imposée. Aussi, pour x (variable indépendante, variable explicative) a) Une valeur fixe, pas une variable stochastique b) Variable probabiliste Dans le cas d'une variable stochastique, x doit être indépendant du terme d'erreur.

De plus, il existe un modèle linéaire généralisé dans lequel la distribution de $ y $ est spécifiée comme une famille de distribution exponentielle et le résidu est une distribution arbitraire. En tant que développement ultérieur de cette

etc. L'OLS est utilisé pour la régression linéaire, mais le coefficient de régression est estimé à l'aide de la méthode la plus probable ou d'une méthode similaire au modèle linéaire généralisé et à son développement.

Recommended Posts

Bases de l'analyse de régression
Analyse de régression de Poisson
Les bases de Python ①
Bases de python ①
Bases de l'apprentissage avec un enseignant Partie 1-Régression simple- (Remarque)
Principes de base du grattage Python
Analyse des séries chronologiques 1 Principes de base
# 4 [python] Bases des fonctions
La fondation de la fondation Perceptron
Apprendre avec un enseignant (retour) 1 Bases
Effectuer une analyse de régression avec NumPy
Bases de python: sortie
Bases de l'apprentissage avec un enseignant Partie 3-Régression multiple (mise en œuvre) - (Notes) -
Analyse de régression avec Python
Explication du concept d'analyse de régression à l'aide de python Partie 2
Calculer le coefficient de régression d'une analyse de régression simple avec python
Explication du concept d'analyse de régression à l'aide de Python Partie 1
Qu'est-ce que l'analyse de régression logistique?
Analyse de régression multiple avec Keras
Bases de l'apprentissage automatique (mémoire)
Analyse statique des programmes Python
python: principes de base de l'utilisation de scikit-learn ①
Mise en œuvre d'une analyse de composants indépendante
Apprendre avec l'enseignant 1 Principes de base de l'apprentissage avec l'enseignant (classification)
Principes de base de XPath (1) - Concept de base de XPath
Analyse de régression simple avec Python
Principes de base de Python x SIG (1)
Analyse de régression simple comprise par les mathématiques du lycée-vérification de la loi de Moore
Principes de base de Python x SIG (3)
Paiza Python Primer 5: Principes de base des dictionnaires
Lire "Principes de base du recuit quantique" Jour 5
Première analyse de régression simple en Python
Python: Application de l'apprentissage supervisé (retour)
Introduction aux bases de Python de l'apprentissage automatique (apprentissage non supervisé / analyse principale)
Algorithme d'apprentissage automatique (analyse de régression multiple)
Analyse négative / positive 1 Application de l'analyse de texte
Algorithme d'apprentissage automatique (analyse de régression unique)
[À voir pour les débutants] Bases de Linux
Extraction de sujets de texte japonais 1 Bases
Revue des bases de Python (FizzBuzz)
Bases de la théorie de l'information quantique: Entropie (2)
100 traitement du langage knock-59: analyse de la formule S
Principes de base de Python x SIG (partie 2)
Tracé de la droite de régression par tracé des résidus
Analyse de données pour améliorer POG 3 ~ Analyse de régression ~
Principes de base pour toucher MongoDB avec MongoEngine
Analyse des séries chronologiques 3 Prétraitement des données des séries chronologiques
Implémentation simple de l'analyse de régression avec Keras
Lire "Les bases du recuit quantique" Jour 6
Qu'est-ce que l'analyse de régression logistique à plusieurs termes?
Analyse de régression logistique Self-made avec python
À propos de la liste de base des bases de Python
Traitement des données 2 Analyse de divers formats de données
Apprenez les bases de Python ① Débutants élémentaires
Bases du traitement d'images binarisées par Python
Python: principes de base de la reconnaissance d'image à l'aide de CNN
J'ai essayé l'analyse de régression multiple avec régression polypoly
Algorithme d'apprentissage automatique (généralisation de la régression linéaire)
Bases de la théorie de l'information quantique: compression de données (1)
Apprenez à nouveau les bases de Theano