Cette fois, en suivant la précédente courbe ROC, une animation sur la signification de ** QQ plot ** publiée dans le manuel officiel de Statistics Test Level 2 J'écrirai un article qui explique l'utilisation de graphiques. C'est aussi un graphique un peu bizarre, et je pense qu'il nécessite quelques conseils pour le comprendre, alors j'aimerais essayer de l'expliquer. Je peux écrire des graphiques Q-Q avec qqnorm même en R, mais je ne comprends pas comment cela fonctionne dans la boîte noire, alors je l'ai écrit moi-même en Python.
Par conséquent, les données utilisées sont les données de loyer de l'appartement dans le manuel. Ce sont les données.
Mansion2.data
Walk_min | distance | Price | Type | Area | Direction | Year | |
---|---|---|---|---|---|---|---|
0 | 8 | B | 7900 | 1K | 30.03 | Sud td> | 3 |
1 | 9 | B | 8500 | 1K | 21.9 | Sud td> | 5 |
2 | 10 | B | 10800 | 1K | 27.05 | Sud td> | 4 |
3 | 10 | B | 10800 | 1K | 29.67 | Sud td> | 4 |
... | ... | ... | ... | ... | ... | ... | ... | Nord-est td> | 0 |
186 | 8 | B | 7100 | 1K | 22 | Ouest td> | 17 |
187 | 9 | B | 18400 | 1LDK | 54.68 | Ouest td> | 10 |
Téléchargez ces données ici au milieu du manuel officiel de Statistics Test Level 2 Vous pouvez le faire à partir du lien "Données à télécharger" dans. Décompressez le fichier zip téléchargé et ** Mansion2.data ** dans le dossier [Chapter 2] - [Body] contient les données utilisées cette fois.
Et une fois que j'ai obtenu les données, je voudrais d'abord dessiner un graphique et donner une image des données: blush:
Fig.1
La fourchette de prix est plus proche du côté gauche et il s'agit d'un type d'histogramme avec un long ourlet sur le côté droit. En outre, on peut voir qu'il semble y avoir une corrélation entre le prix et la taille.
Puisque ce graphique Q-Q se concentre sur le prix, nous irons plus loin sur le prix et essayerons d'interpréter le graphique. Il s'agit de "savoir si cette distribution suit ou non une distribution normale".
Eh bien, en fait, comme indiqué ci-dessous, lorsque j'applique la fonction de densité de la distribution normale basée sur la moyenne et l'écart-type obtenus à partir de ces données, cela ne correspond clairement pas, mais je vais continuer sans m'en soucier w
Fig.2
Fig.3
Le code Python pour dessiner la série de graphiques ci-dessus est ici.
Quoi qu'il en soit, jetons un coup d'œil au graphique du tracé Q-Q lui-même.
Fig.4
Oui, il s'agit du graphique Q-Q pour les données cibles "Prix", c'est-à-dire les données de loyer. À première vue, je ne suis pas sûr de ce que montre le graphique. L'explication du manuel est "Le diagramme Q-Q est un graphique pour comparer les données obtenues avec la distribution théorique et examiner la similitude." ** S'ils sont similaires, les points tracés s'aligneront en ligne droite **, c'est vrai.
Alors, comment interprétez-vous le graphique ci-dessus? La figure 4 ci-dessus est considérée comme une modification de la forme de la figure 2. En d'autres termes, c'est un graphique qui vous permet de comprendre visuellement à quel point les données de loyer obtenues et la fonction de densité de distribution normale, qui est la distribution théorique, sont similaires, qu'elles soient droites ou non.
Au fait, ce graphique consiste à mesurer la similitude avec la distribution théorique par le degré de rectitude, mais je pense que je dois comprendre comment dessiner ce graphique, donc je vais expliquer pourquoi on peut le dire.
Expliquons à nouveau en utilisant les données de loyer. C'est la forme de la distribution. Fig.5
À partir de là, nous utiliserons deux graphiques de produits intermédiaires pour créer le graphique Q-Q.
La première chose à utiliser est d'organiser ces données de location une par une dans l'ordre croissant et de dessiner des points pour dessiner un graphique. Il y a un total de 188 données, qui sont réparties uniformément entre 0 et 1. Fig.6
En tant que deuxième graphique, nous supposerons une distribution normale comme distribution théorique cette fois, nous allons donc écrire un graphique de la fonction de distribution cumulative normale et l'utiliser. Cela représente également la fonction de densité cumulée avec 188 points, le même nombre que les données de loyer. Fig.7
En combinant ces deux graphiques, vous pouvez dessiner un graphique du graphique Q-Q. Voyons cela dans un graphique d'animation.
Fig.8
Le graphique de produit intermédiaire La figure 6 ci-dessus est le graphique supérieur droit et la figure 7 est le graphique inférieur gauche. Le coin supérieur gauche est le graphique Q-Q cible. Tout d'abord, l'axe horizontal du graphique de données sur les loyers en haut à droite représente le nombre de fractions, et l'axe vertical de la fonction de distribution cumulative normale en bas à gauche représente également le nombre de fractions. Faites glisser cette fraction de 0 à 1 en même temps dans le coin supérieur droit et inférieur gauche respectivement. La ligne noire le représente. Les points qui coupent la ligne noire sont affichés sous forme de points rouges. Le tracé Q-Q est un tracé simultané de ces points rouges. La ligne pointillée le représente. Le "Q" dans ce graphique Q-Q représente Quantile, et je pense qu'il porte ce nom car il déplace les fractions dans les graphiques supérieur droit et inférieur gauche en même temps.
(Le code Python est ici)
À propos, si les données et la distribution théorique sont les mêmes, le graphique QQ sera une ligne droite, je voudrais donc essayer cela également. Cela signifie utiliser des nombres aléatoires qui suivent une distribution normale. Voici un histogramme de 188 nombres aléatoires qui suivent une distribution normale.
Si vous dessinez un graphique Q-Q ... C'est définitivement une ligne droite: détendue:
Vient ensuite la distribution exponentielle. C'est une distribution avec un long ourlet à droite.
Avec une telle forme, le tracé Q-Q normal aura une forme convexe dans le coin inférieur droit.
C'est un type de distribution F avec un ourlet légèrement long vers la droite. Cela a également un tracé Q-Q légèrement convexe dans le coin inférieur droit.
Ensuite, écrivons un graphique Q-Q en utilisant la distribution de type à longue queue sur la gauche, la distribution bêta de $ \ alpha = 6, \ beta = 2 $. Cette fois, au contraire, un tracé Q-Q convexe est dessiné en haut à gauche.
Un peu différente est la distribution bêta de $ \ alpha = 0,5, \ beta = 0,5 $, avec des pics des deux côtés. Dans ce cas, vous pouvez dessiner un diagramme Q-Q qui est convexe à mi-chemin en bas à droite et convexe en haut à gauche dans la seconde moitié.
Le texte complet du code Python pour dessiner les graphiques sur cette page est ici
Recommended Posts