Diesmal folgt nach der vorherigen ROC-Kurve eine Animation über die Bedeutung von ** QQ-Plot ** im offiziellen Lehrbuch von Statistics Test Level 2 Ich werde einen Artikel schreiben, der die Verwendung von Grafiken erklärt. Dies ist auch ein etwas eigenartiges Diagramm, und ich denke, es erfordert einige Tipps, um es zu verstehen, daher möchte ich versuchen, es zu erklären. Ich kann Q-Q-Diagramme mit qqnorm sogar in R schreiben, aber ich verstehe nicht, wie es in der Black Box funktioniert, also habe ich es selbst in Python geschrieben.

1. Über die diesmal verwendeten Daten

Daher sind die verwendeten Daten die Mietdaten der Wohnung im Lehrbuch. Dies sind die Daten.

Mansion2.data

<tr>
  <th>185</th>
  <td>11</td>
  <td>B</td>
  <td>8600</td>
  <td>1K</td>
  <td>20.79</td>

	Walk_min	distance	Price	Type	Area	Direction	Year
0	8	B	7900	1K	30.03	Süd	3
1	9	B	8500	1K	21.9	Süd	5
2	10	B	10800	1K	27.05	Süd	4
3	10	B	10800	1K	29.67	Süd	4
...	...	...	...	...	...	...	...
Nordosten	0
186	8	B	7100	1K	22	West	17
187	9	B	18400	1LDK	54.68	West	10

Laden Sie diese Daten hier in der Mitte des offiziellen Lehrbuchs für Statistik-Teststufe 2 herunter Sie können dies über den Link "Daten zum Herunterladen" in tun. Entpacken Sie die heruntergeladene Zip-Datei und ** Mansion2.data ** im Ordner [Kapitel 2] - [Body] sind die Daten, die dieses Mal verwendet werden.

Und sobald ich die Daten erhalten habe, möchte ich zuerst ein Diagramm zeichnen und ein Bild der Daten geben: erröten:

Fig.1

Die Preisspanne liegt näher an der linken Seite und es handelt sich um eine Art Histogramm mit einem langen Saum auf der rechten Seite. Es ist auch ersichtlich, dass es einen Zusammenhang zwischen Preis und Größe zu geben scheint.

Da sich dieses Q-Q-Diagramm auf den Preis konzentriert, werden wir den Preis noch einen Schritt weiter gehen und versuchen, die Grafik zu interpretieren. Es ist "ob diese Verteilung einer Normalverteilung folgt oder nicht".

Nun, wenn ich die Dichtefunktion der Normalverteilung basierend auf dem Mittelwert und der Standardabweichung anwende, die aus diesen Daten erhalten werden, wie unten gezeigt, stimmt sie eindeutig nicht überein, aber ich werde fortfahren, ohne mir darüber Gedanken zu machen. W.

Fig.2

Fig.3

Der Python-Code zum Zeichnen der obigen Reihe von Diagrammen lautet hier.

2. Was ist ein Q-Q-Plot?

Schauen wir uns das Q-Q-Diagramm selbst an.

Fig.4

Ja, dies ist das Q-Q-Diagramm für die Zieldaten "Preis", dh die Mietdaten. Auf den ersten Blick bin ich mir nicht sicher, was die Grafik zeigt. Die Erklärung des Lehrbuchs lautet: "Das Q-Q-Diagramm ist ein Diagramm zum Vergleichen der erhaltenen Daten mit der theoretischen Verteilung und zum Untersuchen der Ähnlichkeit." ** Wenn sie ähnlich sind, werden die eingezeichneten Punkte in einer geraden Linie ausgerichtet **, das ist richtig.

Wie interpretieren Sie die obige Grafik? Die obige Fig. 4 wird als eine Modifikation der Form von Fig. 2 angesehen. Mit anderen Worten, es ist ein Diagramm, mit dem Sie visuell verstehen können, wie ähnlich die erhaltenen Mietdaten und die Normalverteilungsdichtefunktion, bei der es sich um die theoretische Verteilung handelt, unabhängig davon sind, ob sie gerade sind oder nicht.

3. Der Ursprung des Q-Q-Diagramms

Übrigens soll dieses Diagramm die Ähnlichkeit mit der theoretischen Verteilung am Grad der Geradheit messen, aber ich denke, ich muss verstehen, wie man dieses Diagramm zeichnet, also werde ich erklären, warum es so gesagt werden kann.

Lassen Sie uns die Verwendung der Mietdaten noch einmal erklären. Dies ist die Form der Verteilung. Fig.5

Von hier aus werden wir zwei Zwischenproduktdiagramme verwenden, um das Q-Q-Diagramm zu erstellen.

Das erste, was Sie verwenden müssen, ist, diese Mietdaten nacheinander in aufsteigender Reihenfolge anzuordnen und Punkte zu zeichnen, um eine Grafik zu zeichnen. Es gibt insgesamt 188 Daten, die gleichmäßig zwischen 0 und 1 angeordnet sind. Fig.6

Als zweites Diagramm nehmen wir diesmal eine Normalverteilung als theoretische Verteilung an, schreiben also ein Diagramm der normalen kumulativen Verteilungsfunktion und verwenden es. Dies stellt auch die kumulative Dichtefunktion mit 188 Punkten dar, die gleiche Zahl wie die Mietdaten. Fig.7

Durch Kombinieren dieser beiden Diagramme können Sie ein Diagramm des Q-Q-Diagramms zeichnen. Lassen Sie es uns in einem Animationsdiagramm sehen.

Fig.8

Das Zwischenproduktdiagramm Fig. 6 oben ist das obere rechte Diagramm und Fig. 7 ist das untere linke Diagramm. Oben links ist das Ziel-Q-Q-Diagramm. Erstens repräsentiert die horizontale Achse des Mietdatengraphen oben rechts die Anzahl der Brüche, und die vertikale Achse der normalen kumulativen Verteilungsfunktion unten links repräsentiert auch die Anzahl der Brüche. Schieben Sie diese Fraktion gleichzeitig von rechts oben und links unten von 0 auf 1. Die schwarze Linie repräsentiert es. Die Punkte, die die schwarze Linie schneiden, werden als rote Punkte angezeigt. Das Q-Q-Diagramm ist ein simultanes Diagramm dieser roten Punkte. Die gepunktete Linie repräsentiert es. Das "Q" in diesem Q-Q-Diagramm steht für Quantil, und ich denke, es hat diesen Namen, weil es die Brüche in den Diagrammen oben rechts und unten links gleichzeitig verschiebt.

(Python-Code ist hier)

4. Q-Q-Diagramm von Zufallszahlen nach einer Normalverteilung

Übrigens, wenn die Daten und die theoretische Verteilung gleich sind, ist das QQ-Diagramm eine gerade Linie, daher würde ich dies auch gerne versuchen. Das bedeutet, Zufallszahlen zu verwenden, die einer Normalverteilung folgen. Hier ist ein Histogramm von 188 Zufallszahlen, die einer Normalverteilung folgen.

Wenn Sie ein Q-Q-Diagramm zeichnen ... Es ist definitiv eine gerade Linie: entspannt:

5. Q-Q-Diagramm von Zufallszahlen gemäß Exponentialverteilung

Als nächstes folgt die Exponentialverteilung. Es ist eine Verteilung mit einem langen Saum rechts.

Bei einer solchen Form hat das reguläre Q-Q-Diagramm in der unteren rechten Ecke eine konvexe Form.

6. Q-Q-Diagramm von Zufallszahlen nach der F-Verteilung

Es ist eine Art F-Verteilung mit einem etwas langen Saum rechts. Dies hat auch ein leicht konvexes Q-Q-Diagramm in der unteren rechten Ecke.

6. Q-Q-Diagramm von Zufallszahlen nach β-Verteilung

Als nächstes schreiben wir ein Q-Q-Diagramm unter Verwendung der Long-Tail-Typverteilung auf der linken Seite, der Beta-Verteilung von $ \ alpha = 6, \ beta = 2 $. Im Gegensatz dazu wird diesmal oben links ein konvexes Q-Q-Diagramm gezeichnet.

Etwas anders ist die Beta-Verteilung von $ \ alpha = 0,5, \ beta = 0,5 $ mit Peaks auf beiden Seiten. In diesem Fall können Sie ein Q-Q-Diagramm zeichnen, das in der zweiten Hälfte rechts unten konvex und in der zweiten Hälfte links oben konvex ist.

Der vollständige Text des Python-Codes zum Zeichnen der Diagramme auf dieser Seite lautet hier.

[PYTHON] [Statistik] Verstehen Sie den Mechanismus von Q-Q-Plots mit Animation.