[PYTHON] Verständnis der Datentypen und des Beginns der linearen Regression

Gestern habe ich die zu beachtenden Punkte in Bezug auf statistische Fehler als Fünf Gesichtspunkte zur Aufdeckung der Lügen der Statistik erläutert.

Heute möchte ich mich wieder auf die Daten konzentrieren, die ich analysieren möchte.

** KPI (Key Performance Indicator) ** ist ein numerischer Wert, der quantitativ angibt, was zur Erreichung des Ziels erforderlich ist. Es ist nicht der KPI, der geformt und schön sein möchte, aber es ist der KPI, der 10 Kilo verliert oder die Nase um 1,5 Zentimeter um 3 Monate erhöht.

Wenn Sie nicht richtig verstehen, welche Art von Daten Sie als KPI verwenden möchten, führen Sie häufig zu falschen KPIs und laufen Gefahr, zu einer bedeutungslosen Datenanalyse zu führen.

Was ist eine Variable?

Wir werden den Zustand der befragten Person aus verschiedenen Bereichen in verschiedenen Bereichen wie Sozialerhebungen und medizinischen Statistiken identifizieren. Stellen Sie sich zum Beispiel einen Fragebogen oder ein Diagramm vor. Sie werden gefragt, was Ihr Geschlecht ist und wie alt Sie sind. Die zu diesem Zeitpunkt gemessenen Werte können grob in ** diskrete Variable ** und ** kontinuierliche Variable ** unterteilt werden. Von diesen sind diskrete Variablen diejenigen, die die Grenzen von Messwerten verdeutlichen können. Zum Beispiel Geschlecht. Diese diskrete Variable kann weiter in zwei Teile unterteilt werden, je nachdem, ob sie bestellt werden kann.

  1. Unordentliche diskrete Variablen (z. B. Geschlecht, Nationalität, Unternehmen, zu dem sie gehören)
  2. Ordnungsfähige diskrete Variablen (zB Noten: 1. ausgezeichnet 2. gut 3. möglich 4. nicht)
  3. Kontinuierliche Variable

Was ist eine Skala?

Variablen werden nach ihrer Skalierungsstufe wie folgt kategorisiert:

  1. ** Nominalskala ** Variablen, die als einfache Kategorien angegeben werden und nicht geordnet werden können, sind nominelle Skalen. Dies schließt den Herkunftsort und das Unternehmen ein, zu dem Sie gehören. Nominalskalen können natürlich nicht gemittelt werden. Sie können jedoch den häufigsten Wert verwenden.

  2. ** Bestellskala ** Ein Maß zur Bewertung der oben genannten bestellbaren diskreten Variablen. Das Ranking etc. entspricht dem. Da es sich nur um eine Bestellung handelt, kann nicht berechnet werden, dass es doppelt so viel ist wie die zweite Person, da es sich um den ersten Platz handelt. Dies liegt daran, dass das Skalenintervall nicht konstant ist, da sich die Person auf dem 1. Platz geringfügig von der Person auf dem 2. Platz unterscheidet und die Person auf dem 3. Platz oder darunter sehr unterschiedlich ist. Sie können den Mittelwert oder die Varianz nicht berechnen.

  3. ** Intervallskala ** Es ist eine stetige Variable, die nicht bei Null beginnt. Zum Beispiel Zeit, Temperatur usw. Es kann nicht bewertet werden, dass die Zeit 20:00 ist, was doppelt so heiß ist wie 10 Uhr, oder die Temperatur 30 Grad ist, was doppelt so heiß ist wie 15 Grad. Der Unterschied zur Auftragsskala besteht jedoch darin, dass das Intervall selbst von Bedeutung ist. Sie können zusammenfassende Statistiken wie Mittelwert und Varianz erhalten, jedoch keine Verhältnisse.

  4. ** Proportionalmaßstab ** Es ist eine stetige Variable ab Null. Beispiel: Umsatz, Preis, Anzahl der Benutzer, seit einem bestimmten Tag verstrichene Tage, Testergebnisse von 100.

Was ist ein repräsentativer Wert?

Eine zusammenfassende Statistik ist eine Zahl, die durch Ausführen statistischer Operationen zum Zusammenfassen der Daten erhalten wird. Repräsentative Werte sind beliebte Werte, die insbesondere in zusammenfassenden Statistiken verwendet werden. Apropos Durchschnitt, Sie werden damit vertraut sein. Es wird häufig täglich verwendet, einschließlich der Berechnung des Pro-Kopf-Geldes, wenn jeder eine Trinkparty hat.

  1. Durchschnittswert

Es wird auch als arithmetischer Durchschnitt bezeichnet, der die Summe aller beobachteten Werte ist und durch die Zahl geteilt wird. Da es aus allen Daten erhalten wird, hat es den Vorteil, die Gesamtvariation darzustellen. Der Nachteil ist, dass es von Ausreißern betroffen ist. Aus diesem Grund werden manchmal Trimmmittelwerte wie die Mittelung ohne die oberen oder unteren Prozent verwendet.

  1. Median

Dies ist der Wert, der genau in der Mitte liegt, wenn die beobachteten Werte neu angeordnet werden. Dies ist effektiv, wenn die Verteilungsform unbekannt ist oder wenn erwartet wird, dass sie viele Ausreißer enthält.

  1. Häufigster Wert

Wie der Name schon sagt, ist dies der am häufigsten beobachtete Wert.

In jedem Fall sollte beachtet werden, dass einige Informationen fehlen, da es sich nur um eine Zusammenfassung handelt.

Beispiel

Es zeigt die Altersverteilung, die sich aus der Anzahl der Mitglieder eines Kindergartens ergibt.

Alter Anzahl der Personen
3 15
4 28
5 31
6 15
22 1
25 1
46 1
49 1
70 1
75 1

Überlegen Sie, welcher der oben genannten Werte in diesem Fall als repräsentativer Wert am besten geeignet ist.

Lineare Regression

Ich habe lange über Variablen gesprochen. Lassen Sie uns etwas tun, das Statistik zu sein scheint. Angenommen, Sie haben die folgenden Variablen: Dies ist eine Tabelle, die das Alter des einkaufenden Kunden und den Kaufpreis in einem Kosmetikgeschäft zeigt.

Alter Preis(Einheit 100/Kreis)
24 236
27 330
29 375
34 392
42 460
43 525
51 578

Zu diesem Zeitpunkt ist das Alter eine Intervallskala und der Preis eine proportionale Skala.

Zeichnen Sie die Daten

Plot zeichnet im Grunde genommen ein Diagramm aus Variablen. Warum ein Diagramm zeichnen? Durch Zeichnen eines Diagramms werden Variablen mit visuellen Symbolen dargestellt und visualisiert. Dies erleichtert das Verständnis der Daten und hilft Ihnen, Hypothesen aufzustellen.

Pythons NumPy und matplotplib sind großartige Bibliotheken, die in der statistischen Mathematik sehr häufig verwendet werden und durch statistische Methoden veranschaulicht werden. Die Funktion für ist extrem leistungsfähig und einfach zu handhaben. Wie auch immer, zeichnen wir ein Streudiagramm.

import numpy as np #NumPy wird geladen
import matplotlib.pyplot as plt #Matplotlib wird geladen

v1 = np.array([24, 27, 29, 34, 42, 43, 51]) #Liste, die das Alter darstellt
v2 = np.array([236, 330, 375, 392, 460, 525, 578]) #Preis

plt.xlim(20, 55) #Geben Sie den Bereich der X-Achse an
plt.ylim(200, 600) #Geben Sie den Bereich der Y-Achse an
plt.xlabel('Age') #X-Achsen-Label für Alter
plt.ylabel('Price') #Y-Achsenbeschriftung für Preis
plt.plot(v1, v2, 'o', color="blue") #zeichnen
plt.show() #Zeigen Sie ein Bild auf dem Bildschirm an
plt.savefig("image.png ") #Speichern Sie das Bild unter einem Dateinamen

Ich habe so ein Streudiagramm gemacht.

image.png

Finden Sie die lineare Funktion

Übrigens, wenn man sich die Abbildung ansieht, scheint der Preis für gekaufte Kosmetika mit zunehmendem Alter des Kunden tendenziell zu steigen. Mit dem menschlichen Sinn fühlt es sich an, als würde man eine gerade Linie nach rechts oben ziehen.

Mathematisch wird eine Art von Regressionsanalyse, die unter Verwendung einer bestimmten Funktion wie einer linearen Funktion (y = 2x usw.) oder einer logarithmischen Kurve, die von einem geeigneten Modell angenommen wird, angenähert wird, als lineare Regression bezeichnet.

Lassen Sie uns zunächst die lineare Regression programmgesteuert durchführen.

import numpy as np
import matplotlib.pyplot as plt

v1 = np.array([24, 27, 29, 34, 42, 43, 51])
v2 = np.array([236, 330, 375, 392, 460, 525, 578])

def phi(x):
    return [1, x, x**2, x**3]

def f(w, x):
    return np.dot(w, phi(x))

PHI = np.array([phi(x) for x in v2])
w = np.linalg.solve(np.dot(PHI.T, PHI), np.dot(PHI.T, v1))

ylist = np.arange(200, 600, 10)
xlist = [f(w, x) for x in ylist]

plt.plot(xlist, ylist, color="red")
plt.xlim(20, 55)
plt.ylim(200, 600)
plt.xlabel('Age')
plt.ylabel('Price')
plt.plot(v1, v2, 'o', color="blue")
plt.show()
plt.savefig("image2.png ")

Auf diese Weise wurde die gerade Linie (= lineare Funktion) gefunden. Es sieht so aus, als hätten Sie eine ungefähre Lösung.

image2.png

Ich möchte die detaillierte Geschichte der linearen Regression Lehrbüchern überlassen, aber beim nächsten Mal möchte ich die lineare Regression und ihre Anwendungen betrachten.

Referenz

Einführung in die Sozialstatistik (Lehrmaterialien der Rundfunkuniversität) http://www.amazon.co.jp/dp/4595313705

[PDF] Einführung in Statistics-Hideo Konami http://ruby.kyoto-wu.ac.jp/~konami/Text/Statistics.pdf

Datenvisualisierung für Ingenieure [Übung] Einführung ~ Webvisualisierung mit D3.js. http://www.amazon.co.jp/dp/4774163260

Recommended Posts

Verständnis der Datentypen und des Beginns der linearen Regression
Mit algebraischen Datentypen und FizzBuzz
Mit algebraischen Datentypen und Mustervergleich
Mit algebraischen Datentypen und objektorientierter Programmierung
[Maschinelles Lernen] Verstehen der linearen einfachen Regression sowohl aus Scikit-Lernen als auch aus Mathematik
Lineare Regression
Erster TensorFlow (überarbeitete Ausgabe) - Lineare und logistische Regression
Unterschied zwischen linearer Regression, Ridge-Regression und Lasso-Regression
Python-Variablen und Datentypen, die mit Chemoinfomatik gelernt wurden
Grundlegendes zur logistischen Regression (1) _ Informationen zu Gewinnchancen und logistischer Transformation
cv2-Funktionen und Datentypen (OpenCV-Python-Bindung)
"Lineare Regression" und "Probabilistische Version der linearen Regression" in Python "Bayes lineare Regression"
Lineare Regression mit Statistikmodellen
Lineare Regression des maschinellen Lernens
Regression mit einem linearen Modell
[Maschinelles Lernen] Verständnis der logistischen Regression sowohl durch Scikit-Lernen als auch durch Mathematik