Eine Vogelperspektive der gesamten Daten

Wie können Sie das Ganze angesichts einfacher und großer Datenmengen, z. B. großer Protokolldaten, aus der Vogelperspektive betrachten?

Betrachten Sie zunächst Folgendes.

Skalenkonvertierung (einschließlich Anonymisierung und Normalisierung)
Suchen Sie nach zusammenfassenden Statistiken
Verteilung und Prüfung übernehmen

Skalenkonvertierung

Die Skalierungsstufe wurde unter Verstehen der Datentypen und des Beginns der linearen Regression erläutert.

Selbst wenn Sie sich Zeit nehmen, was eine der Arten kontinuierlicher Daten ist, können Sie den Übergang mit der Zeit visualisieren, indem Sie ein Intervall festlegen und einen Wert abrufen, z. B. jede Minute oder jede Stunde. Zu diesem Zeitpunkt ist eine Konvertierung der Skalenebene erforderlich. Zusätzlich wird die Anonymisierung durchgeführt, indem in einen numerischen Wert ohne Einheit (anonyme Zahl) konvertiert wird, um den Vergleich von Werten verschiedener Standards in Bezug auf Verhältnis und Verhältnis zu erleichtern. Normalisierung ist die Transformation und Verarbeitung von Daten nach bestimmten Regeln. Sie können beispielsweise Zahlen auf verschiedenen Achsen vergleichen, indem Sie die Varianz auf einen Wert mit einem 1-Durchschnitt von 0 senken.

Zusammengefasste Statistiken

Die zusammenfassenden Statistiken werden unter Statistiken und Intervallschätzungen erläutert. Durchschnittswerte und Abweichungen sind typische Statistiken. Durch die Quantifizierung des Werts in der Mitte der Daten und der Streuung ist es jedoch möglich, eine große Datenmenge zusammenzufassen und sich einen Überblick zu verschaffen. ..

Beispiel: Wenn Sie sich den Wertpapierbericht ansehen, sehen Sie das durchschnittliche Jahreseinkommen jedes Unternehmens in der IT-Branche. In der Realität ist es jedoch ungefähr gleich, wenn es keine zusammenfassenden Statistiken wie Varianz und Median sowie durchschnittliches Jahreseinkommen gibt, ob es sich um den Durchschnitt mit einem großen Unterschied zwischen oben und unten handelt oder ob nur einige Menschen ein hohes Jahreseinkommen haben. Ich weiß nicht, ob es der Geldbetrag ist. Selbst wenn die zusammenfassende Statistik [Alle scannen] lautet (http://qiita.com/ynakayama/items/1494cf4fdf988e1c7c7c), wird auf diese Weise [Stichprobe aus der Grundgesamtheit, um die Statistik zu erhalten](http: / /qiita.com/ynakayama/items/4362c439d9ea814cbe60) Dies ist auch eine unverzichtbare Information für Eignung der Verteilung prüfen der Zieldaten.

Hypothesentest und Wahrscheinlichkeitsverteilung erläuterte, wie grundlegende Statistiken erhalten werden. Ich denke jedoch, dass die aktuelle Situation darin besteht, dass es für die breite Öffentlichkeit schwierig ist, zusammenfassende Statistiken in der Datenanalyse zu melden. Eine nützliche Visualisierungsmethode ist "Box Whiskers". ist.

Erzeugung von Box Whiskern

Lassen Sie uns zunächst Zufallszahlen gemäß der Poisson-Verteilung generieren und die Statistiken ermitteln. Da das Verfahren bisher erläutert wurde, wird auf eine ausführliche Erläuterung verzichtet.

import numpy as np
import pandas as pd

s1 = pd.Series(np.random.poisson(5, 10000))
s1.describe()
#=>
# count    10000.000000
# mean         5.026600
# std          2.211421
# min          0.000000
# 25%          3.000000
# 50%          5.000000
# 75%          6.000000
# max         14.000000
#dtype: float64

s2 = pd.Series(np.random.poisson(5, 10000))
s3 = pd.Series(np.random.poisson(5, 10000))

Die "Box" im Box-Whisker-Diagramm enthält die Hälfte der Gesamtdaten (25% bis 75%). Diese Daten können als "Sammlung von Daten, die die Gruppe darstellen" betrachtet werden, da sie eine Zwischenschicht in der Gruppe bilden. Und wenn Sie im Feld "Liste einer der häufigsten Daten" angeben, ist es der "Medianwert", der alle Daten darstellt.

Jetzt haben wir drei Vektoren mit einem Durchschnitt von 5 und einem Dimensionsraum von 10000 erzeugt. Sie können dies mit der Boxplot-Funktion zeichnen.

import matplotlib.pyplot as plt
ax.boxplot([s1, s2, s3])

xticks = ['A', 'B', 'C', ]
plt.xticks([1, 2, 3], xticks)
plt.grid()
plt.ylabel('Length')
plt.xlabel('type')
plt.show()
plt.savefig("image.png ")

Auf diese Weise haben wir einen Box Whisker mit einem Medianwert von fast 5.

Aus Gründen der Klarheit werde ich das Streudiagramm mit dem Diagramm überlagern.

#Erhalten Sie eine Nullmatrix mit allen Nullkomponenten derselben Länge wie s1
s0 = pd.Series([0] * len(s1))
ax.plot([s0, s1, s2, s3], marker='.', linestyle='None', )

Zusammenfassung

Wir haben festgestellt, dass zusammenfassende Statistiken verwendet werden können, um die gesamten Daten aus der Vogelperspektive zu betrachten, und Box-Whisker verwendet werden können, um sie zu visualisieren.

[PYTHON] Visualisieren Sie zusammenfassende Statistiken

Eine Vogelperspektive der gesamten Daten

Skalenkonvertierung

Zusammengefasste Statistiken

Erzeugung von Box Whiskern

Zusammenfassung