Schauen wir uns zunächst die Nützlichkeit von Pandas und Numpy an.
Daher kann gesagt werden, dass Pandas und Numpy oft Schritt für Schritt kombiniert und beispielsweise in der folgenden Reihe von Flüssen verwendet werden.
data = [12, 3, 5, 2, 6, 7, 9, 6, 4, 11]
Ich habe eine Python-Standardliste erstellt, indem ich die Werte direkt in "Variablenname = []" geschrieben habe, getrennt durch Kommas. Im Folgenden werden verschiedene Statistiken mit Numpy berechnet.
np.mean(data)
Die "Mittelwert" -Funktion von Numpy berechnete einen Durchschnitt von 6,5.
np.median(data)
Numpys "Median" -Funktion berechnete einen Median von 6,0. Wenn die Daten in der Reihenfolge ihrer Größe sortiert werden, wird der Wert genau in der Mitte auch als Median bezeichnet. Wenn es gleich dem zweiten Quadranten ist und mehrere Daten vorhanden sind, ist dies der Durchschnitt von zwei Werten nahe der Mitte.
np.sum(data)
Numpys "Summen" -Funktion berechnete einen Gesamtwert von 65.
np.std(data)
Numpys "std" -Funktion ergab das Ergebnis 3.138470965295043. Dies ist jedoch der Wert der ** Populationsstandardabweichung **. Bitte beachten Sie, dass es zwei Arten von Standardabweichungen gibt, die Populationsstandardabweichung und die ** unverzerrte Standardabweichung **.
Das gesamte Forschungs- oder Forschungsthema wird als ** Population ** bezeichnet, und der aus der Population extrahierte Teil wird als ** Stichprobe ** bezeichnet. Umfragen, die die gesamte Bevölkerung untersuchen, werden als ** 100% -Umfragen ** oder ** Gesamtumfragen ** bezeichnet. Typische Beispiele sind die "nationale Umfrage", bei der alle in Japan lebenden Personen antworten müssen, und die "statistische Umfrage zu Unternehmensbetrieben / Unternehmen", die als nationale Volkszählung von Unternehmensbetrieben bezeichnet werden kann. Wahrscheinlich. Mit anderen Worten, fast alle Daten, die in der realen Welt verarbeitet werden, können als Stichproben aus Stichprobenerhebungen bezeichnet werden. Ich möchte jedoch die Merkmale und Tendenzen der Exemplare nicht kennen und versuche immer, die Merkmale und Tendenzen der Population abzuschätzen, während ich auf die Exemplare ziele. Nun werden zwei Statistiken benötigt, um die Standardabweichung zu berechnen. Zunächst wird der Mittelwert berechnet, die Varianz daraus berechnet und die Quadratwurzel der Varianz als Standardabweichung verwendet. Dem Mittelwert, der Varianz und der Standardabweichung, die aus der Stichprobe berechnet wurden, wird "Stichprobe" bzw. "unverzerrt" vorangestellt, und ** Stichprobenmittelwert $ \ bar {X} $ **, ** unverzerrte Varianz $ s ^ 2 Sie heißen $ ** und ** unverzerrte Standardabweichung $ s $ **. Andererseits sind der Mittelwert, die Varianz und die Standardabweichung der aus der Stichprobe geschätzten Population ** Populationsmittelwert $ μ $ **, ** Populationsvarianz $ σ ^ 2 $ **, ** Populationsstandardabweichung $ σ. Wir nennen es $ **, um es zu unterscheiden.
Gehen Sie daher wie folgt vor, wenn Sie Numpy zur Berechnung der unverzerrten Standardabweichung verwenden.
np.std(data, ddof=1)
Vergleichen wir es mit der Standardabweichung, die zuvor mit Pandas berechnet wurde.
df = pd.DataFrame(data) #Konvertieren Sie Daten in Pandas Datenrahmen
df.describe().loc['std']
Die Standardabweichung von Pandas ist eine unvoreingenommene Standardabweichung.
Als nächstes berechnen wir die grundlegenden Statistiken mithilfe von Statistiken, einer Standard-Python-Bibliothek.
Recommended Posts