[PYTHON] Erhalten Sie Statistiken usw. aus der extrahierten Probe

Zuvor habe ich Geschichte der 100% igen Stichprobe mit Hadoop durchgeführt. Wenn es nur wenige vorherige Informationen zu den Daten gibt und Sie diese durch Fummeln analysieren möchten, analysieren Sie zunächst die extrahierte Probe ad hoc aus verschiedenen Blickwinkeln, um die Eigenschaften und Trends der Daten zu erfassen.

Nutzen Sie die Pandas-Funktionen voll aus

Sampling und pandas von Hadoop ) Ist hervorragend kompatibel. Die Kombination von Pandas + Matplotlib wird unter Verwendung von zwei Datenstrukturen, Series und DataFrame, analysiert, wie zuvor eingeführt. Sie können das Ergebnis visualisieren.

Laden von mit Hadoop extrahierten Proben

Die Hadoop-Ausgabe verfügt über eine standardmäßige tabulatorgetrennte Datenstruktur, sodass sie wie mit der Funktion pd.read_table () gelesen werden kann.

import pandas as pd
df = pd.read_table('hadoop-out.txt')
df.describe() #Finden Sie mehrere zusammenfassende Statistiken

#=> count              38156219 #Gesamtzahl der Personen
#   unique              6536847 #Einzigartige Bevölkerung
#   top      0024D69XXXXX,Area9 #1. Index

Sie können auch die Konvertierung eines Wörterbuchobjekts in einen Datenrahmen auf folgende Weise erzwingen:

df = pd.DataFrame(list(self.dic.values()), index=list(self.dic.keys()))

Erstens sind die Daten normalerweise so strukturiert, wie sie von Hadoop mit Fluentd usw. verarbeitet werden, sodass sie mit Pandas kompatibel sind, die strukturierte Daten verarbeiten. Das Gute ist, dass es Sinn macht.

Bequeme Funktionen für Serien- und Datenrahmen

Die Funktion value_counts () ist nützlich, um Ergebnisse wie die Anzahl der Wörter weiter zu aggregieren. Ermitteln Sie die Beobachtungshäufigkeit des Werts aus einer eindimensionalen Datenstruktur wie einer Reihe, einem Array oder einer Sequenz.

Pandas bietet auch eine Funktion fillna (), die fehlende Werte ausfüllt, mit der Sie Löcher im Extraktionsprozess mit einem bestimmten Wert füllen können.

Streit	Erläuterung
value	Skalarwert zum Ausfüllen der Lücken.(Wörterbücher sind ebenfalls akzeptabel)
axis	0 für Zeilen, 1 für Spalten
limit	Maximale Anzahl aufeinanderfolgender Füllungen
method	Geben Sie an, wann die Löcher mit dem Durchschnittswert oder dem Medianwert gefüllt werden sollen

Die Funktion duplicated () im Datenrahmen gibt eine Reihe zurück. Dies kann verwendet werden, um nach Duplikaten zu suchen, da True zurückgegeben wird, wenn der Wert bereits in diesem Datenrahmen angezeigt wurde.

Die Funktion replace () ersetzt den Wert. Um beispielsweise 99999 als fehlenden Wert zu betrachten und durch NaN zu ersetzen:

series.replace('99999', np.nan)

Es ist auch einfach, andere Werte als den Referenzwert zu entfernen oder abzurunden.

#Der Absolutwert überschreitet 3(-Andere als zwischen 3 und 3)Wert zu NaN
data[np.abs(data) > 3] = np.nan

Zusammenfassung

Mithilfe von Pandas-Funktionen können Sie die zu analysierenden Ziele aus den extrahierten Proben eingrenzen. Hadoop-freundliche Pandas sind für die schnelle Abwicklung des PDCA-Analysezyklus von entscheidender Bedeutung.