(Hinweis) Grundlegende Statistiken zu Python und Pandas unter IBM DSX

Ich habe Python & Pandas ausprobiert

Notieren Sie sich das Skript, das Sie bei der zukünftigen Analyse von Daten mit Python immer ausführen werden. Läuft auf Python2 mit Spark 2.0 in der Data Science Experience-Umgebung von IBM. (Diesmal muss es überhaupt kein Spark sein) Da die Anzahl der Felder in der eigentlichen Analyse ziemlich groß ist, habe ich versucht, über eine Methode nachzudenken, bei der der Feldname (Spaltenname) im Skript nicht so weit wie möglich codiert werden muss, damit er effizient analysiert werden kann. Versuchen Sie die Spaltenerweiterung und Kennzeichnung von Kategoriedaten, eine Funktion, die der "Feldreorganisation" von SPSS Modeler entspricht, die für die Datenaufbereitung des maschinellen Lernens erforderlich ist! Ich habe diesmal nicht versucht, einen Wert zu verpassen, also werde ich die nächste Gelegenheit nutzen. (Daten wurden bereits in df_wiskey eingegeben, der in diesem Artikel verwendet wird.)

#Überprüfen Sie zunächst den Inhalt des DataFrame
df_wiskey.head(10)
Screen Shot 2016-11-15 at 18.17.19.png
#Überprüfen Sie als Nächstes die Attribute der Spalte (Feld) (diesmal fahren Sie mit einem ziemlich geeigneten w fort)
df_wiskey.dtypes
Screen Shot 2016-11-15 at 18.17.37.png
#Grundlegende Statistik numerischer Daten
df_wiskey.describe()
Screen Shot 2016-11-15 at 18.17.48.png
#Stellen Sie die Verteilung der numerischen Daten grafisch dar

#Versetzen Sie matplotlib in den Inline-Modus
%matplotlib inline

import matplotlib
import matplotlib.pyplot as plt

for x in df_wiskey.columns[df_wiskey.dtypes == 'float64']:
    xdesc = df_wiskey[x].describe()
    plt.hist(df_wiskey[x] , range=(xdesc['min'], xdesc['max']) )
    plt.title( x )
    plt.show()
Screen Shot 2016-11-15 at 18.18.03.png Screen Shot 2016-11-15 at 18.18.11.png Screen Shot 2016-11-15 at 18.18.20.png
#Numerische Daten,Korrelation zwischen zwei Variablen
df_wiskey.corr()
Screen Shot 2016-11-15 at 18.18.29.png
#Andere Daten als numerische Daten
df_wiskey[df_wiskey.columns[df_wiskey.dtypes == 'object']].head(5) 
Screen Shot 2016-11-15 at 18.18.35.png
#Häufigkeit des Auftretens aggregierter Daten für nicht numerische Daten (als Kategoriewert angenommen)
for x in df_wiskey.columns[df_wiskey.dtypes == 'object']:
    valcal = df_wiskey[x].value_counts();
    print '-- '+x+' -----------------------------------'
    print valcal.head(10)
    print '--------------------------------------------'
Screen Shot 2016-11-15 at 18.18.43.png Screen Shot 2016-11-15 at 18.18.54.png Screen Shot 2016-11-15 at 18.19.01.png
#Kreuztabelle zwischen Kategoriedaten--Einfach, aber das Display fühlt sich seltsam an
crosstab( df_wiskey.Country , df_wiskey.Category)
Screen Shot 2016-11-15 at 18.19.11.png
#Heatmap in Land gegen Kategorie(Bourbon konzentriert sich auf die USA, Single Malt deckt die meisten Länder ab)
df_wiskey_pd = pivot_table( data=df_wiskey , columns='Country' , index='Category' , values='Name' , aggfunc='count')
plt.imshow(df_wiskey_pd , aspect= 'auto' ,interpolation='nearest')
plt.colorbar()
plt.xticks(range(df_wiskey_pd.shape[1]), df_wiskey_pd.columns , rotation='vertical')
plt.yticks(range(df_wiskey_pd.shape[0]), df_wiskey_pd.index)
plt.show()
Screen Shot 2016-11-15 at 18.19.19.png
#Feldisieren Sie die Länderspaltendaten für die Eingabe in die Modellierungstechnik und T./Setze F.
# (Der Spaltenname lautet Land_XXXXXXXX) 
for x in df_wiskey.groupby('Country').count().index : 
    x1 = 'Country_' + x  
    df_wiskey[x1]  = 'F'
    #Wenn das in der Spalte Land festgelegte Land xxxxx ist, dann Land_Wechseln Sie für XXXXXXXXX zu T.
    df_wiskey.loc[df_wiskey[x1][df_wiskey.Country == x].index , x1] = 'T'
#Zeigen Sie nur die ersten 3 Zeilen an
df_wiskey.head(3)
Screen Shot 2016-11-15 at 18.20.42.png

Nachtrag

Data Scientist Experience-Notizbücher sind möglicherweise recht einfach zu verwenden: grinsend:

Notebook_Python2 copy.png

Recommended Posts

(Hinweis) Grundlegende Statistiken zu Python und Pandas unter IBM DSX
1. Mit Python 1-1 gelernte Statistiken. Grundlegende Statistiken (Pandas)
Pandas auf python2.6 installieren
Python Basic ② in Windows
Python Basic - Pandas, Numpy -
Python-Anwendung: Pandas Teil 1: Basic
Hinweis: Python
Python-Notiz
[Hinweis] Erstellen Sie eine Python-Umgebung auf dem Mietserver "CORESERVER".
Installieren Sie Python3, Numpy, Pandas, Matplotlib usw. unter Windows
Hinweis zur Codierung bei LANG = C in Python
[Hinweis] Installieren von Python 3.6 + α unter Windows und RHEL
Erstellen Sie eine Python-Ausführungsumgebung unter IBM i
Grundlegende Bedienung von Python Pandas Series und Dataframe (1)
Hinweis: Python-Dekorator
Python-Programmierhinweis
[Python] Lernnotiz 1
Meine Pandas (Python)
Statistik mit Python
Python unter Windows
Twitter mit Python3
Python lernen note_004
Python-Grundschrift
Python auf Mac
Python lernen note_003
Grundlegende Grammatik von Python3
Python auf Windbg
RF Python Basic_02
Python-Anfängernotiz
Python Pandas Memo
[Anmerkung] Pandas entstapeln
Notieren Sie sich die Liste der grundlegenden Verwendungszwecke von Pandas
Probieren Sie grundlegende Operationen mit Pandas DataFrame auf Jupyter Notebook aus
Treffen Sie Watsons REST-API von Python mit IBM Bluemix
Installieren von Python 3 auf einem Mac und Überprüfen der Grundfunktionen Teil 1
Hinweise zur Beschleunigung des Python-Codes mit Numba
Streunender Build von Python 3 auf Sakuras Mietserver (Hinweis)
Hinweise zum Schreiben von Konfigurationsdateien für Python Hinweis: configparser