Notieren Sie sich das Skript, das Sie bei der zukünftigen Analyse von Daten mit Python immer ausführen werden. Läuft auf Python2 mit Spark 2.0 in der Data Science Experience-Umgebung von IBM. (Diesmal muss es überhaupt kein Spark sein) Da die Anzahl der Felder in der eigentlichen Analyse ziemlich groß ist, habe ich versucht, über eine Methode nachzudenken, bei der der Feldname (Spaltenname) im Skript nicht so weit wie möglich codiert werden muss, damit er effizient analysiert werden kann. Versuchen Sie die Spaltenerweiterung und Kennzeichnung von Kategoriedaten, eine Funktion, die der "Feldreorganisation" von SPSS Modeler entspricht, die für die Datenaufbereitung des maschinellen Lernens erforderlich ist! Ich habe diesmal nicht versucht, einen Wert zu verpassen, also werde ich die nächste Gelegenheit nutzen. (Daten wurden bereits in df_wiskey eingegeben, der in diesem Artikel verwendet wird.)
#Überprüfen Sie zunächst den Inhalt des DataFrame
df_wiskey.head(10)
#Überprüfen Sie als Nächstes die Attribute der Spalte (Feld) (diesmal fahren Sie mit einem ziemlich geeigneten w fort)
df_wiskey.dtypes
#Grundlegende Statistik numerischer Daten
df_wiskey.describe()
#Stellen Sie die Verteilung der numerischen Daten grafisch dar
#Versetzen Sie matplotlib in den Inline-Modus
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
for x in df_wiskey.columns[df_wiskey.dtypes == 'float64']:
xdesc = df_wiskey[x].describe()
plt.hist(df_wiskey[x] , range=(xdesc['min'], xdesc['max']) )
plt.title( x )
plt.show()
#Numerische Daten,Korrelation zwischen zwei Variablen
df_wiskey.corr()
#Andere Daten als numerische Daten
df_wiskey[df_wiskey.columns[df_wiskey.dtypes == 'object']].head(5)
#Häufigkeit des Auftretens aggregierter Daten für nicht numerische Daten (als Kategoriewert angenommen)
for x in df_wiskey.columns[df_wiskey.dtypes == 'object']:
valcal = df_wiskey[x].value_counts();
print '-- '+x+' -----------------------------------'
print valcal.head(10)
print '--------------------------------------------'
#Kreuztabelle zwischen Kategoriedaten--Einfach, aber das Display fühlt sich seltsam an
crosstab( df_wiskey.Country , df_wiskey.Category)
#Heatmap in Land gegen Kategorie(Bourbon konzentriert sich auf die USA, Single Malt deckt die meisten Länder ab)
df_wiskey_pd = pivot_table( data=df_wiskey , columns='Country' , index='Category' , values='Name' , aggfunc='count')
plt.imshow(df_wiskey_pd , aspect= 'auto' ,interpolation='nearest')
plt.colorbar()
plt.xticks(range(df_wiskey_pd.shape[1]), df_wiskey_pd.columns , rotation='vertical')
plt.yticks(range(df_wiskey_pd.shape[0]), df_wiskey_pd.index)
plt.show()
#Feldisieren Sie die Länderspaltendaten für die Eingabe in die Modellierungstechnik und T./Setze F.
# (Der Spaltenname lautet Land_XXXXXXXX)
for x in df_wiskey.groupby('Country').count().index :
x1 = 'Country_' + x
df_wiskey[x1] = 'F'
#Wenn das in der Spalte Land festgelegte Land xxxxx ist, dann Land_Wechseln Sie für XXXXXXXXX zu T.
df_wiskey.loc[df_wiskey[x1][df_wiskey.Country == x].index , x1] = 'T'
#Zeigen Sie nur die ersten 3 Zeilen an
df_wiskey.head(3)
Data Scientist Experience-Notizbücher sind möglicherweise recht einfach zu verwenden: grinsend:
Recommended Posts