Ein Datenrahmenobjekt für die Verarbeitung strukturierter Daten in Python. Danach können Sie problemlos Dateien lesen und SQL-Vorgänge ausführen. Dies ist für die Verarbeitung, Berechnung und Visualisierung von Daten durch maschinelles Lernen erforderlich. Eine Memoliste häufig verwendeter Syntaxen für die Datenmanipulation. Dieser Abschnitt befasst sich mit dem Lesen und Verarbeiten von Daten.
Das Histogramm wird häufig zur Datenbestätigung in der Vorbereitungsphase verwendet. Dieses Mal werden wir die matplotlib-Bibliothek verwenden. Sie können problemlos ein problematisches Histogramm erstellen, indem Sie es in Excel ausführen. Für die Daten haben wir die bekannten Titanic-Daten verwendet.
Nennen Sie pandas pd und importieren Sie es. Dieses Mal wurde auch matplotlib.pyplot mit dem Namen plt importiert. Verwenden Sie Beispieldaten von Titanic
python
import pandas as pd
import matplotlib.pyplot as plt
dataframe = pd.read_csv('train.csv')
dataframe.head()
Erstellen Sie ein Histogramm nach Alter (Spalte "Alter"). Löschen Sie den fehlenden Wert mit dropna ().
python
plt.hist(dataframe['Age'].dropna(),bins = 10, range = (0,100),color = 'Blue')
plt.show()
Geben Sie die Behälter (Anzahl der anzuzeigenden Flaschen), den Bereich (Datenbreite) und die Farbe (Farbe) an.
Normalisieren Sie so, dass die Gesamtsumme 1 beträgt.
python
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue', normed = 'true')
plt.show()
Fügen Sie Titel usw. hinzu, um die Anzeige zu vereinfachen.
python
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue')
plt.show()
Fügen Sie .title, .xlabel, .grid hinzu.
Die Aufschlüsselungsanzeige von männlich (männlich) und weiblich (weiblich) wird unter Verwendung der gestapelten Anzeige angezeigt. Definieren Sie zur Vorbereitung des Plots malelist_m bzw. malelist_f.
python
malelist_m = dataframe['Sex'] == 'male'
malelist_f = dataframe['Sex'] == 'female'
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist([dataframe[malelist_m]['Age'],dataframe[malelist_f]['Age']],bins = 20, range = (0,100), color = ['Blue', 'Red'], label = ['male','femal'], stacked=True)
plt.legend(loc="upper right", fontsize=14)
plt.show()
Wenn Sie mehr als eine stapeln möchten, schreiben Sie als hist ([X1, X2]). Setzen Sie gestapelt auf True, um zu stapeln. (Auch als Falsch geschrieben) Definieren Sie die Legende mit Beschriftung. Fügen Sie eine Legende mit .legend hinzu.
Recommended Posts