Dieses Mal habe ich vom letzten Mal an etwas über Pandas gelernt und werde es als Ausgabe veröffentlichen.
Mit Pandas können Sie Daten wie Numpy formatieren, Externe Bibliothek, die auch zur Visualisierung und Vorverarbeitung nützlich ist Wie Numpy ist es bereits in Anaconda installiert.
test.ipynb
import pandas as pd
Es ist mühsam, den Bibliotheksnamen jedes Mal zu schreiben, wenn Pandas verwendet werden. Machen wir ihn also mit pd aufrufbar.
Alle sind wichtige Elemente des maschinellen Lernens.
Wie der Name schon sagt, ist es eine Funktion, die einen Datenrahmen erstellt.
test.ipynb
#Selbst gemacht ver
test = pd.DataFrame({'culumn1':[1,2,3,4],
'culumn2':[3,4,5,6]})
#Bei der Eingabe vorhandener Daten
data = pd.read_csv('CSV-Dateipfad')
DataFrame-Argumente sind vom Wörterbuchtyp. Die Funktion read_csv verwendet eine CSV-Datei als Argument und liest die CSV-Datei, um einen Datenrahmen zu erstellen.
Sie können den Datenrahmen mit der folgenden Funktion überprüfen.
test.ipynb
#Überprüfen Sie die Übersicht
test.info()
#Überprüfen Sie die Daten in den ersten 3 Spalten
test.head(3)
#Überprüfen Sie die Daten in den letzten 3 Spalten
test.tail(3)
#Überprüfen Sie alle Spalten
test.columns
#Überprüfen Sie alle Indizes
test.index
Es zeigt die Daten der Anzahl der Spalten des Arguments von Kopf und Schwanz an. Wenn kein Argument beschrieben wird, werden standardmäßig 5 Spalten angezeigt.
test.ipynb
#Spalte hinzufügen
test['column3'] = [5,6,7,8]
#Spalte löschen
test = test.drop(culumns='culumn3')
Geben Sie zum Hinzufügen einer Spalte einen Spaltennamen an, der in der Spalte nicht vorhanden ist, und fügen Sie Daten in diese Spalte ein. Verwenden Sie beim Löschen die Drop-Funktion, um den Spaltennamen anzugeben.
test.ipynb
#Benennen Sie den Index, da die Daten verwirrend sind
test.index = ['test1','test2','test3','test4']
#Extrahieren Sie bestimmte Daten
test.loc['test1','culumn1']
#Holen Sie sich eine bestimmte Spalte
test.loc['colums1','columns2']
Ein Index wird hinzugefügt, da er nur schwer zu verstehen ist, wenn der erstellte Datenrahmenindex erstellt wird. Rufen Sie den entsprechenden Wert ab, indem Sie den Indexnamen und den Spaltennamen angeben. Sie können auch nur den Spaltennamen angeben, und es wird die gesamte Spalte abgerufen.
Höheres Wichtigkeitsverhältnis beim maschinellen Lernen
test.ipynb
#Importiere numpy, um nan zu verwenden
import numpy as np
#Erstellen Sie fehlende Daten
test = pd.DataFrame({'column1':[1,2,np.nan,4],
'column2':[5,np.nan,7,np.nan]})
#Anzeigen von Datenrahmen
print(test)
#Auf Mängel prüfen
test.isnull().sum()
Fehlende Daten werden als NaN angezeigt. Die isnull-Funktion kann die fehlenden Daten überprüfen und die fehlenden Daten werden als 1 ausgegeben. Wenn es einen Defekt gibt, wird es lächerlich sein, wenn es grafisch dargestellt wird, also werde ich schreiben, wie man mit dem Defekt umgeht.
test.ipynb
#Fehlende Daten löschen
test_dropna = test.dropna()
#Ersetzen Sie fehlende Daten
test_fillna = test.fillna(test.mean())
Die Dropna-Funktion löscht alle Indizes mit NaN. Die Fillna-Funktion ersetzt NaN durch etwas anderes. Diesmal habe ich es durch den Durchschnitt der Testdaten ersetzt. Es scheint, dass die meisten Daten durch die Fillna-Funktion durch etwas ersetzt werden, anstatt sie zu löschen. (Es sei denn, die Trainingsdaten sind riesig und es gibt kein Problem, auch wenn sie ein wenig gelöscht werden.)
Ich hatte das Gefühl, dass ich die Organisation von Daten durcheinander bringen könnte. Ich bin überrascht, dass ich viele Dinge tun kann als Numpy. Es ist natürlich, weil es eine Erweiterung von Numpy ist ...
Numpy ist die Basis von allem, also erinnere dich gut an Pandas und Numpy.
das ist alles
Recommended Posts