[PYTHON] Maschinelles Lernen studieren-Pandas Edition-

Maschinelles Lernen studieren-Pandas Edition-

Dieses Mal habe ich vom letzten Mal an etwas über Pandas gelernt und werde es als Ausgabe veröffentlichen.

1. Was ist Pandas?

Mit Pandas können Sie Daten wie Numpy formatieren, Externe Bibliothek, die auch zur Visualisierung und Vorverarbeitung nützlich ist Wie Numpy ist es bereits in Anaconda installiert.

2. Anweisung importieren

test.ipynb


import pandas as pd

Es ist mühsam, den Bibliotheksnamen jedes Mal zu schreiben, wenn Pandas verwendet werden. Machen wir ihn also mit pd aufrufbar.

3. Wann benutzt du es?

  1. Daten organisieren
  2. Datenvisualisierung
  3. Datenvorverarbeitung

Alle sind wichtige Elemente des maschinellen Lernens.

4. Hauptfunktionen

DataFrame-Funktion

Wie der Name schon sagt, ist es eine Funktion, die einen Datenrahmen erstellt.

test.ipynb


#Selbst gemacht ver
test = pd.DataFrame({'culumn1':[1,2,3,4],
                     'culumn2':[3,4,5,6]})

#Bei der Eingabe vorhandener Daten
data = pd.read_csv('CSV-Dateipfad')

DataFrame-Argumente sind vom Wörterbuchtyp. Die Funktion read_csv verwendet eine CSV-Datei als Argument und liest die CSV-Datei, um einen Datenrahmen zu erstellen.

Überprüfen Sie den Datenrahmen

Sie können den Datenrahmen mit der folgenden Funktion überprüfen.

test.ipynb


#Überprüfen Sie die Übersicht
test.info()
#Überprüfen Sie die Daten in den ersten 3 Spalten
test.head(3)
#Überprüfen Sie die Daten in den letzten 3 Spalten
test.tail(3)
#Überprüfen Sie alle Spalten
test.columns
#Überprüfen Sie alle Indizes
test.index

Es zeigt die Daten der Anzahl der Spalten des Arguments von Kopf und Schwanz an. Wenn kein Argument beschrieben wird, werden standardmäßig 5 Spalten angezeigt.

Spalten löschen und hinzufügen

test.ipynb


#Spalte hinzufügen
test['column3'] = [5,6,7,8]
#Spalte löschen
test = test.drop(culumns='culumn3')

Geben Sie zum Hinzufügen einer Spalte einen Spaltennamen an, der in der Spalte nicht vorhanden ist, und fügen Sie Daten in diese Spalte ein. Verwenden Sie beim Löschen die Drop-Funktion, um den Spaltennamen anzugeben.

Datenreferenz

test.ipynb


#Benennen Sie den Index, da die Daten verwirrend sind
test.index = ['test1','test2','test3','test4']
#Extrahieren Sie bestimmte Daten
test.loc['test1','culumn1']
#Holen Sie sich eine bestimmte Spalte
test.loc['colums1','columns2']

Ein Index wird hinzugefügt, da er nur schwer zu verstehen ist, wenn der erstellte Datenrahmenindex erstellt wird. Rufen Sie den entsprechenden Wert ab, indem Sie den Indexnamen und den Spaltennamen angeben. Sie können auch nur den Spaltennamen angeben, und es wird die gesamte Spalte abgerufen.

Verarbeitung fehlender Werte

Höheres Wichtigkeitsverhältnis beim maschinellen Lernen

test.ipynb


#Importiere numpy, um nan zu verwenden
import numpy as np

#Erstellen Sie fehlende Daten
test = pd.DataFrame({'column1':[1,2,np.nan,4],
                     'column2':[5,np.nan,7,np.nan]})

#Anzeigen von Datenrahmen
print(test)
#Auf Mängel prüfen
test.isnull().sum()

Fehlende Daten werden als NaN angezeigt. Die isnull-Funktion kann die fehlenden Daten überprüfen und die fehlenden Daten werden als 1 ausgegeben. Wenn es einen Defekt gibt, wird es lächerlich sein, wenn es grafisch dargestellt wird, also werde ich schreiben, wie man mit dem Defekt umgeht.

test.ipynb


#Fehlende Daten löschen
test_dropna = test.dropna()
#Ersetzen Sie fehlende Daten
test_fillna = test.fillna(test.mean())

Die Dropna-Funktion löscht alle Indizes mit NaN. Die Fillna-Funktion ersetzt NaN durch etwas anderes. Diesmal habe ich es durch den Durchschnitt der Testdaten ersetzt. Es scheint, dass die meisten Daten durch die Fillna-Funktion durch etwas ersetzt werden, anstatt sie zu löschen. (Es sei denn, die Trainingsdaten sind riesig und es gibt kein Problem, auch wenn sie ein wenig gelöscht werden.)

5. Zusammenfassung

Ich hatte das Gefühl, dass ich die Organisation von Daten durcheinander bringen könnte. Ich bin überrascht, dass ich viele Dinge tun kann als Numpy. Es ist natürlich, weil es eine Erweiterung von Numpy ist ...

Numpy ist die Basis von allem, also erinnere dich gut an Pandas und Numpy.

das ist alles

Recommended Posts

Maschinelles Lernen studieren-Pandas Edition-
Maschinelles Lernen studieren ~ matplotlib ~
[Maschinelles Lernen] Lassen Sie uns den Entscheidungsbaum studieren
[Maschinelles Lernen] Versuchen Sie, zufällige Wälder zu studieren
Support Vector Machine (für Anfänger) -Code Edition-
Einführung in das maschinelle Lernen - Hard Margin SVM Edition-