Als ich anfing zu kaggen und mehr Möglichkeiten hatte, mit Data Science in Kontakt zu kommen, verwendete ich unweigerlich Pandas, um Daten zu verarbeiten, weil ich Python verwendete. Dieses Mal habe ich die Codes zusammengefasst, die ich oft persönlich benutze. Es ist fast ein Memo für mich, aber ich dachte, es könnte für jemanden nützlich sein, also habe ich beschlossen, alles zusammen auf Qiita zu posten. Wenn Sie Ratschläge oder Eindrücke haben, wie zum Beispiel andere bessere Notationen, würde ich mich freuen, wenn Sie mich in den Kommentaren darüber informieren könnten. Wenn es einen Allzweckcode gibt, möchte ich ihn von Zeit zu Zeit aktualisieren.
DataFrame So erstellen Sie Daten. Es ist nichts besonders Gutes daran, aber die gleichen Daten werden auf zwei Arten erstellt. Bitte verwenden Sie die für Sie je nach Situation einfache. Die Ausgabe ist die gleiche. method 1
index = ['a','b','c']
columns = ['A','B','C']
inputs = [[1,2,1],[3,4,3],[5,6,5]]
df = pd.DataFrame(columns = columns,index = index)
for i,columns in enumerate(columns):
df[columns] = inputs[i]
df
A | B | C | |
---|---|---|---|
a | 1 | 3 | 5 |
b | 2 | 4 | 6 |
c | 1 | 3 | 5 |
method 2
index = ['a','b','c']
df = pd.DataFrame({
'A':[1,2,1],
'B':[3,4,3],
'C':[5,6,5]},
index=index)
df
A | B | C | |
---|---|---|---|
a | 1 | 3 | 5 |
b | 2 | 4 | 6 |
c | 1 | 3 | 5 |
Dieses Mal geben wir ein geeignetes Alphabet (a, b, c) als Index ein. Wenn Sie jedoch keinen Index angeben, wird eine Zahl von 0 zugewiesen.
Feature Encoding Einige Zusammenfassungen zur Umrechnung der Funktionsmenge. One-Hot Encoding Ich denke, dass es viele Situationen gibt, in denen Sie in einen heißen Vektor konvertieren möchten, wenn Sie mit den Daten herumspielen. Sie können die One-Hot-Codierung von sklearn verwenden. Wenn Sie Ihre Daten jedoch mit Pandas verwalten, ist get_dummes effizienter.
pd.get_dummies(df['A'])
1 | 2 | |
---|---|---|
a | 1 | 0 |
b | 0 | 1 |
c | 1 | 0 |
Frequency Encoding Dies ist ein vollständig persönlicher Code. Ich dachte, ich könnte es wieder benutzen, also notiere es dir. Der Prozess besteht darin, den Wert für die Anzahl der Vorkommen in eine Bezeichnung umzuwandeln und zurückzugeben.
df.groupby('B')[['B']].transform('count')
B | |
---|---|
a | 2 |
b | 1 |
c | 2 |
Dies bedeutet, dass 3 zweimal und 4 einmal in B-Spalten erscheint.
Ich habe noch nicht alles zusammengestellt, aber vorerst. Ich werde wieder Code hinzufügen.
Recommended Posts