[PYTHON] Organisieren Sie mit dem MultiLabel Binarizer von scikit-learn individuelle Kaufdaten in einer Tabelle

Datenquelle

https://drive.google.com/file/d/1y5DYn0dGoSbC22xowBq2d4po6h1JxcTQ/view?usp=sharing

Individuelle Kaufdaten (vor Umstellung)

スクリーンショット 2019-12-31 00.13.48.png

Jede Zeile repräsentiert die Benutzer-ID und jede Spalte repräsentiert den vom Benutzer gekauften Artikel. Die Anzahl der Spalten ist die Anzahl der Käufe des Benutzers mit den am häufigsten gekauften Artikeln. Daher wird NaN in das Feld eingegeben.

Tabelle, die Sie erstellen möchten (nach der Konvertierung)

スクリーンショット 2019-12-31 00.18.26.png

Befestigen Sie jede Spalte an einem bestimmten Artikel und geben Sie an, ob jeder Benutzer sie bis 1/0 gekauft hat

Wie macht man

Verwenden Sie den MultiLabel Binarizer von scikit-learn. Sei df der Datenrahmen vor der Konvertierung. Die Ausgabe nach der Konvertierung ist df_trans.

from sklearn.preprocessing import MultiLabelBinarizer

df = df.fillna("none")

mlb = MultiLabelBinarizer()
result = mlb.fit_transform(df.values)
df_trans = pd.DataFrame(result, columns = mlb.classes_).drop('none', axis=1)

Wenn NaN im Datenrahmen enthalten ist, tritt in MultiLabel Binarizer ein Fehler auf. Konvertieren Sie ihn daher in eine entsprechende Zeichenfolge (er muss keine sein, wenn er nicht dupliziert wird).

Erstellen Sie ein MultiLabelBinarizer-Objekt und rufen Sie die Methode fit_transform auf. Geben Sie df.values im Argument im Format numpy.array an.

Der Spaltenname (Elementname) kann mit mlb.classes_ abgerufen werden.

Löschen Sie schließlich keine mit der drop-Methode, um die konvertierte Tabelle abzurufen.

Recommended Posts

Organisieren Sie mit dem MultiLabel Binarizer von scikit-learn individuelle Kaufdaten in einer Tabelle
Löschen Sie Daten in einem Muster mit Redis Cluster
Lesen Sie Tabellendaten in einer PDF-Datei mit Python
Trainieren Sie MNIST-Daten mit PyTorch mithilfe eines neuronalen Netzwerks
Einfallsreichtum beim speichersparenden Umgang mit Daten mit Pandas
Ein Muss für Beamte der Materialinformatik! Visualisieren Sie zusammengesetzte Daten mit einer Periodensystem-Wärmekarte.
<Pandas> Umgang mit Zeitreihendaten in der Pivot-Tabelle
Generieren Sie gefälschte Tabellendaten mit GAN
SE, ein Anfänger in der Datenanalyse, lernt mit dem Data Science Team Vol.1