Das fünfte Projekt, um den Inhalt der praktischen Übungen zu notieren, bei denen jeder das berühmte Thema "Hauspreis" von Kaggle in Frage stellen wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo. Ich möchte denken, dass das Ende bald gesehen wird.
Es ist wie das Ersetzen von Zeichenketten durch Zahlen.
#Listen Sie die Merkmale kategorialer Variablen auf
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
#Listen Sie die Merkmale numerischer Variablen auf
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
#Listen Sie die Spalten auf, die für die Aufteilung und Übermittlung von Daten erforderlich sind
other_cols = ['Id','WhatIsData']
#Entfernen Sie zusätzliche Elemente aus der Liste
cat_cols.remove('WhatIsData') #Entfernen von Trainingsdaten / Testdaten-Unterscheidungsflags
num_cols.remove('Id') #ID löschen
#Dummy kategoriale Variablen
alldata_cat = pd.get_dummies(alldata[cat_cols])
#Datenintegration
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
Oh, ich glaube ich bin gestapelt. Die mysteriöse Antwort. Dann möchte ich nur die folgenden Ergebnisse zusammen ausgeben. Nur der Objekttyp-Datentyp hat den Index in der Liste.
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
Dies entspricht der Auflistung der Funktionen kategorialer Variablen, daher werde ich darauf verzichten.
other_cols = ['Id','WhatIsData']
Wie Sie sehen können, werden die in Teil 2 hinzugefügten Spalten im Array gespeichert. Anscheinend wird dieser nächste Schritt verwendet, um zusätzliche Elemente aus der Liste zu entfernen.
Es scheint, dass unnötige Elemente aus der Liste entfernt werden. Sie können auch anhand der vorherigen Ausgabe bestätigen, dass in cat_cols
ein Element namens WhatIsData vorhanden war.
cat_cols.remove ('WhatIsData') # Entfernen von Trainings- / Testdatenunterscheidungsflags
num_cols.remove ('Id') #Id remove
alldata_cat = pd.get_dummies(alldata[cat_cols])
Ungewöhnlicher Eindruck. Es ist so praktisch, dass Sie es einfach auf eine Funktion anwenden können und es alles für Sie erledigt ... Ich mag diese Art von Python.
Ausgabeergebnis von alldata_cat = pd.get_dummies (alldata [cat_cols])
. Es ist erstaunlich, es hat sich wirklich verändert.
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
Genau das habe ich gesehen. Kombinieren Sie [alldata [other_cols], alldata [num_cols], alldata_cat mit concat. (Ich bin gekommen, um zu sagen, dass es großartig aussieht)
Bist du diesmal in einem guten Tempo vorgegangen? Es scheint, dass es nicht viel Zeit braucht, um unerwartet zu lesen und zu verstehen. Es fühlt sich an, als würde man sich daran gewöhnen. Ich werde mich weiterhin widmen. Nachdem die Daten formatiert wurden, ist es Zeit, sie zu analysieren. Ich freue mich darauf.
Recommended Posts