[PYTHON] [Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (5. Dummy von kategorialen Variablen)

Thema

Das fünfte Projekt, um den Inhalt der praktischen Übungen zu notieren, bei denen jeder das berühmte Thema "Hauspreis" von Kaggle in Frage stellen wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo. Ich möchte denken, dass das Ende bald gesehen wird.

Die heutige Arbeit

Dummy von kategorialen Variablen

Es ist wie das Ersetzen von Zeichenketten durch Zahlen.

#Listen Sie die Merkmale kategorialer Variablen auf
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
#Listen Sie die Merkmale numerischer Variablen auf
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
#Listen Sie die Spalten auf, die für die Aufteilung und Übermittlung von Daten erforderlich sind
other_cols = ['Id','WhatIsData']
#Entfernen Sie zusätzliche Elemente aus der Liste
cat_cols.remove('WhatIsData') #Entfernen von Trainingsdaten / Testdaten-Unterscheidungsflags
num_cols.remove('Id') #ID löschen
#Dummy kategoriale Variablen
alldata_cat = pd.get_dummies(alldata[cat_cols])
#Datenintegration
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)

Listen Sie die Merkmale kategorialer Variablen auf

Oh, ich glaube ich bin gestapelt. Die mysteriöse Antwort. Dann möchte ich nur die folgenden Ergebnisse zusammen ausgeben. Nur der Objekttyp-Datentyp hat den Index in der Liste.

cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist() スクリーンショット 2020-06-22 12.05.14.png

Listen Sie die Merkmale numerischer Variablen auf

num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()

Dies entspricht der Auflistung der Funktionen kategorialer Variablen, daher werde ich darauf verzichten.

Listen Sie die Spalten auf, die für die Aufteilung und Übermittlung von Daten erforderlich sind

other_cols = ['Id','WhatIsData']

Wie Sie sehen können, werden die in Teil 2 hinzugefügten Spalten im Array gespeichert. Anscheinend wird dieser nächste Schritt verwendet, um zusätzliche Elemente aus der Liste zu entfernen.

Entfernen Sie zusätzliche Elemente aus der Liste

Es scheint, dass unnötige Elemente aus der Liste entfernt werden. Sie können auch anhand der vorherigen Ausgabe bestätigen, dass in cat_cols ein Element namens WhatIsData vorhanden war.

cat_cols.remove ('WhatIsData') # Entfernen von Trainings- / Testdatenunterscheidungsflags num_cols.remove ('Id') #Id remove

Dummy kategoriale Variablen

alldata_cat = pd.get_dummies(alldata[cat_cols])

Ungewöhnlicher Eindruck. Es ist so praktisch, dass Sie es einfach auf eine Funktion anwenden können und es alles für Sie erledigt ... Ich mag diese Art von Python.

Ausgabeergebnis von alldata_cat = pd.get_dummies (alldata [cat_cols]). Es ist erstaunlich, es hat sich wirklich verändert. スクリーンショット 2020-06-22 12.15.49.png

Datenintegration

all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)

Genau das habe ich gesehen. Kombinieren Sie [alldata [other_cols], alldata [num_cols], alldata_cat mit concat. (Ich bin gekommen, um zu sagen, dass es großartig aussieht)

Das ist es.

Bist du diesmal in einem guten Tempo vorgegangen? Es scheint, dass es nicht viel Zeit braucht, um unerwartet zu lesen und zu verstehen. Es fühlt sich an, als würde man sich daran gewöhnen. Ich werde mich weiterhin widmen. Nachdem die Daten formatiert wurden, ist es Zeit, sie zu analysieren. Ich freue mich darauf.

Recommended Posts

[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (5. Dummy von kategorialen Variablen)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)
[Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)
[Praktisch für Anfänger] Lesen Sie zaggles "Vorhersage der Eigenheimpreise" Zeile für Zeile (8. Erstellen eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
Vorhersage der Immobilienpreise (Rendite durch lineare Regression (kaggle)) ver1.0
[Für Anfänger] Lesen Sie die DB-Authentifizierungsinformationen aus Umgebungsvariablen