Der dritte Teil des Projekts, um den Inhalt von Hands-on zu notieren, dass jeder das berühmte Thema "Hauspreis" -Problem von Kaggle herausfordern wird. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo.
Zusammenfassend fehlten einige Werte. Bei näherer Betrachtung bedeutet dies jedoch nicht, dass es nicht fehlt und dass "es gibt keinen Wert" in erster Linie sinnvoll ist.
Auszug aus einem Referenzartikel.
Wenn Sie die Daten von Kaggle herunterladen, werden Sie feststellen, dass sie auch eine Datei mit dem Namen "data_description.txt" enthalten. Diese Datei beschreibt, welche Daten in den Variablen gespeichert sind. Dann können Sie sehen, dass die Mehrzahl der Mängel nicht bedeutet, dass keine Informationen vorhanden sind, sondern dass die Mängel selbst Informationen sind. Schauen wir uns zum Beispiel PoolQC (Poolqualität) an, das die meisten Mängel aufweist. Der Verlust dieser Variablen bedeutet, dass der Pool im Haus nicht vorhanden ist und der Datenverlust selbst eine Information ist. Bei anderen Variablen (kategorialen Variablen) bedeutet der Mangel lediglich, dass die Einrichtung oder Ausrüstung nicht vorhanden ist. Bei numerischen Variablen bedeutet der Mangel nur, dass der belegte Bereich Null ist und nicht ohne Informationen. Daher wird die folgende Vervollständigung für den Verlust von kategorialen Variablen und numerischen Variablen durchgeführt.
Anscheinend ist es ein Systemelement, das die Bedeutung mit dem Code im DB-Wert ausdrückt. Beispiel) 1: männlich, 2: weiblich usw. https://www1.doshisha.ac.jp/~mjin/R/Chap_45/45.html
Das heißt, es sieht aus wie Daten, die einfach das Gegenteil der kategorialen Variablen und des quantitativen Werts darstellen.
Beim Speichern wird zunächst der Indexwert für jeden Datentyp herausgenommen (ich versuche, ihn so zu konfigurieren, dass es sinnvoll ist, wenn ich ihn beende, auch wenn ich nicht weiß, was ich sage).
na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist()
alldata [na_col_list]
: Ein Datenarray mit fehlenden Werten.
alldata[na_col_list].dtypes=='float64'
Überprüfen Sie jeden Datentyp des Arrays. Überprüfen Sie die Datentypen des Arrays sofort mit .dtypes. Das Folgende ist das Ergebnis von "alldata [na_col_list] .dtypes".
https://note.nkmk.me/python-numpy-dtype-astype/
alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64']
Elemente nur für numerische Variablen abrufen. Das Folgende ist das Ergebnis von "alldata [na_col_list] .dtypes". Es scheint zu klären, ob dies für float64 verantwortlich ist.
.index
Dies ist auch ein Hinweis, da die Rolle von .index anders war als erwartet. Ich habe bisher über "Setzen des Index" nachgedacht, aber dieses Mal scheint es, dass es zum "Abrufen des Index" verwendet wird.
Referenz: https://www.mathpython.com/ja/python-list-index/
Das Folgende ist das Ausgabeergebnis von alldata [na_col_list] .dtypes [alldata [na_col_list] .dtypes == 'float64']. Index
. Ich sehe, nur der Index wird genommen.
.tolist() Konvertieren Sie den erfassten Index in einen Listentyp. Gibt es überhaupt viele Arten von Python, die wie Arrays aussehen? .. .. Ich wollte an diesem Punkt stecken bleiben, also notieren Sie sich das auch. Referenz: https://note.nkmk.me/python-numpy-list/ Referenz: https://algorithm.joho.info/programming/python/list-tuple-dict-chigai/ Das Folgende ist das Ausgabeergebnis von "alldata [na_col_list] .dtypes [alldata [na_col_list] .dtypes ==" float64 "]. Index.tolist ()" wie üblich. Oh, Sie können endlich eine numerische Spalte als Listentyp erhalten.
Es ist seit ungefähr zwei Wochen kostenlos, aber ich werde mein Bestes tun, um es erneut zu aktualisieren. (Es ist an der Zeit, Python aus den Grundlagen einzugeben und neu zu organisieren ... Python scheint alles in einer Zeile zu übertreiben ...)
Recommended Posts