[PYTHON] [Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)

Thema

Es gab eine Geschichte über die Aufgabe, ein Immobiliensystem als Dienstleistung zu betreiben, und dass es keinen Verlust gibt, auf Feldebene praktische Arbeit zu leisten. Aus diesem Grund haben wir uns entschlossen, das berühmte "Hauspreis" -Problem von kaggle gemeinsam in Frage zu stellen. Deshalb habe ich beschlossen, den Inhalt des Lesens jeder Zeile in Qiita zu veröffentlichen, da es später nützlich wäre, wenn ich es richtig notieren würde. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo.

Die heutige Arbeit

Bibliotheksvorbereitung

Ich werde jede Bibliothek einzeln erklären, wenn ich sie in der Arbeit verwendet habe, also habe ich sie einmal als Zauber kopiert.

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import (
    LinearRegression,
    Ridge,
    Lasso
)
%matplotlib inline

Datenerfassung

Die eigentliche Arbeit beginnt hier. Lesen und formatieren Sie zunächst die zu verwendende CSV-Datei. Kopieren Sie dies vorerst. Erkläre eins nach dem anderen.

#Daten lesen
train = pd.read_csv('train.csv') #Trainingsdaten
test = pd.read_csv('test.csv') #Testdaten
#Führen Sie Trainingsdaten und Testdaten zusammen
train['WhatIsData'] = 'Train'
test['WhatIsData'] = 'Test'
test['SalePrice'] = 9999999999
alldata = pd.concat([train,test],axis=0).reset_index(drop=True)
print('The size of train is : ' + str(train.shape))
print('The size of test is : ' + str(test.shape))

CSV-Datei lesen

Die Daten werden einheitlich in der Spalte der Zugvariablen gespeichert

Gatch-Testdaten und Zugdaten

Zeigen Sie eine Übersicht der erfassten Daten an

Das ist es.

Das ist alles für heute. Ich werde es eine Stunde pro Woche verwenden, um es zusammenzustellen, also ist es schnell wie eine Schildkröte, aber ich danke Ihnen für Ihre Schirmherrschaft.

Recommended Posts

[Praktisch für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 1: Lesen von Daten)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (5. Dummy von kategorialen Variablen)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 2: Bestätigung fehlender Werte)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (Teil 3: Vorbereitung zum Ausfüllen fehlender Werte)
[Praktisch für Anfänger] Lesen Sie zaggles "Vorhersage der Eigenheimpreise" Zeile für Zeile (8. Erstellen eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (4 .: Ergänzende Werte ergänzen (vollständig))
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (7. Vorbereiten der Erstellung eines Vorhersagemodells)
[Hands-on für Anfänger] Lesen Sie zaggles "Predicting Home Prices" Zeile für Zeile (6 .: Verteilungskonvertierung objektiver Variablen)
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil6
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil5
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil2
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil1
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil9
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil7
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil4
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil8
Data Science 100 Knock ~ Kampf um weniger als Anfänger Teil11
[Für Anfänger] Grundlagen von Python erklärt durch Java Gold Teil 2
Implementieren von 100 Data Science-Schlägen für Anfänger in Data Science (für Windows 10 Home)
[Für Anfänger] Grundlagen von Python erklärt durch Java Gold Teil 1