Es gab eine Geschichte über die Aufgabe, ein Immobiliensystem als Dienstleistung zu betreiben, und dass es keinen Verlust gibt, auf Feldebene praktische Arbeit zu leisten. Aus diesem Grund haben wir uns entschlossen, das berühmte "Hauspreis" -Problem von kaggle gemeinsam in Frage zu stellen. Deshalb habe ich beschlossen, den Inhalt des Lesens jeder Zeile in Qiita zu veröffentlichen, da es später nützlich wäre, wenn ich es richtig notieren würde. Es ist eher ein Memo als ein Kommentar, aber ich hoffe, es hilft jemandem irgendwo.
Ich werde jede Bibliothek einzeln erklären, wenn ich sie in der Arbeit verwendet habe, also habe ich sie einmal als Zauber kopiert.
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import (
LinearRegression,
Ridge,
Lasso
)
%matplotlib inline
Die eigentliche Arbeit beginnt hier. Lesen und formatieren Sie zunächst die zu verwendende CSV-Datei. Kopieren Sie dies vorerst. Erkläre eins nach dem anderen.
#Daten lesen
train = pd.read_csv('train.csv') #Trainingsdaten
test = pd.read_csv('test.csv') #Testdaten
#Führen Sie Trainingsdaten und Testdaten zusammen
train['WhatIsData'] = 'Train'
test['WhatIsData'] = 'Test'
test['SalePrice'] = 9999999999
alldata = pd.concat([train,test],axis=0).reset_index(drop=True)
print('The size of train is : ' + str(train.shape))
print('The size of test is : ' + str(test.shape))
Anwendbare Quelle: train = pd.read_csv ('train.csv') #training data
Beschreibung: Importieren Sie mit den von "Pandas als pd importieren" importierten Pandas die CSV-Datei und speichern Sie sie in der Variablen "train". Als persönliche Interpretation ist Pandas eine Eisenplattenbibliothek, mit der Daten auf einfache Weise tabellarisch verarbeitet werden können.
Referenz: https://dividable.net/programming/python-pandas/
train ['WhatIsData'] = 'Train'
alldata = pd.concat ([Zug, Test], Achse = 0) .reset_index (drop = True)
print ('Die Größe des Zuges ist:' + str (train.shape))
Das ist alles für heute. Ich werde es eine Stunde pro Woche verwenden, um es zusammenzustellen, also ist es schnell wie eine Schildkröte, aber ich danke Ihnen für Ihre Schirmherrschaft.
Recommended Posts