[PYTHON] [Datenanalyse] Soll ich die Harumi-Flagge kaufen?

0. einpacken

"Harumi Flag" ist eine großflächige Wohnung im Stadtzentrum, die sich auf dem Gelände des olympischen Sportlerdorfes befindet. Da es nur 20 Gehminuten vom nächsten Bahnhof entfernt ist, gibt es nur wenige Präzedenzfälle in Bezug auf die Lage. Ich habe mich gefragt, ob die Preisgestaltung angemessen ist, und habe daher eine mehrfache Regressionsanalyse mit Python versucht. Aus der Schlussfolgerung wurde entschieden, dass "die Grundpreiseinstellung im Vergleich zu ähnlichen Immobilien angemessen ist". Daher kann gesagt werden, dass es sich im Grunde um eine Eigenschaft handelt, die nicht verliert. Der Preisaufschlag des Gebäudes mit guter Aussicht ist jedoch hoch. Wenn Ihnen die Aussicht gefällt und Sie mit dem Preis zufrieden sind, können Sie sagen, dass es sich um eine gute Immobilie handelt.

1. 1. Auf dem vorderen Mund

Die Olympischen Spiele werden dieses Jahr endlich in Tokio stattfinden. Ich freue mich auf den Erfolg der Spieler, einschließlich Badminton :. Es gibt verschiedene Themen im Zusammenhang mit den Olympischen Spielen. Persönlich interessiert mich die Harumi-Flagge auf dem Gelände des Spielerdorfes. Ich bin sehr daran interessiert, weil es ein großes Projekt in der Innenstadt ist. Es ist jedoch etwa 20 Gehminuten von der nächsten Katsudoki-Station entfernt. Wie hoch ist in den Vororten die Preisgestaltung für eine großflächige Entwicklung, die 20 Gehminuten vom Stadtzentrum entfernt liegt? Ich weiß es nicht, also habe ich beschlossen, die Daten zu analysieren.

2. Datenanalysefluss

Die Datenanalyse wurde gemäß dem folgenden Fluss durchgeführt. (Nach der Analyse wurde auch eine Überprüfung durchgeführt.) (1) Datenerfassung (Scraping) (2) Datenvorverarbeitung (3) Datenanalyse

3. 3. Datensammlung

Die Datenerfassung wurde auf der Website von Herrn Sumo abgekratzt. Vielen Dank, Herr Sumo! Ich wollte unbedingt den Preis einer neuen Wohnung verwenden, aber ich habe den Preis einer gebrauchten Wohnung verwendet, weil es viele unentschlossene Preise gibt und nur wenige Daten verfügbar sind. Zuerst haben wir auch Minato Ward und Shinagawa Ward ins Visier genommen, die sich der Bucht von Tokio gegenübersehen. Es wurden jedoch auch Wohnungen wie Azabu und Osaki als Ziel ausgewählt, und Objekte mit unterschiedlichen Zielbildern wurden einbezogen. Am Ende habe ich also nur Koto Ward ins Visier genommen. Obwohl die Harumi-Flagge weniger als die 20. Etage ist, habe ich Immobilien mit mehr als 20 Etagen ausgewählt, weil ich das Image einer Hochhauswohnung hatte, und Immobilien mit insgesamt mehr als 100 Einheiten, weil ich eine großflächige Entwicklung anstreben wollte. Das Layout reicht von 2LDK bis 4LDK (LDK enthält K und DK). Als Ergebnis der bedingten Suche betrugen die Zieldaten insgesamt 438. Es ist besser, mehr zu haben, aber ich habe diese Anzahl von Daten gesammelt. Es gibt viele hilfreiche Artikel zum Thema Scraping. Listen Sie berühmte Artikel als Referenz auf.

[Ich habe maschinelles Lernen verwendet, um ein Schnäppchen-Mietobjekt in den 23 Bezirken von Tokio zu finden] (http://www.analyze-world.com/entry/2017/11/09/061023)

Die Seite wird ziemlich oft aktualisiert. Die Daten von Sumo wurden in der Klasse dottable dottable - cassette gespeichert, sodass Sie wie folgt vorgehen können.

result = requests.get(url)   
c = result.content
soup = BeautifulSoup(c, "html.parser")
summary = soup.find("div",{'id':'js-bukkenList'})
cassetteitems = summary.find_all("div",{'class':'dottable dottable--cassette'})

4. Datenvorverarbeitung

Dieses Mal wurden die Fläche, die Entfernung vom Bahnhof (wie viele Minuten zu Fuß) und das Alter des Gebäudes als erklärende Variablen verwendet. Wenn das Layout als erklärende Variable, die Fläche und das Multico übernommen wurde (multiple Co-Linearität: Wenn ähnliche erklärende Variablen verwendet würden, würde eine starke Korrelation zwischen den erklärenden Variablen auftreten, sodass die Analyse nicht funktionieren würde), wurde sie vom Ziel ausgeschlossen. Die objektive Variable ist natürlich der Preis (10.000 Yen).

Die Datenvorverarbeitung ist eine Reihe von Arbeiten im Zusammenhang mit der Datenanalyse und gilt als die einfachste, aber wichtigste. Aber um klar zu sein, ist es nicht interessant. Der Artikel von Herrn Sumo hat nur wenige fehlende Werte, so dass er leicht zu handhaben ist, aber das Alter wurde verarbeitet und in Monate umgerechnet. Ursprünglich ist es möglicherweise besser, die Daten zu normalisieren (den Durchschnitt auf 0 und die Standardabweichung auf 1 zu verarbeiten). Ich wollte jedoch zum Beispiel sehen, welche Auswirkungen der Preis hatte, als ich eine Minute vom Bahnhof entfernt war, und entschied mich, diese Zeit nicht zu normalisieren. Es gibt einen leicht verständlichen Artikel zur Datenvorverarbeitung. Bitte lesen Sie ihn.

[Beispiel für die Analyse von Immobiliendaten [Vorverarbeitung von Python-Daten]] (https://sinyblog.com/python/real_estate_analysis_002/)

[Datenerfassung und Analyse von Immobilieninformationen durch Python (5) [Verkauf von Immobilien / Datenvorverarbeitung]] (https://akatak.hatenadiary.jp/entry/2018/09/15/090032)

5. Datenanalyse

Legen Sie nach dem Scraping die vorverarbeiteten Daten in den Pandas-Datenrahmen DF. Dieses Mal werden wir nur die folgenden vier Daten verwenden.

df=df.loc[:,['Bauzeitalter','Benötigte Zeit(Protokoll)','Bereich','Preis(Zehntausend Yen)']]

Das Überprüfen des Inhalts der Daten mit df.head () ist wie folgt.

Erstellungsdatum Erforderliche Zeit(Protokoll)Bereich(㎡)Preis(Zehntausend Yen)
0	183	     3	           64.79	  4780
1	61	     8	           55.92	  5190
2	61	     8	           65.88	    5190
3	61	     8	           55.38	    5440
4	143	     8	           78.70	    5480

Es gibt Immobilien mit dem gleichen Alter und der erforderlichen Zeit (Minuten), aber mit unterschiedlichen Bereichen, aber dem gleichen Preis. Ich fand es etwas seltsam und stellte fest, dass das Anwesen mit einem kleineren Bereich der Wohnung selbst einen größeren Balkonbereich hatte (nicht analysierbar), was der Grund für den gleichen Preis zu sein scheint. Lassen Sie uns diese Zeit analysieren, ohne uns um die Details zu kümmern.

Wenn Sie den Preis aus einem Datentyp ermitteln möchten, z. B. aus einem Bereich, handelt es sich um eine einfache Regressionsanalyse. In diesem Fall ist der Bereich die erklärende Variable und der Preis die objektive Variable.

Dieses Mal gibt es drei Arten von erklärenden Variablen (Erstellungsdatum, erforderliche Zeit (Minuten), Fläche (㎡)), sodass eine multiple Regressionsanalyse durchgeführt wird. Die Zielvariable ist der Preis. Für die multiple Regressionsanalyse verwenden wir sklearn, einen Standard für maschinelles Lernen.

from sklearn import linear_model
clf = linear_model.LinearRegression()
 
#Preis zur erklärenden Variablen(Zehntausend Yen)Verwenden Sie andere als
df2 = df.drop('Preis(Zehntausend Yen)', axis=1)
X = df2.as_matrix()
 
#Preis in der Zielvariablen(Zehntausend Yen)verwenden
Y = df['Preis(Zehntausend Yen)'].as_matrix()
 
#Erstellen Sie ein Vorhersagemodell
clf.fit(X, Y)
 
#Partieller Regressionskoeffizient
print(pd.DataFrame({"Name":df2.columns,
                    "Coefficients":clf.coef_}).sort_values(by='Coefficients') )
 
#Sektion(Error)
print(clf.intercept_)

Das Ergebnis wird wie folgt ausgedrückt.

Preis(Zehntausend Yen)=Benötigte Zeit(Protokoll)*(-144.791875)+
Bauzeitalter*(-11.745408)+
Bereich(㎡)*90.448675+
      2205.2165149154216

Kurz gesagt, was aus dieser Datenanalyse gesagt werden kann, ist (1) Eine Minute vom Bahnhof entfernt wird der Preis um etwa 1,5 Millionen Yen fallen. (2) Einen Monat nach dem Neubau wird der Preis jedes Mal um etwa 120.000 Yen fallen. (3) Wenn die Fläche 1 m2 wird und breiter wird, erhöht sich der Preis um etwa 900.000 Yen.

6. Überprüfung

Wenden wir die Ergebnisse der multiplen Regressionsanalyse an. Da es sich um eine neu erbaute Immobilie handelt, ist das Alter der Immobilie natürlich Null. Nehmen wir an, dass die anzuwendende Eigenschaft die mittlere Etage ist (9. Etage, wenn es sich um 18 Stockwerke handelt). Der Preis der Harumi-Flagge wurde bereits teilweise bekannt gegeben. Was angekündigt wurde, ist Teil von PARK VILLAGE A bis F Gebäuden und anderen. Die Überprüfungsergebnisse werden in der folgenden Reihenfolge erläutert. (1) Eigenschaften, die gut zur multiplen Regressionsgleichung passen (2) Eigenschaften, für die die multiple Regressionsgleichung nicht gilt (3) Warum gibt es einen Unterschied in der Anpassung der multiplen Regressionsgleichung?

(1) Eigenschaften, die gut zur multiplen Regressionsgleichung passen

Die multiple Regressionsgleichung gilt relativ gut für die Gebäude B und C des PARK VILLAGE. Zum Beispiel eine Eigenschaft von 75,46㎡ in Gebäude B. Die Entfernung zum Gebäude B beträgt 20 Minuten zu Fuß vom Bahnhof. Wenn Sie also mit der multiplen Regressionsformel rechnen,

20(Protokoll)*(-144.791875)+75.46(㎡)*90.448675+2205.2165149154216=6,1,35 Millionen Yen

Wird sein. Da der Verkaufspreis 61,3 Millionen Yen beträgt, entspricht er fast dem Ergebnis der Regressionsgleichung.

Dann das Eigentum von 78,56㎡ in Gebäude C. Die Entfernung zum Gebäude C beträgt 19 Minuten zu Fuß vom Bahnhof. Wenn Sie also mit der Formel für die multiple Regression rechnen,

19(Protokoll)*(-144.791875)+78.56(㎡)*90.448675+2205.2165149154216=6,5,6 Millionen Yen

Wird sein. Da der Verkaufspreis 65,6 Millionen Yen beträgt, entspricht er vollständig dem Ergebnis der Regressionsgleichung.

Wenn Sie danach suchen, gibt es einige Immobilien mit dem Preisverhältnis, das durch die multiple Regressionsformel und gute Angebote erhalten wird. Zum Beispiel eine Eigenschaft von 87,43㎡ in Gebäude C. Bei Berechnung nach der multiplen Regressionsgleichung

19(Protokoll)*(-144.791875)+87.43(㎡)*90.448675+2205.2165149154216=7,3,62 Millionen Yen

Wird sein. Da der Verkaufspreis 64,9 Millionen Yen beträgt, ist dies eine gute Preiseinstellung, die auf dem Ergebnis der Regressionsgleichung basiert.

(2) Eigenschaften, für die die multiple Regressionsgleichung nicht gilt

Andererseits ist es nicht wahr, oder die Preise sind höher als das Ergebnis der multiplen Regressionsgleichung in den Gebäuden A und F. Zum Beispiel eine Eigenschaft von 86,55㎡ in Gebäude A. Die Entfernung zu Gebäude A beträgt 21 Minuten zu Fuß vom Bahnhof. Wenn Sie also mit der multiplen Regressionsformel rechnen,

21(Protokoll)*(-144.791875)+86.55(㎡)*90.448675+2205.2165149154216=6,9,93 Millionen Yen

Wird sein. Da der Verkaufspreis 101 Millionen Yen beträgt, ist er 30 Millionen Yen höher als die Renditeformel.

Dann gibt es die 81.76㎡-Liegenschaft in Gebäude F. Die Entfernung zum Gebäude F beträgt ebenfalls 21 Minuten zu Fuß vom Bahnhof. Wenn Sie also mit der multiplen Regressionsformel rechnen,

21(Protokoll)*(-144.791875)+81.76(㎡)*90.448675+2205.2165149154216=6,5,6 Millionen Yen

Wird sein. Da der Verkaufspreis 72 Millionen Yen beträgt, ist er 6,4 Millionen Yen höher als die Renditeformel.

Gebäude F ist jedoch nicht so breit wie Gebäude A. Ich war überrascht, dass der Verkaufspreis von Gebäude A vom Ergebnis der multiplen Regressionsgleichung abwich. Das Folgende ist eine Liste in absteigender Reihenfolge der Divergenz. Gebäude A> Gebäude F> Gebäude B, Gebäude C.

(3) Warum gibt es einen Unterschied in der Anpassung der multiplen Regressionsgleichung?

Zuerst dachte ich, dass der Unterschied zwischen der multiplen Regressionsformel und dem Verkaufspreis auf den Unterschied in der Hardware zurückzuführen ist. Trotzdem kannte ich den spezifischen Hardwareunterschied nicht. Ich bemerkte es schließlich, als ich auf die Karte von Harumi Flag schaute, ohne die Ursache des Preisunterschieds zu kennen. Der Preisunterschied wurde durch den Unterschied in der Ansicht verursacht.

In den folgenden Artikeln werden die Merkmale jedes Gebäudes klar beschrieben. [[HARUMI FLAG] SEA und PARK VILLAGE Preisliste für das erste Semester wird veröffentlicht] (https://wangantower.com/?p=16436)

Die im obigen Artikel beschriebenen Merkmale jedes Gebäudes können wie folgt zusammengefasst werden.

・ Ich möchte jeden Tag die Regenbogenbrücke in der ersten Reihe sehen → Gebäude A.
・ Ich möchte die Regenbogenbrücke sehen, kann sie aber nicht so sehr löschen wie Gebäude A → Gebäude F.
・ Es ist besser, den Gesamtbetrag bescheiden zu halten, und die Sicht wird in gewissem Maße beeinträchtigt. → Gebäude B und C.

Mit anderen Worten, der Unterschied zwischen dem Sehen und Nicht-Sehen der Regenbogenbrücke. Die Gebäude B und C weisen Verkaufspreise auf, die sich nicht wesentlich von den Ergebnissen der multiplen Regressionsgleichung unterscheiden, die durch Datenanalyse erhalten wurden, da die Regenbogenbrücke nicht sichtbar ist. Mit anderen Worten kann gesagt werden, dass der Grundpreis zu einem angemessenen Preis festgelegt wird. Andererseits scheint in den Gebäuden A und F das Verkaufsargument der Harumi-Flagge "gute Sicht" als Preisprämie zu den Ergebnissen hinzugefügt zu werden, die durch die multiple Regressionsgleichung erhalten werden. Übrigens habe ich gehört, dass es einen Unterschied im Preis eines Hauses gibt, je nachdem, ob Sie Sakurajima in Kagoshima sehen können oder nicht. Die Ursache für den Preisunterschied der Harumi-Flagge war der Unterschied in der "Ansicht", ob die Regenbogenbrücke sichtbar ist oder nicht: rainbow :: bridge_at_night:

7. Eindrücke

Es gibt nur wenige Präzedenzfälle ⇒ Es gibt nur wenige Daten ⇒ Es ist keine anständige Datenanalyse möglich Ich habe mich gefragt, was ich tun soll, wenn das Ergebnis unordentlich ist. Die Anzahl der Daten war nicht so groß, aber ich persönlich halte das für ein vernünftiges Ergebnis.

Trotzdem denke ich, dass jedes Mal, wenn ich versuche, Daten zu analysieren, es eine Grenze gibt, wie nahe an der Wahrheit erreicht werden kann, wenn nur Daten analysiert werden. Auch hier war ich mir zunächst nicht sicher, was den Preisunterschied verursacht hat. Ich verstehe, dass Wohnungen mit einer guten Aussicht teuer sind, aber ehrlich gesagt bin ich überrascht, dass eine solche Prämie aufgeführt ist. Eigentlich dachte ich, dass der Stückpreis pro tsubo ≒ Baukosten. Nun, ich beneide diejenigen, die es kaufen können.

8. Lektionen gelernt

Wenn Sie Fragen haben, überlegen Sie, ob Sie diese durch Datenanalyse überprüfen können. Die Welt ist jedoch nicht so süß, dass die wahre Ursache nur durch Datenanalyse gefunden werden kann.

9. Schließlich

Wir möchten Herrn Sumo und allen Personen auf der Website für ihre Referenz danken. Wenn Sie eine Meinung haben, teilen Sie uns dies bitte mit.

Recommended Posts

[Datenanalyse] Soll ich die Harumi-Flagge kaufen?
Ich habe versucht, das Spiel in der J League vorherzusagen (Datenanalyse)
Welches sollte ich für die Datenanalyse studieren, R oder Python?
Ich habe den Python-Datenanalysetest bestanden und die Punkte zusammengefasst
Ich habe versucht, Faktoren mit Titanic-Daten zu analysieren!
Ich habe versucht, die verkratzten Daten in CSV zu speichern!
Ich habe das Datenaufbereitungstool Paxata berührt
Ich habe ein Python-Datenanalysetraining aus der Ferne durchgeführt
Ich habe versucht, die Wetterkarte einer Clusteranalyse zu unterziehen
Ich habe nach Railway Kawayanagi aus den Daten gesucht
Ich habe versucht, die Daten mit Zwietracht zu speichern
Ich habe zuerst die SARS-Analyse vor dem Corona-Virus versucht
Ich habe versucht, die Hauptkomponenten mit Titanic-Daten zu analysieren!
Datenanalyse Titanic 2
[Erste Datenwissenschaft ⑤] Ich habe versucht, meinem Freund zu helfen, die erste Eigenschaft durch Datenanalyse zu finden
Datenanalyse Python
Datenanalyse Titanic 3
Die Python Engineer-Zertifizierungsdatenanalyseprüfung bestanden haben
Alle zerstörerischen Methoden, die Datenwissenschaftler kennen sollten
Lassen Sie uns die Daten der Fragebogenumfrage analysieren [4 .: Emotionsanalyse]
Big-Data-Analyse mit dem Datenflusskontroll-Framework Luigi
Ich habe versucht, EKG-Daten mit der K-Shape-Methode zu gruppieren
Schauen wir uns das Streudiagramm vor der Datenanalyse an
Ich habe die Datenzuordnung zwischen ArangoDB und Java untersucht
Ich habe versucht, die API von Sakenowa Data Project zu verwenden
Ich habe die gleiche Datenanalyse mit kaggle notebook (python) und PowerBI gleichzeitig versucht ②
Was Sie bei der Zeitreihendatenanalyse (einschließlich Reflexion) nicht tun sollten