[PYTHON] [Analyse des données] Dois-je acheter le drapeau Harumi?

0. emballer

«Harumi Flag» est un appartement de grande taille dans le centre-ville qui se trouve sur le site du village des athlètes olympiques. Comme il se trouve à 20 minutes à pied de la gare la plus proche, il existe peu de précédents en termes de conditions de localisation. Je me demandais si le prix était raisonnable, alors j'ai fait une analyse de régression multiple avec Python. À partir de la conclusion, il a été décidé que "le prix de base fixé est raisonnable par rapport à des propriétés similaires". Par conséquent, on peut dire que c'est essentiellement une propriété qui ne perd pas. Cependant, la prime de prix du bâtiment avec une bonne vue est élevée. Si vous aimez la vue et êtes satisfait du prix, vous pouvez dire que c'est une bonne propriété.

1. 1. Sur la bouche avant

Les Jeux Olympiques auront finalement lieu à Tokyo cette année. J'attends avec impatience le succès des joueurs, notamment de badminton:. Il existe différents sujets liés aux Jeux olympiques. Personnellement, je suis intéressé par le drapeau Harumi sur le site du village des joueurs. Cela m'intéresse beaucoup car c'est un gros projet en centre-ville. Cependant, il se trouve à environ 20 minutes à pied de la gare de Katsudoki la plus proche. En banlieue, de toute façon, quel est le prix fixé pour un développement à grande échelle à 20 minutes à pied du centre-ville? Je ne sais pas, alors j'ai décidé d'analyser les données.

2. Flux d'analyse des données

L'analyse des données a été réalisée selon le flux suivant. (Après analyse, une vérification a également été effectuée.) (1) Collecte de données (grattage) (2) Prétraitement des données (3) Analyse des données

3. 3. Collecte de données

La collecte de données a été grattée sur le site de M. Sumo. Merci, M. Sumo! Je voulais vraiment utiliser le prix d'un appartement neuf, mais j'ai utilisé le prix d'un appartement d'occasion car il y a beaucoup de prix indécis et il y a peu de données disponibles. Dans un premier temps, nous avons également ciblé les quartiers Minato et Shinagawa, qui font face à la baie de Tokyo. Cependant, des appartements tels que Azabu et Osaki ont également été ciblés, et des propriétés avec des images cibles différentes ont été incluses. Donc, à la fin, je n'ai ciblé que Koto Ward. Bien que le drapeau Harumi soit inférieur au 20e étage, j'ai choisi des propriétés de plus de 20 étages car j'avais l'image d'un appartement de grande hauteur, et des propriétés de plus de 100 unités au total parce que je voulais viser un développement à grande échelle. La disposition est de 2LDK à 4LDK (LDK inclut K et DK). À la suite de la recherche conditionnelle, les données cibles étaient de 438 au total. Il vaut mieux en avoir plus, mais j'ai collecté ce nombre de données. Il existe de nombreux articles utiles sur le grattage. Liste des articles célèbres pour référence.

[J'ai utilisé l'apprentissage automatique pour trouver une propriété à louer à bon prix dans les 23 quartiers de Tokyo] (http://www.analyze-world.com/entry/2017/11/09/061023)

Le site est mis à jour assez souvent. Les données de Sumo ont été stockées dans la classe dottable dottable - cassette, vous pouvez donc procéder comme suit.

result = requests.get(url)   
c = result.content
soup = BeautifulSoup(c, "html.parser")
summary = soup.find("div",{'id':'js-bukkenList'})
cassetteitems = summary.find_all("div",{'class':'dottable dottable--cassette'})

4. Prétraitement des données

Cette fois, la superficie, la distance de la gare (combien de minutes à pied) et l'âge du bâtiment ont été utilisés comme variables explicatives. Lorsque la mise en page a été adoptée comme variable explicative, l'aire et le multico (colinéarité multiple: si des variables explicatives similaires étaient utilisées, une forte corrélation se produirait entre les variables explicatives, de sorte que l'analyse ne fonctionnerait pas), elle a donc été exclue de la cible. La variable objective est, bien entendu, le prix (10 000 yens).

Le prétraitement des données est une série de travaux liés à l'analyse des données et est considéré comme le plus simple mais le plus important. Mais pour être clair, ce n'est pas intéressant. L'article de M. Sumo a peu de valeurs manquantes, il est donc facile à manipuler, mais l'âge a été traité et converti en mois. À l'origine, il peut être préférable de normaliser les données (traiter la moyenne à 0 et l'écart type à 1). Cependant, par exemple, je voulais voir quel genre d'effet le prix avait quand j'étais à une minute de la gare, alors j'ai décidé de ne pas normaliser cette fois. Il existe un article sur le prétraitement des données facile à comprendre, veuillez donc vous y référer.

[Exemple d'analyse de données immobilières [prétraitement de données python]] (https://sinyblog.com/python/real_estate_analysis_002/)

[Acquisition de données et analyse d'informations immobilières par Python (5) [Propriété à vendre / Prétraitement des données]] (https://akatak.hatenadiary.jp/entry/2018/09/15/090032)

5. L'analyse des données

Après le grattage, placez les données prétraitées dans la trame de données pandas DF. Cette fois, nous n'utiliserons que les quatre données suivantes.

df=df.loc[:,['Âge de la construction','Temps requis(Minutes)','zone','prix(Dix mille yens)']]

La vérification du contenu des données avec df.head () est la suivante.

Date de construction Temps requis(Minutes)zone(㎡)prix(Dix mille yens)
0	183	     3	           64.79	  4780
1	61	     8	           55.92	  5190
2	61	     8	           65.88	    5190
3	61	     8	           55.38	    5440
4	143	     8	           78.70	    5480

Il y a des propriétés avec le même âge et le temps requis (minutes), mais avec des zones différentes mais au même prix. J'ai trouvé que c'était un peu étrange et j'ai trouvé que la propriété avec une plus petite superficie de l'appartement lui-même avait un plus grand balcon (non soumis à analyse), ce qui semble être la raison du même prix. Eh bien, analysons cette fois sans se soucier des détails.

Si vous souhaitez trouver le prix à partir d'un type de données, par exemple, la zone, il s'agit d'une simple analyse de régression. Dans ce cas, la surface est la variable explicative et le prix est la variable objective.

Cette fois, il existe trois types de variables explicatives (date de construction, temps requis (minutes), surface (㎡)), donc une analyse de régression multiple est effectuée. La variable objective est le prix. Pour l'analyse de régression multiple, nous utiliserons sklearn, qui est une norme en apprentissage automatique.

from sklearn import linear_model
clf = linear_model.LinearRegression()
 
#Prix à la variable explicative(Dix mille yens)Utiliser autre que
df2 = df.drop('prix(Dix mille yens)', axis=1)
X = df2.as_matrix()
 
#Prix dans la variable objectif(Dix mille yens)utilisation
Y = df['prix(Dix mille yens)'].as_matrix()
 
#Créer un modèle prédictif
clf.fit(X, Y)
 
#Coefficient de régression partiel
print(pd.DataFrame({"Name":df2.columns,
                    "Coefficients":clf.coef_}).sort_values(by='Coefficients') )
 
#Section(Erreur)
print(clf.intercept_)

Le résultat est exprimé comme suit.

prix(Dix mille yens)=Temps requis(Minutes)*(-144.791875)+
Âge de la construction*(-11.745408)+
zone(㎡)*90.448675+
      2205.2165149154216

En bref, ce que l'on peut dire de cette analyse de données est (1) À une minute de la gare, le prix baissera d'environ 1,5 million de yens. (2) Un mois après la nouvelle construction, le prix baissera d'environ 120 000 yens à chaque fois. (3) Si la superficie devient 1 m2 et s'élargit, le prix augmentera d'environ 900 000 yens.

6. Vérification

Appliquons les résultats de l'analyse de régression multiple. Puisqu'il s'agit d'une propriété nouvellement construite, l'âge de la propriété sera naturellement zéro. Supposons que la propriété à appliquer est l'étage du milieu (9e étage s'il s'agit de 18 étages). Le prix du drapeau Harumi a déjà été partiellement annoncé. Ce qui a été annoncé fait partie des bâtiments PARK VILLAGE A à F et autres. Les résultats de la vérification seront expliqués dans l'ordre suivant. (1) Propriétés qui correspondent bien à l'équation de régression multiple (2) Propriétés pour lesquelles l'équation de régression multiple ne s'applique pas (3) Pourquoi y a-t-il une différence dans l'ajustement de l'équation de régression multiple?

(1) Propriétés qui correspondent bien à l'équation de régression multiple

L'équation de régression multiple s'applique relativement bien aux bâtiments B et C de PARK VILLAGE. Par exemple, une propriété de 75,46㎡ dans le bâtiment B. La distance du bâtiment B est à 20 minutes à pied de la gare, donc si vous calculez avec la formule de régression multiple,

20(Minutes)*(-144.791875)+75.46(㎡)*90.448675+2205.2165149154216=6,1,35 million de yens

Sera. Puisque le prix de vente est de 61,3 millions de yens, il est presque le même que le résultat de l'équation de régression.

Ensuite, la propriété de 78,56㎡ dans le bâtiment C. La distance du bâtiment C est à 19 minutes à pied de la gare, donc si vous calculez avec la formule de régression multiple,

19(Minutes)*(-144.791875)+78.56(㎡)*90.448675+2205.2165149154216=6,5,6 millions de yens

Sera. Étant donné que le prix de vente est de 65,6 millions de yens, il correspond complètement au résultat de l'équation de régression.

Si vous le recherchez, il existe des propriétés avec le rapport de prix obtenu par la formule de régression multiple et des bonnes affaires. Par exemple, une propriété de 87,43㎡ dans le bâtiment C. Lorsqu'il est calculé par l'équation de régression multiple,

19(Minutes)*(-144.791875)+87.43(㎡)*90.448675+2205.2165149154216=7,3,62 millions de yens

Sera. Étant donné que le prix de vente est de 64,9 millions de yens, il s'agit d'un bon prix basé sur le résultat de l'équation de régression.

(2) Propriétés pour lesquelles l'équation de régression multiple ne s'applique pas

D'un autre côté, ce n'est pas vrai, ou les prix sont fixés plus haut que le résultat de l'équation de régression multiple dans les bâtiments A et F. Par exemple, une propriété de 86,55㎡ dans le bâtiment A. La distance au bâtiment A est de 21 minutes à pied de la gare, donc si vous calculez avec la formule de régression multiple,

21(Minutes)*(-144.791875)+86.55(㎡)*90.448675+2205.2165149154216=6,9,93 millions de yens

Sera. Puisque le prix de vente est de 101 millions de yens, il est 30 millions de yens plus élevé que la formule de retour.

Ensuite, il y a la propriété 81,76㎡ dans le bâtiment F. La distance au bâtiment F est également à 21 minutes à pied de la gare, donc si vous calculez avec la formule de régression multiple,

21(Minutes)*(-144.791875)+81.76(㎡)*90.448675+2205.2165149154216=6,5,6 millions de yens

Sera. Le prix de vente étant de 72 millions de yens, il est de 6,4 millions de yens supérieur à la formule de retour.

Cependant, le bâtiment F n'est pas aussi large que le bâtiment A. J'ai été surpris que le prix de vente du bâtiment A s'écarte du résultat de l'équation de régression multiple. Voici une liste par ordre décroissant de divergence. Bâtiment A> Bâtiment F> Bâtiment B, Bâtiment C

(3) Pourquoi y a-t-il une différence dans l'ajustement de l'équation de régression multiple?

Au début, je pensais que la différence entre la formule de régression multiple et le prix de vente était due à la différence de matériel. Pourtant, je ne connaissais pas la différence matérielle spécifique. J'ai finalement remarqué quand je regardais la carte de Harumi Flag sans connaître la cause de la différence de prix. La différence de prix a été causée par la différence de vue.

Les articles suivants décrivent clairement les caractéristiques de chaque bâtiment. [[HARUMI FLAG] SEA and PARK VILLAGE Les tarifs du premier trimestre seront publiés] (https://wangantower.com/?p=16436)

Les caractéristiques de chaque bâtiment décrites dans l'article ci-dessus peuvent être résumées comme suit.

・ Je veux voir le Rainbow Bridge au premier rang tous les jours → Bâtiment A
・ Je veux voir le Rainbow Bridge, mais je ne peux pas l'éteindre autant que le bâtiment A → le bâtiment F
・ Il vaut mieux garder le montant total modeste, et la vue sera compromise dans une certaine mesure → Bâtiments B et C

En d'autres termes, la différence entre voir et ne pas voir le Rainbow Bridge. Comme le pont arc-en-ciel ne peut pas être vu dans les bâtiments B et C, les prix de vente ne sont pas significativement différents des résultats de l'équation de régression multiple obtenue par l'analyse des données. En d'autres termes, on peut dire que le prix de base est fixé à un prix raisonnable. En revanche, dans les bâtiments A et F, il semble que l'argument de vente du drapeau Harumi, «bonne vue», soit ajouté en prime de prix aux résultats obtenus par l'équation de régression multiple. Au fait, j'ai entendu dire qu'il y avait une différence dans le prix d'une maison selon que l'on peut voir Sakurajima à Kagoshima ou non. La cause de la différence de prix du drapeau Harumi était la différence dans la "vue" de savoir si le pont arc-en-ciel peut être vu ou non: rainbow :: bridge_at_night:

7. Impressions

Il y a peu de précédents ⇒ Il y a peu de données ⇒ Aucune analyse de données décente n'est possible Je me demandais quoi faire si le résultat était désordonné. Le nombre de données n'était pas si grand, mais je pense personnellement que c'est un résultat raisonnable.

Même ainsi, chaque fois que j'essaie d'analyser des données, je pense qu'il y a une limite à la proximité de la vérité en analysant les données seules. Encore une fois, au début, je n'étais pas sûr de la cause de la différence de prix. Je comprends que les appartements avec une bonne vue sont chers, mais honnêtement, je suis surpris qu'une telle prime soit répertoriée. En fait, je pensais que le prix unitaire par tsubo ≒ coût de construction. Eh bien, j'envie ceux qui peuvent l'acheter.

8. Enseignements tirés

Si vous avez des questions, demandez-vous si vous pouvez les vérifier par l'analyse des données. Cependant, le monde n'est pas si doux que la vraie cause ne peut être trouvée que par l'analyse des données.

9. Enfin

Nous remercions M. Sumo et toutes les personnes présentes sur le site pour leur référence. Aussi, si vous avez des opinions, faites-le nous savoir.

Recommended Posts

[Analyse des données] Dois-je acheter le drapeau Harumi?
J'ai essayé de prédire le match de la J League (analyse des données)
Lequel dois-je étudier, R ou Python, pour l'analyse des données?
J'ai réussi le test d'analyse de données Python, j'ai donc résumé les points
J'ai essayé l'analyse factorielle avec des données Titanic!
J'ai essayé de sauvegarder les données récupérées au format CSV!
J'ai touché à l'outil de préparation de données Paxata
J'ai suivi une formation à l'analyse de données Python à distance
J'ai essayé l'analyse par grappes de la carte météo
J'ai recherché Railway Kawayanagi à partir des données
J'ai essayé de sauvegarder les données avec discorde
J'ai essayé l'analyse du SRAS avant le virus corona
J'ai essayé d'analyser les principaux composants avec les données du Titanic!
Analyse des données Titanic 2
[Première science des données ⑤] J'ai essayé d'aider mon ami à trouver la première propriété par analyse de données
Analyse de données python
Analyse des données Titanic 3
Avoir réussi l'examen d'analyse des données de certification d'ingénieur Python
Toutes les méthodes destructrices que les data scientists devraient connaître
Analysons les données de l'enquête par questionnaire [4e: Analyse des émotions]
Analyse de Big Data à l'aide du framework de contrôle de flux de données Luigi
J'ai essayé de regrouper les données ECG en utilisant la méthode K-Shape
Regardons le diagramme de dispersion avant l'analyse des données
J'ai examiné le mappage de données entre ArangoDB et Java
J'ai essayé d'utiliser l'API de Sakenowa Data Project
J'ai essayé la même analyse de données avec kaggle notebook (python) et PowerBI en même temps ②
Ce que vous ne devriez pas faire dans le processus d'analyse des données de séries chronologiques (y compris la réflexion)