回帰 Regression
東京都地価公示価格を訓練用データに、地理空間情報の技術を使って説明変数を丁寧に作りこみ、lightGBM回帰でモデルを構築しクロスバリデーションで検証したところ、
決定係数R2 : 0.94285
平均平方二乗誤差RMSE : 0.1866
平均絶対誤差MAE : 0.1417
平均絶対パーセント誤差 : 0.0110
と、すごい精度が出ました。
検証データを使った予測と本当の価格でグラフを作ると
見るから精度が良さそう。
でも目的は予測ではなくて、東京都の住宅地価格はどのように形成されているかを確かめること。
shapのバープロットで価格に影響を与えた説明変数を確認すると
となりました。
都心(丸の内口)、副都心(新宿駅)までの距離(時間)の影響が強い。そしてその他たくさんある説明変数の中では、最寄り駅までの距離や道路幅員に交じってconveni_**(** m圏内のコンビニ数)やmarket_**(**m圏内の触診スーパー数)が目立っています。
もう少しちゃんと解釈すると、まず都心までの距離によって例えば三鷹市の価格水準(三鷹市ならだいたいこの位の価格ね)が決まり、さらに三鷹市内においてはconveni_1500m以下の説明変数によって個別地点の価格が決まることを表しています。
従来の価格モデルでは、最寄り駅などコンビニにしろ、スーパーにしろ、最寄りの施設一択で回帰モデルを作っていました。でも地理空間情報を駆使してモデルを作ると、従来型よりずっと高い精度をはじき出すことができます。
いずれ私のような不動産鑑定士がいらなくなる日が来るのかもしれません。
いいね!