Nishikaの「中古マンション価格予測 2022夏の部」に参加中です。僕は本業で不動産にかかわる仕事をしています。このコンペで使用するマンションの売買データは、業界が仕事の一環として集めて国土交通省に提出したもの。僕が集めた資料も含まれています。仕事上どのようなデータが不動産の価格に強い影響を与えているかとか、そのデータはどこにどういう形でどこにあるかも知っていて、比較的有利な立場にあります。
訓練データは全国の中古マンションの価格が70万件以上あります。なんてことないCSVデータを使って回帰モデルを作るだけの話なのですが、これだけ数があると例えばランダムフォレストや勾配ブースティングなどやろうものなら、時間がかかってにっちもさっちもいきません。そこで70数万件のうち10%とか20%をランダムにサンプリングして使うことで、何とか動かしています。
今の時点の成績は、453人中ギリギリで二桁(90番台)です。平均より上で良いじゃないのと思われるかもしれませんが、今書いたとおりで僕は不動産の価格のプロで、データの上でも有利な立場にあります。なのに50位以内にすら入ることができません。
評価は平均絶対誤差(mae:mean absolute error)で決めるのですが、僕は0.09台の半ば。トップテンの参加者は0.07台前半。歴然とした差があって、愕然とします。今の状態では、モデルをどういじくっても、データに特徴量を追加しても、0.07台はおろか0.08台に届かないと思います。