まずはこのグラフ。
金沢市の戸建て住宅(新築+中古)の成約件数。
金沢市の戸建て住宅の成約件数は、ピークで4半期で120件以上を記録しましたが、いまでは70件を割り込むことがあります。ハッキリ言って2022年になってから戸建て住宅の取引はガックリ減ってしまっています。ところが取引価格(総額)は伸び続けています。
何の変哲もないグラフです。これのどこが機械学習の成果なのかというと、この元データはPDF。今回はPDFの表をPythonをつかってCSVの表に変換する練習でした。元データはこれです。
https://www.chubu-reins.or.jp/reinspdf/data/pr_ishikawa5.pdf
PDFを機械学習で使える形に変換できると、データを収集する範囲が大きく広がりますので、これまで諦めていたものも分析の対象にする可能性が出てきます。
例えば内閣府の「月例経済報告」は毎月PDFで公表されていますが、これをテキスト形式で取り込めば、自然言語処理の対象にすることができます。月例経済報告を感情分析して、そのスコアで日本の経済状態の推移を示すことができるかもしれません。お正月休みにでもやってみようかと考えています。