top of page

クラスタリング clustering

公開·1名のメンバー

第39回「にっぽんの温泉100選」のトップ6位をネットワーク分析してみました。

観光経済新聞社は、毎年「にっぽんの温泉100選」を発表しています。これは旅行会社やOTA(Online Tour Agentsオンラインの旅行社)の投票で選ばれる、いわばサービスを売るサイドが「ここはいいな」と思った温泉のトップ100です。旅行者にアンケートを取ると、自分が行ったところにほぼ投票する傾向があるので、結果的に訪問客が多い温泉が上位になってしまい、こじんまりとした訪問者が少ないところはランク外となります。


2025年に行われた第39回の結果のトップ6位、草津、下呂、道後、別府、登別、有馬について、ネットワーク分析をしてみました。


温泉街の中心から、半径1キロ以内の宿泊施設、最寄りの飲食店、コンビニ、共同浴場、土産店をosmnx(OpenStreetMapのAPI)から抽出して、地図上にプロットしました。


温泉街の中心は、固定資産税路線価が最も高い地点(例.草津温泉は湯畑)です。


草津温泉
草津温泉
下呂温泉
下呂温泉

閲覧数:10

衛星画像でクラスタリング

近所の海岸の衛星画像を使って、砂浜が浸食されているかどうか検証してみました。


まずは2017年7月の画像



こちらは2022年7月の画像



どちらも暗くて見にくいです。すいません。


閲覧数:42

ジブリの結果 機械学習的に統括します

前回の記事の中で、ラピュタを山田くんと間違えたものと、山田くんをラピュタと間違えたものは、いずれもゼロという結果になりました。その理由は画像の見た目から、ラピュタははっきり鮮やかな絵であるのに対して、山田くんはとてもぼんやりして絵であると説明しました。これをもう少しクラスタリングっぽく説明してみたいと思います。


まず、ラピュタと山田くんの2つだけでクラスタリングするとどうなるのでしょうか。その前にグラフ化するのであらかじめ約15万の特徴量をxとyだけの2次元データに次元削減しています。その結果はこのとおり。星印は各クラスターの中心を表しています。左が山田くん、右がラピュタになります。

このグラフのとおりで、山田くんの塊とラピュタの塊の間、もっと厳密にいうとそれぞれの星からのちょうど中間付近にはどちらの要素もないのが分かります。だから間違えようがありません。


同様にして、かぐや姫も加えて3つでやってみます。グラフは左から、山田くん、かぐや姫、ラピュタとなります。かぐや姫が山田くんとラピュタの間に入り込んでいます。山田くんとかぐや姫のそれぞれの星印の距離は、ラピュタとかぐや姫ものより近くなっています。またかぐや姫と山田くんの中間付近と、かぐや姫とラピュタの中間付近を比べると、かぐや姫と山田くんの間に要素が多く存在し混み合っているのが分かります。


閲覧数:35

お詫びと訂正 ジブリでクラスタリング 追加情報

昨日投稿しました「ジブリでクラスタリング」の正解率に誤りがありました。原因は「式が間違っている」という初歩的なミスでした。そこで、たとえば真の値がラピュタのうちラピュタと当てることができたものの率で正解率を求めることにしました。クラスタリングはそもそも「教師なし学習」ですので、正解率というのも変な話なのですが...


結果は

kaguya acc:0.5800

kaguya failure:0.4200


laputa acc:0.9400

laputa failure:0.0600


閲覧数:22

新規投稿をお知らせします。

登録ありがとうございます。

© 2023 by Healthy Together. Proudly created with Wix.com

bottom of page