前回の記事の中で、ラピュタを山田くんと間違えたものと、山田くんをラピュタと間違えたものは、いずれもゼロという結果になりました。その理由は画像の見た目から、ラピュタははっきり鮮やかな絵であるのに対して、山田くんはとてもぼんやりして絵であると説明しました。これをもう少しクラスタリングっぽく説明してみたいと思います。
まず、ラピュタと山田くんの2つだけでクラスタリングするとどうなるのでしょうか。その前にグラフ化するのであらかじめ約15万の特徴量をxとyだけの2次元データに次元削減しています。その結果はこのとおり。星印は各クラスターの中心を表しています。左が山田くん、右がラピュタになります。
このグラフのとおりで、山田くんの塊とラピュタの塊の間、もっと厳密にいうとそれぞれの星からのちょうど中間付近にはどちらの要素もないのが分かります。だから間違えようがありません。
同様にして、かぐや姫も加えて3つでやってみます。グラフは左から、山田くん、かぐや姫、ラピュタとなります。かぐや姫が山田くんとラピュタの間に入り込んでいます。山田くんとかぐや姫のそれぞれの星印の距離は、ラピュタとかぐや姫ものより近くなっています。またかぐや姫と山田くんの中間付近と、かぐや姫とラピュタの中間付近を比べると、かぐや姫と山田くんの間に要素が多く存在し混み合っているのが分かります。
このような理由から、かぐや姫をクラスターとして完全に分けるのが困難で、またかぐや姫と山田くんの間違いが多くなったものと考えられます。
<注>次元削減後の2次元データでクラスタリングしていますので、結果の数字は前回と少し異なっていますが、傾向はほぼ同じになっています。