top of page

クラスタリング clustering

公開·1名のメンバー

5ちゃんクラスタリング 後編

前回の一番最後で、「今回のcluster0がネガティブと仮定するとほぼ合致します。」と書いておりましたが、全くの間違いであることが判明しました。ごめんなさい。


前回のクラスタリングの結果に、「石垣島分析 じゃらんvs5チャンネル 後編」においてosetiで感情分析した時のスコアを追加し、さらにosetiのスコアを

-0.35未満:ネガティブ

-0.35以上、0.35以下:ニュートラル

0.35を超える:ポジティブ

と書き換えたうえで、クラスターごとにまとめて集計してみました。

前回と少し数字が異なるのは、乱数を固定していなかったため毎回結果が変わるためです。


cluster oseti_score


0 negative 68

neutral 97

positive 43

1 negative 3

neutral 37

positive 4

2 negative 148

neutral 313

positive 148


見てのとおりりで、各クラスターにネガティブ、ニュートラル、ポジティブが入り混じっています。多少入り混じるのは仕方ないのですが、これではどのクラスターがネガ、ポジ、ニュートラルなのかが判断できません。ニュートラルが一番多いということだけは共通していますが・・・。なんとなくですが、それぞれのクラスターが、osetiのスコアでゼロを頂点とした正規分布を描いているのかもしれません。


3つのクラスターのそれぞれが、ネガティブ、ニュートラル、ポジティブの3つの要素を持っているということは、クラスタに分類する際に、どうもネガティブ・ポジティブではなく、単純に第1主成分の大中小で分類しているようです。


仮に6クラスターで試してみると、第1主成分と第2主成分の二次元のベクトル空間でクラスター分類してくれます。


今回の方法、つまり単語をベクトル化して、それをもとにしてクラスタリングでネガ・ポジを判定するのは無理みたいです。単語を全部足し合わせたところが、わけのわからない結果が出た一番の原因だったのでしょうか。とにかく今回の件では、自分の能力不足、経験不足を再認識しました。本当にデータサイエンスは奥が深いですね。

閲覧数:17

新規投稿をお知らせします。

登録ありがとうございます。

© 2023 by Healthy Together. Proudly created with Wix.com

bottom of page