石垣島分析を「前編」「後編」にわたって読んでいただきまして有難うございます。
今回はその中で使用した以下の2つのコードを公開します。
1、5ちゃんねるから書き込みをスクレイピングし、これをpandasのデータフレームの形にしたうえでcsvにして保存する
2、1で保存したファイルを自然言語処理で使えるように前処理をしてcsvで保存する
とても稚拙な書き方で恥ずかしいのですが、今の僕ではこれが精いっぱいです。こんなものでも誰かの参考になればと思い、恥を忍んで公開します。
ZIPファイルには
5chan_scrape_and_make_dataframe.py
5chan_cleaning.py
の2つのファイルが入っています。拡張子を見てわかるとおりPythonファイルです。
それぞれ関数を定義し、下のほうで実行するようになっています。
スクレイピングと前処理を合わせて一つの関数にすることも可能です。ただ前処理の後の分析の過程で前処理を手直ししたいことがよくあって、そのたびにスクレイピングまで戻るのは無駄な作業になりますので、これら2つの作業は別の関数にしています。
ご自分の環境に合わせて引数を設定して実行してみてください。