top of page

自然言語処理 NLP

公開·1名のメンバー

石垣島分析で使ったスクレイピングと前処理のコードを公開します。

石垣島分析を「前編」「後編」にわたって読んでいただきまして有難うございます。

今回はその中で使用した以下の2つのコードを公開します。


1、5ちゃんねるから書き込みをスクレイピングし、これをpandasのデータフレームの形にしたうえでcsvにして保存する

2、1で保存したファイルを自然言語処理で使えるように前処理をしてcsvで保存する


とても稚拙な書き方で恥ずかしいのですが、今の僕ではこれが精いっぱいです。こんなものでも誰かの参考になればと思い、恥を忍んで公開します。



ZIPファイルには

5chan_scrape_and_make_dataframe.py

5chan_cleaning.py

の2つのファイルが入っています。拡張子を見てわかるとおりPythonファイルです。


それぞれ関数を定義し、下のほうで実行するようになっています。


スクレイピングと前処理を合わせて一つの関数にすることも可能です。ただ前処理の後の分析の過程で前処理を手直ししたいことがよくあって、そのたびにスクレイピングまで戻るのは無駄な作業になりますので、これら2つの作業は別の関数にしています。


ご自分の環境に合わせて引数を設定して実行してみてください。






閲覧数:43

新規投稿をお知らせします。

登録ありがとうございます。

© 2023 by Healthy Together. Proudly created with Wix.com

bottom of page