こんにちは、東京アプリケーションシステム第二ソリューション部のW.F.です。
今回はテキストマイニングができるkhcoderというフリーソフトウェアを使ってみたいと思います。
機能
使用できる機能についていくつかご紹介します。
今回は3機能記載しましたが、他にも使用できる機能がたくさんあります。
①形態素解析:文章を単語ごとに分割し、品詞を識別します。
②頻出語リスト:テキスト内で頻繁に使われる単語をリストアップします。
③共起ネットワーク:どの単語が他の単語と一緒に使われるかを視覚的に表示します。
実行結果
実際に①②③について動かしてみました。
入力は水族館の口コミで試してみました!
①②の結果
こちらは、形態素解析した結果を頻出度が高い順に出力してくれる機能です。
ツール→抽出語→抽出語リストからボタン一つで出力できます。
画像では上位10件の頻出単語を抽出しました。
イルカショーは子供が楽しめたといった口コミが多かったのだろうと推測できます。
③の結果
こちらは、文章内に一緒に出現する単語(共起する単語)を線で結びグループ分けしてくれる機能になります。
ツール→抽出語→共起ネットワークからボタン一つで出力できます。
画像から、「可愛い」という単語が入る文章の場合は「ペンギン」や「ラッコ」といった単語がはいる可能性が高いことや、
「イルカ」という単語が入る文章の場合は、「子供」→「楽しめる」といったような単語が入る可能性が高いことが分かります。
こちらの結果から、「イルカショーは子供も大人も楽しめる」や「ペンギンやラッコは可愛いと評判だったこと」などどのような意見があったのかがぱっと見ただけでわかりますね。(一部ではありますが)
最後に
最後までお読みいただきありがとうございました。
今回ご紹介した機能はほんの一部になります。他にも様々な機能があるので今後つかってみたいですね。