テキストデータ分析の概要

公開日
更新日
執筆者船井総研 プロシード事業部
コラムテーマ応対品質
SHARE

今回は、テキストデータ分析の概要について書いていきたいと思います。

テキストデータ分析の方法は様々ありますが、一番ポピュラーなものを紹介します。

① 分かち書き+形態素解析
② word2vec

について解説します。

① 分かち書き+形態素解析

一言でいうと、フリーコメントをすべて集め、一つのコーパス(一つの文章)とみなし、「名詞」、「動詞」のように品詞レベルで分解することです。

例として、「これは、テストです。プロシードのブログ用です。」といった文章を分かち書き+形態素解析してみます。以下の画像のような結果になります。

(実際にこれらの分析を行う際には、なにかしらのプログラミングでの分析をおススメしています。私はPythonで行っています。余談ですが、今回はMecabではなくGinzaで形態素解析を行っています。)

ブログ3月1

品詞レベルで文章が分解されています。

次に、青空文庫から夏目漱石の「坊ちゃん」をダウンロードし、それを分かち書き+形態素解析してみます。

分かち書き+形態素解析し、名詞の頻出単語をランキング形式で抽出してみました。また、これらをワードクラウドという頻出語を頻度に比例する大きさで雲のように並べたもの作成しました。

blog_1-100

坊ちゃんの主人公は、赤シャツなんじゃないかと思うレベルですね。笑

今回は名詞のみで頻出単語を抜き出しましたが、「名詞+動詞」のような形で抜き出すことも可能です。

実際のアンケート調査のフリーコメントでどういった声が一番多いのかを抽出することも可能です。

また、応対ログからコールリーズンを特定するときにも使用できます。

興味のある方は是非一度、Pythonなどで実装してみてください。

次回は、word2vecについて書きたいと思います。お楽しみに!

執筆者 : 船井総研 プロシード事業部

船井総研のプロシード事業部は、コールセンターおよびCX(顧客体験)マネジメントに特化した経営コンサルティングを行っております。グローバル基準の評価手法や豊富な改善ノウハウを武器に、企業の顧客エンゲージメント向上と業務効率化を支援いたします。コンタクトセンターの運営や顧客満足度に関するお悩みを幅広く解決いたしますので、是非お気軽にご相談ください。