今日はC#で
MeCab
という形態素解析をするライブラリを使って
簡単に形態素解析をする方法を書きます。
まず、MeCab本体をダウンロードしましょう。
SourceForge Mecab 0.98 for MS-Windows Download
そして、インストールします。
文字コードはデフォルトのままで良いでしょう。
次に、MeCab.NETというdllをゲットします。
MeCabDotNet_sample_0_0_0_3.zip Download
これをダウンロード解凍すると
C#のプロジェクトファイルができると思います。
これはサンプルも入ってるのでソースを読めば
もっと詳しい使い方が分かると思います。
その中の
src\MeCabDotNet\bin\Release\MecabDotNet.dllを
コピーして、自分のプロジェクトファイルのbinに移動しましょう。
それを
ソリューションエクスプローラーの参照設定右クリック
↓
参照の追加
↓
「参照」タブ
↓
先ほどMeCabDotNet.dllをコピーしたのを選択OKクリック
で参照設定がされたと思います。
あとはコードで書くだけですが、
今回は文章を単語ごとに分解する
いわゆる「わかち解析」という解析に
チャレンジしてみます。
MecabDotNet.Mecab mecab = new MecabDotNet.Mecab("-O wakati");
string mecabed = mecab.mecab_sparse_tostr(/* 分解する文字列 */);
string breakWords[] = mecabed.Split(' ');
はい、終了w
breakWordsに分解された単語が入っています。
引数などを渡した処理を行いたいときは
コンストラクタで渡しましょう。
質問等あればコメントください。
0 件のコメント:
コメントを投稿