Twitterでこの記事についてつぶやく

2010年3月1日月曜日

C#で形態素解析をやってみよう!MeCabのススメ

今日はC#で


MeCab


という形態素解析をするライブラリを使って


簡単に形態素解析をする方法を書きます。







まず、MeCab本体をダウンロードしましょう。



SourceForge Mecab 0.98 for MS-Windows Download




そして、インストールします。


文字コードはデフォルトのままで良いでしょう。



次に、MeCab.NETというdllをゲットします。




MeCabDotNet_sample_0_0_0_3.zip Download





これをダウンロード解凍すると

C#のプロジェクトファイルができると思います。


これはサンプルも入ってるのでソースを読めば

もっと詳しい使い方が分かると思います。


その中の

src\MeCabDotNet\bin\Release\MecabDotNet.dll

コピーして、自分のプロジェクトファイルのbinに移動しましょう。



それを






ソリューションエクスプローラーの参照設定右クリック



参照の追加



「参照」タブ



先ほどMeCabDotNet.dllをコピーしたのを選択OKクリック







で参照設定がされたと思います。







あとはコードで書くだけですが、

今回は文章を単語ごとに分解する

いわゆる「わかち解析」という解析に

チャレンジしてみます。







MecabDotNet.Mecab mecab = new MecabDotNet.Mecab("-O wakati");

string mecabed = mecab.mecab_sparse_tostr(/* 分解する文字列 */);

string breakWords[] = mecabed.Split(' ');






はい、終了w

breakWordsに分解された単語が入っています。


引数などを渡した処理を行いたいときは

コンストラクタで渡しましょう。



質問等あればコメントください。

0 件のコメント:

コメントを投稿