お役立ちフリーCGI、Perl Module、Perl テクニックなど Perl ネタが中心

カテゴリ分類 AI::Categorizer

次なるサービスのネタ探しとしてテキストマイニング系の実験をしているのですが、最近流行のベイズ理論では、なかなか最適解っぽいものを出力してくれません。もっとも最適解に近いものを出力してくれると最近話題の SVM を使っていろいろやりたいなぁ〜と考えるも、何やら小難しいです。
* Algorithm-NaiveBayes-0.03.tar.gz
* Algorithm-SVM-0.08.tar.gz

で、いろいろ CPAN の AI 関連を彷徨いていたら AI::Categorizer なるモジュールを見つけました。このモジュールは、英語のテキストをカテゴリ分類するための AI モジュールで、カテゴリ分類のアルゴリズムとして、

* NaiveBayes / SVM / DecisionTree / Weka

の4種類を実装しています。NeuralNet がないのが何故?と思うけど、 SVM があるので良しとしましょう。ただ、英語のテキストしか入力を考えていない実装方式なので、日本語は通りません。突貫工事で対応するなら、AI::Categorizer::Document; の tokenizeメソッドを
sub tokenize {
  my $self = shift;
  my (@tokens) = split /[\s\n]/, $_[0];
  return \@tokens;
}
のように変更すれば、分かち書きしたスペース区切りの日本語が通るようになります。ただ、テストデータが不十分な量だと、SVM とか Segmentation Fault しますね・・・。

2004年9月11日 | drk | コメント(0)  

コメントする

CONTACTご相談・お問い合わせ

drk7.jpでは、小規模な CGI 開発から技術支援まで幅広くご相談にのります。

ご相談・お問い合わせはこちら からお気軽にどうぞ。

ページのTOPへ

Copyright © drk7.jp, All Rights Reserved.