* Algorithm-NaiveBayes-0.03.tar.gz
* Algorithm-SVM-0.08.tar.gz
で、いろいろ CPAN の AI 関連を彷徨いていたら AI::Categorizer なるモジュールを見つけました。このモジュールは、英語のテキストをカテゴリ分類するための AI モジュールで、カテゴリ分類のアルゴリズムとして、
* NaiveBayes / SVM / DecisionTree / Weka
の4種類を実装しています。NeuralNet がないのが何故?と思うけど、 SVM があるので良しとしましょう。ただ、英語のテキストしか入力を考えていない実装方式なので、日本語は通りません。突貫工事で対応するなら、AI::Categorizer::Document; の tokenizeメソッドを
sub tokenize {
my $self = shift;
my (@tokens) = split /[\s\n]/, $_[0];
return \@tokens;
}
のように変更すれば、分かち書きしたスペース区切りの日本語が通るようになります。ただ、テストデータが不十分な量だと、SVM とか Segmentation Fault しますね・・・。
この記事を読んでいる方は、以下の関連記事も読んでいます。よろしければ一緒にご覧ください!
2004年9月11日
|
drk
|
コメント(0)
Tweet

コメントする