全球旧事资料 分类
IKA
alyzerIKA
alyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出10版开始,IKA
alyzer已经推出了3个大版本。最初,它是以开源项目Lue
ce为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKA
alyzer30则发展为面向Java的公用分词组件,独立于Luce
e项目,同时提供了对Luce
e的默认优化实现。语言和平台:基于java语言开发,最初,它是以开源项目Lue
ce为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKA
alyzer30则发展为面向Java的公用分词组件,独立于Luce
e项目,同时提供了对Luce
e的默认优化实现。算法:采用了特有的“正向迭代最细粒度切分算法”。采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用。支持用户词典扩展定义。针对Luce
e全文检索优化的查询分析器IKQueryParser;采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Luce
e检索的命中率。性能:60万字秒IKA
alyzer基于luce
e20版本API开发,实现了以词典分词为基础的正反向全切分算法,是Luce
eA
alyzer接口的实现。该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用
好听全球资料 返回顶部