常见的分词组件比较

April 19th, 2008


» 上一篇:qq空间免费背景
» 下一篇:基于远程教育的网络智能答疑系统的研究与设计译文

一:中文分词

中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。

Google的中文分词技术采用的是美国一家名叫BasisTechnology()提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。

二、计算所汉语词法分析系统ICTCLAS

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面:

由于ICTCLAS是由C语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把ICTCLAS改为Java和C#等其他语言。

fenci,Java的ICTCLAS,下载页面:

不过传说代码还是很难读懂的,一群highIQ的人写出来的,所以除非专门做分词的值得去研究,如果分词只是一个步骤的话还是不要碰,而且现在的3.0已经变成商业的了,搞研究的人可以试用一个月,商用的还是算了.Free的3.0beta和1.0几乎没区别,再者狂bug不止,遇到有些网页就分不过去,测试了几个语料库都是比较郁闷,速度在30kb/s,还是比较慢的.这个除非买商业版的,虽然做的很好,还是提醒以后不要在这个上面浪费时间了.

三、海量智能分词研究版

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面:

海量的分词做的不错,不过研究版的速度也是不堪的,都可以理解.这个速度就更慢了,而且只支持window开发.
四、其他

(1)CSW中文智能分词组件

运行环境:WindowsNT、2000、XP或更高,可以在ASP,VB等微软的开发语言中调用。

简介:CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面:

这个如何出现如下错误”您当前使用的CSW中文分词组件5.0(标准C++版)已超过有效期,请访问我们网站www.vgoogle.net获取最新版本或取得使用许可授权!”.把系统时间调一下,调到2008年4月1号之前.效果还可以,java下的20kb/s.

(2)C#写的中文分词组件–雨痕

据作者介绍,一个DLL文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

下载页面:

这个现在也已经不再发行了,何况是windows下.net开发的.

(3)ktdictseg也是c#开发的

http://www.hbdev.cn/tech/SrcShow.asp?Src_ID=26

ktdictseg 简介: ktdictseg是由kaitoo搜索开发的一款基于字典的简单中英文分词算法
* 主要功能:中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力
* 主要性能指标:
* 分词准确度:90%以上(有待专家的权威评测)
* 处理速度: 600kbytes/s

(4)chseg

这个速度大约是0.5m/s.还是相当不错的,不过没有词性标注部分.

随机文章

添加评论

必需

Required, hidden

可用标签:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

引用:http://www.ccouo.com/html/1856.html/trackback  |  订阅