ICTCLAS

王朝百科·作者佚名  2010-03-01  
宽屏版  字体: |||超大  

ICTCLAS简介中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

ICTCLAS特色一、国内和国际权威的公开评测、三万客户的认可

有些公司为了商业目的,关门自测,自称准确度99.50%,没有介绍测试环境和测试方法,封闭测试或者小规模的开放测试准确度100%都不足为奇的,ICTCLAS1.0在国内973专家组组织的评测中活动获得了第一名,ICTCLAS2.0在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,具体的参见系统评测部分。这些都是权威机构进行大规模现场开放测试的结果,真实可信。

目前,ICTCLAS已经向国内外的企业和学术机构颁发了30,000多份授权,其中包括3721、NEC、中华商务网、硅谷动力、云南日报等企业,新疆大学、清华大学、华南理工、麻省大学;同时,ICTCLAS广泛地被《科学时报》、《人民日报》海外版、《科技日报》等多家媒体报道。您可以访问Google进一步了解ICTCLAS的应用情况。

二、综合性能最优

分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。我们研制出了完美PDAT大规模知识库管理技术(200510130690.3),在高速度与高精度之间取得了重大突破,该技术可以管理百万级别的词典知识库,单机每秒可以查询100万词条,而内存消耗不到知识库大小的1.5倍。基于该技术,ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

三、统一的语言计算理论框架

汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达千差万别的语言现象,而ICTCLAS采用了层叠隐马尔可夫模型(Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的理论框架中,获得最好的总体效果,相关理论研究发表在顶级国际会议和杂志上,从理论上和实践上都证实了该模型的先进性。

四、全方位支持各种环境下的应用开发

ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++/C#/Delphi/Java等主流的开发语言。

五、应需而变,量身定做

所有功能模块均可拆卸组装,ICTCLAS有GB2312和BIG5版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准,包括计算所词类标注集ICTPOS3.0,北大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港“城市大学”;用户可以直接自定义输出的词类标准,定义输出格式;用户可以根据自己的需求,进行量身自助式定做适合自己的分词系统。

六、ICTCLAS的性能评估

ICTCLAS在973评测中的测试结果

2002年7月6日,ICTCLAS参加了国家973英汉机器翻译第二阶段的开放评测,测试结果如下:

领域

词数

SEG

TAG1

RTAG

体育

33,348

97.01%

86.77%

89.31%

国际

59,683

97.51%

88.55%

90.78%

文艺

20,524

96.40%

87.47%

90.59%

法制

14,668

98.44%

85.26%

86.59%

理论

55,225

98.12%

87.29%

88.91%

经济

24,765

97,80%

86.25%

88.16%

总计

208,213

97,58%

87.32%

89.42%

ICTCLAS在973评测中的测试结果

说明:

1、数据来源:国家973英汉机器翻译第二阶段评测的评测总结报告

2、标注相对正确率RTAG=TAG1/SEG*100%

3、由于我们采取的词性标注集和973专家组的标注集有较大出入,所以词性标注的正确率不具可比性

4、专家组的开放评测结果表明:基于HHMM的ICTCLAS能实际的解决汉语词法分析问题,和兄弟单位的类似系统对比,ICTCLAS的分词结果表现出色

第一届国际分词大赛的评测结果

为了比较和评价不同方法和系统的性能,第四十一届国际计算语言联合会(41st Annual Meeting of the Association for Computational Linguistics, 41th ACL )下设的汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing, SIGHAN;www.sighan.org) 于2003年4月22日至25日举办了第一届国际汉语分词评测大赛(First International Chinese Word Segmentation Bakeoff)[28]。报名参赛的分别是来自于大陆、台湾、美国等6个国家和地区,共计19家研究机构,最终提交结果的是12家参赛队伍。

大赛采取大规模语料库测试,进行综合打分的方法,语料库和标准分别来自北京大学(简体版)、宾州树库(简体版)、香港城市大学(繁体版),台湾“中央院” (繁体版)。每家标准分两个任务(Track):受限训练任务(Close Track)和非受限训练任务(Open Track)。

ICTCLAS分别参加了简体的所有四项任务,和繁体的受限训练任务。其中在宾州树库受限训练任务中综合得分0.881[28],名列第一;北京大学受限训练任务中综合得分0.951[28],名列第一;北京大学受限训练任务中综合得分0.953[28],名列第二。值得注意的是,我们在短短的两天之内,采取ICTCLAS简体版的内核代码,将多层隐马模型推广到繁体分词当中,同样取得了0.938[28]的综合得分。

ICTCLAS3.0的评测结果

我们利用了《人民日报》1998年1月的新闻纯文本语料进行开放测试,ICTCLAS3.0测试的精度与速度如下表所示:

开放测试一 开放测试二 开放测试三

功能描述 分词 分词+命名实体与新词识别 分词+命名实体与新词识别+词性标注

测试文件大小 4,092,478 Bytes 4,092,478 Bytes 4,092,478 Bytes

时间(s) 4.094000 6.467561 9.094001

核心数据所占内存 5.5MB 7.2MB 8.9MB

速度 999.63 KB/s 632.77 KB/s 450.02 KB/s

精度 分词精度:96.56% 分词精度:98.13% 分词精度:98.13% 词性标注精度:94.63%

说明:

1. 测试机器配置:CPU: PIV3.0G;内存:512M;

2. 分词精度指的是正确切分的词数占正确结果总词数的百分比;词性标注精度指的是切分与词性标注均正确的词数占正确结果总词数的百分比。

3. 开放测试:指的是测试样本不属于训练样本集合,否则称为封闭测试;封闭测试相当于考试试题都出自于学习过的书本,这种测试并没有实质意义,而往往有一些商家故意混淆视听,以封闭测试来冒充开放测试,制造准确率99.5%的噱头,实际上,通过机械记忆小样本的封闭测试取得100%的精度不存在任何问题。这一点特别提请用户注意。

 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
© 2005- 王朝百科 版权所有