计算语言学
计算语言学定义与别名计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
计算语言学(Computational Linguistics)有时也叫计量语言学(Quantitative Linguistics), 数理语言学(Mathematical Linguistics), 自然语言理解(Natural Language Understanding), 自然语言处理(Natural Language Processing), 人类语言技术(Human Language Technology)。
发展历史NLP于20世纪50年代早期开始于美国,当时美国害怕在空间竞赛中落败,需要翻译大量俄文科技文献,于是开发机器翻译系统,特别是俄英机器翻译系统,做法是采用词到词的翻译。由于成本高而效率低,渐渐撤去了资金支持。
60年代开发的自然语言理解系统,大都没有真正意义上的语法分析,而主要依靠关键词匹配技术来识别输入句子的意义。在这些系统中设计者事先存放了大量包含某些关键词的模式,每个模式都与一个或多个解释(又叫响应式)相对应。系统将当前输入句子同这些模式逐个进行匹配,一旦匹配成功便立即得到了这个句子的解释,而不再考虑句子中那些不属于关键词的成分对句子意义会有什么影响。
进入70年代以后,一批采用句法—语义分析技术的自然语言理解系统脱颖而出,在语言分析的深度和难度方面都比早期系统有了长足的进步。这个时期的代表作是LUNAR,SHRDLU和MARGIE系统。
进入80年代以来自然语言理解系统的最大特点就是实用化和工程化。其重要标志就是一批商品化的自然语言人----机接口和机器翻译系统出现在国际市场上。著名的有美国人工智能公司(AIC)生产的英语人—机接口系统Intellect,美国弗雷公司生产的Themis人----机接口,美国加利福尼亚工学院研制的ASK接口;欧洲共同体在美国乔治敦大学开发的机译系统SYSTRAN的基础上成功地进行了英、法、德、西、意、葡等多语对的机器翻译,加拿大蒙特利尔大学开发的服务于天气预报领域的英法机译系统TAUM—METE0,日本富士通公司开发的ATLAS英日、日英机译系统,日本日立公司开发的HICATS英日、日英机译系统等等。国内“七五”期间由中国软件总公司开发的商品化英汉机译系统“译星”(TRANSTAR),也是这方面的一个范例。
1990年8月,在赫尔辛基召开的第13届国际计算语言学大会上,大会组织者首次提出了处理大规模真实文本的战略目标,并在会前组织了“大型语料库在建造自然语言系统中的作用”、“词典知识的获取与表示”和“电子词典”等专题讲座,预告了语言信息处理的一个新的历史阶段即将到来。