王朝百科
分享
 
 
 

跨语检索

王朝百科·作者佚名  2010-04-18  
宽屏版  字体: |||超大  

“跨语检索”,或称“跨语言检索”(Cross-Language Information Retrieval,CLIR),其定义采用Oard, D. W.,在1997年发表的文章:Cross-Language Information Retrieval Defined。跨语检索意指使用者自然地使用某种语言(natural language)的检索词汇(query)检索由另一种语言表达的文件。

CLIR是这样一类技术,它允许用户以他们熟悉的语言构造检索提问式,然后使用该提问式检索以系统支持的任一种语言写成的文献。它可用于回溯检索、定题服务系统以及自适应过滤系统中。

举例来说,使用者使用(自己熟悉的)中文产生一组检索词汇进行检索,而其检索结果皆以(使用者完全不懂或不熟悉)的日文,所撰写的文件。

1969年,Salton,G.发表Automatic processing of foreign language documents文章。Salton以 SMART 文件检索系统 (SMART document retrieval system)当作实验对象,SMART文件检索系统背后有多国语言语料库的支援,借由该系统,Salton使用英文为主要检索词汇 (query) 的语言,检索德文的文件和资料,反之亦然。实验结果发现,采用全自动文件处理方法(fully automatic text processing methods)的 SMART 文件检索系统可以用相对简单而有效率的方式,进行文献索引(document indexing)、分类 (classification)、搜寻 (search),和检索 (retrieval)等工作。这也是文献中,第一次提到跨语检索概念的文章,不过这篇文章尚未正式使用跨语检索或跨语资讯检索一词。

1992年,美国国家标准和科技机构 (National Institute of Standards and Technology, 简称NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defense, 简称DARDA) 合作举办“文字检索会议”( The Text REtrieval Conference, 简称TREC),一开始是附属于TIPSTER Text program底下的计划,从1992年之后,每年都会举办一次TREC会议。TREC 会议成立目的是辅导与支援资讯检索相关研究,提供标准测试集协助研究者进行测试等。

1996年,美国计算机协会(Association of Computing Machinery, 简称ACM)在瑞士所举办的SIGIR-96会议中,首次出现以跨语检索为研究主题的研讨会(Workshop),与跨语检索相关的讨论,可在这本会议论文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval 》找到。

1998年,召开第一次 NII Test Collection for IR Systems program, 简称NTCIR会议。NTCIR会议主要是由日本学术振兴会(Japan Society for Promotion of Science, 简称JSPS)、日本国家科学资讯系统中心 (National Center for Science Information Systems, 简称NACSIS),以及日本国立情报学研究所(Institute of Informatics National Institute of Informatics, 简称NII) 共同合作举办。其目的是希望,在资讯检索与自然语言检索的研究领域中,能发展出以日文为主的标准测试集。至今,已发展出NTCIR1~6的文件集。

2000年,欧盟成立“跨语言资讯检索论坛” (Cross Language Evaluation Forum , 简称CLEF) ,每年定期举办跨语检索研讨会,并且推动跨语检索技术评比。目前有文字资讯检索评比,或称文字检索(text retrieval)评比和跨语图片资讯检索评比,或称跨语图片检索(Cross-Language Image Retrieval )项目,除了跨语检索技术评比之外,尚包括发展以欧洲语系为主的单语资讯检索系统(monolingual information retrieval system)的基础建设,包含测试 (testing)和评鉴(evaluating)等工作,该组织也包含在欧盟的数位图书馆 (digital library)计划中。

跨语检索的特征,根据陈信希教授在2002年的《跨语检资讯检索:理论、技术与应用》这篇文章指出,共具有六项特征,将内容统整如下:

检索词汇的歧义性(ambiguity):翻译检索词汇的过程,不只会遇到检索词汇一词多义的情形,翻译后的目标检索词汇(target query)的多义性(polysemy)也是需要解决的问题之一。

检索词汇(query)和文件(document)分属不同语言:其为跨语检索最主要的特征。检索词汇和文件间必须要有特定的对应关系,翻译技术是建立其关系的重要运算之一。

检索词太短:跨语检索者所输入的检索词汇往往太简短,因而造成翻译和歧义性的困难度。

语言识别(language identification)困难:如果跨语检索系统无法辨识该检索词汇是何种语言,如中文、英文、拉丁文和俄文等,就无法检索出使用者所需要的资料。

断词和书写符号的问题:因为中文的词与词之间没有明显的分隔符号,因此会有断词(segmentation)的问题。而俄文、西班牙文等语文,电脑没有自动产生文字的功能,如当使用者欲于搜寻引擎或文件中,输入俄文,必须利用其他的应用软件,才能产生俄文,而不像英文或中文可直接从输入法中选择。

输出结果的呈现(visualization):包含检索结果得到的多语言文件要如何合并,接口该如何呈现,才能使检索者一目了然等问题。

整理陈信希老师和陈光华老师们的文章,目前跨语检索相关技术,可分成三大类,分述如下:

翻译检索词汇:此法视处理检索词汇的方式,又区分成两种方法,一种是控制词汇,另一种是自由词汇。

控制词汇:使用控制词汇进行检索时,由于为系统内定的词汇,所以,虽然使得检索的过程比较顺利,可是能找到的资料有限。

自由词汇:可分成三种策略,分别是知识库策略、语料库策略和混合式策略。

知识库策略:一种是采用辞典的方法,另一种则是采用索引典策略的知识架构。

语料库策略:此法比较复杂,包含了四种方法,分别是“词汇对列方式”、“文句对列方式”、“文件对列”和“不采用对列方式”。

翻译文件:此法可分成两种,一种为文本的翻译,另一种为特征向量的翻译。

不翻译。

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如何用java替换看不见的字符比如零宽空格​十六进制U+200B
 干货   2023-09-10
网页字号不能单数吗,网页字体大小为什么一般都是偶数
 干货   2023-09-06
java.lang.ArrayIndexOutOfBoundsException: 4096
 干货   2023-09-06
Noto Sans CJK SC字体下载地址
 干货   2023-08-30
window.navigator和navigator的区别是什么?
 干货   2023-08-23
js获取referer、useragent、浏览器语言
 干货   2023-08-23
oscache遇到404时会不会缓存?
 干货   2023-08-23
linux下用rm -rf *删除大量文件太慢怎么解决?
 干货   2023-08-08
刀郎新歌破世界纪录!
 娱乐   2023-08-01
js实现放大缩小页面
 干货   2023-07-31
生成式人工智能服务管理暂行办法
 百态   2023-07-31
英语学习:过去完成时The Past Perfect Tense举例说明
 干货   2023-07-31
Mysql常用sql命令语句整理
 干货   2023-07-30
科学家复活了46000年前的虫子
 探索   2023-07-29
英语学习:过去进行时The Past Continuous Tense举例说明
 干货   2023-07-28
meta name="applicable-device"告知页面适合哪种终端设备:PC端、移动端还是自适应
 干货   2023-07-28
只用css如何实现打字机特效?
 百态   2023-07-15
css怎么实现上下滚动
 干货   2023-06-28
canvas怎么画一个三角形?
 干货   2023-06-28
canvas怎么画一个椭圆形?
 干货   2023-06-28
canvas怎么画一个圆形?
 干货   2023-06-28
canvas怎么画一个正方形?
 干货   2023-06-28
中国河南省郑州市金水区蜘蛛爬虫ip大全
 干货   2023-06-22
javascript简易动态时间代码
 干货   2023-06-20
感谢员工的付出和激励的话怎么说?
 干货   2023-06-18
 
>>返回首页<<
 
 
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有