文本检索
文本检索(Text Retrieval)与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。
最早最典型的文本检索是图书馆的图书索引,根据书名、作者、出版社、出版时间、书号等信息对馆藏图书进行索引,读者只需根据索引即可很快的查到所需要的书存放在图书馆的什么地方。
随着计算机的出现,人们借助计算机可以更加方便的管理更多的文档,计算机硬盘甚至可以装下全世界所有图书馆藏书。为了快速查找计算机所管理的文档,出现了第一代文本检索技术,即根据关键字匹配,将包含关键字的文档挑出来作为检索结果呈现给用户。
随着文档数量的增加,运用第一代文本检索技术已经很难检索出精确的检索结果,于是根据文本内容的第二代文本检索技术应运而生。即根据系统对文本和检索语句的理解,计算文本和检索语句的相似度,根据相似度对检索结果排序,将相似度最高的检索结果呈现给用户。
随着互联网的出现和发展,文本文献在互联网上的数量发展更加迅猛,文本的数量级和文本的结构都发生了变化:文本数量大幅度增长、互联网上的文本成为半结构化的。这给文本检索技术提出了更大的挑战和机遇。于是在基于相似度的检索技术基础上,出现了结合文本结构信息(如文本的网络地址、大小写、文本在页面中所处的位置、所指向的其他文本、指向自己的其他文本等)对检索结果集进行再排序的第三代文本检索技术,Google就是最经典的例子。
现代的文本检索技术逐渐向语意理解、特定领域等方向发展。全世界科学家都在不遗余力的建设“本体库”,如WordNet、HowNet等本体字典。通过本体库将文本转化为语意集合,从提炼文本的语意,以提供语意层次的检索。此外,对于生物、医学、法律、新闻、以及新出现的Blog等领域,都出现了转门针对单个领域的检索技术,并且得到了迅猛发展。
文本检索领域的著名国际学术会议有SIGIR、WWW、TREC等。