布尔模型

王朝百科·作者佚名  2010-01-03  
宽屏版  字体: |||超大  

布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。由于集合的定义是非常直观的,Boolean模型提供了一个信息检索系统用户容易掌握的框架。查询串通常以语义精确的布尔表达式的方式输入,如 。

不幸的是,Boolean模型存在着一些缺陷:

第一, 它的检索策略是基于二元判定标准(binary decision criterion)(例如,对于检索来说一篇文档只有相关和不相关两中状态),缺乏文档分级(rank)的概念,限制了检索功能。

第二, 虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。

除掉上述缺陷,Boolean模型仍然是文档数据库系统中的主要模型。

Boolean模型定义索引术语只有两种状态,出现或者不出现在某一篇文档中,这样就导致了索引术语的权重都表现为二元性(例如, )。查询串q是一个传统的布尔表达式,假设 是q的分离形式,假设 是 的任何一种分离形式,文档与查询串的相关都定义为:

如果 ,Boolean模型表示文档 与查询串相关(但可能不属于查询结果集),否则就表示与文档 不相关。

Boolean模型的主要优点在于具有清楚和简单的形式,而主要缺陷在于完全匹配会导致太多或者太少的结果文档被返回。众所周知,索引术语的权重从根本上提高了检索系统的功能,从而导致了向量(Vector)模型的产生。

 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
© 2005- 王朝百科 版权所有