王朝百科
分享
 
 
 

向量模型

王朝百科·作者佚名  2010-01-03  
宽屏版  字体: |||超大  

向量模型认识到布尔模型中的二元权重的局限性,从而提出了一个适合部分匹配的框架。它在查询串和文档之间分配给索引术语非二元的权重,这些术语权重反映了数据库中的每篇文档与用户递交的查询串的相关度,并将查询返回的结果文档集按照相关度的降序排列,所以向量模型得到的文档是部分地匹配查询串。向量模型的优点在于根据秩(rank)返回的结果集要比布尔模型返回的结果集在感觉上更加符合检索用户的需要。

假设序偶对 的权重 是准确的,非二元的。更进一步,在查询串中的索引术语也被赋予权重。假设 是序偶对 的权重,且 >0。查询向量 ,t表示数据库中索引术语的数目。和布尔模型中的一样,文档Dj的向量 。

因此,文档Dj和用户查询串q以t维向量的形式表示如图2.1所示。该向量模型计算出文档Dj关于查询串q的相关度,即向量 的相关性,这种相关性可以通过余(cosine)法则被量化:

q

图2.1 的余弦值即为

其中 和 是文档和查询向量的范数(norms)。元素 并不影响返回的结果文档集,因为它对数据库中所有的文档都是一样的。元素 在文档空间中提供标准化。因为 ,所以 。这样该向量模型根据查询的相关度来标记文档的秩,而在布尔模型中文档相对于查询串,只有相关和不相关两种状态。因此即使有的文档只是部分匹配查询串,由于它相对于查询串具有较高的相关度,也会被返回。为了计算文档的秩,我们首先需要知道定义索引术语权重的方法。

索引术语的权重可以通过多种方法获得,这里不详细的进行讨论,我在这里要阐明的是大多数计算术语权重的技术中的共同点。假设存在一个对象的集C和 一个描述模糊的集合A(a vague description of a set),简单聚类算法的目的是将对象集C分成两个集合:与集合A相关的对象的集合和与集合A无关的对象的集合。这里“模糊描述”表示我们不能确定那些对象属于集合A。例如构造一个汽车的集合A ,“which have a price comparable to that of a Lexus 400”。由于不知道术语comparable的确切含义,因此不能准确的来描述集合A。大多数聚类算法会根据这些对象的属性将他们分成不同的类。例如,癌症病人可以被分为以下五类:晚期、早期、转移(metastasis)、已诊断(diagnosed)、和恢复。这样就能决定一个新的癌症病人应该属于上述五类中的哪一类。下面我们讨论简单的聚类问题,即数据库中的文档相对于给定的查询串是相关还是不相关。

在Salton的著作中把信息检索问题看作一个聚类问题。我们把数据库中的文档集作为对象集C,把用户的查询串定义为那个模糊描述的集合A。在这种情况下,信息检索问题可以被简化成为判断数据库中的哪些是属于集合A的,哪些不属于集合A的问题。在聚类问题中需要解决两个主要的问题。首先要确定集合A的特征是什么,这种功能应该能较好的描述集合A中的对象。其次要确定C中剩余的对象区别于集合A中对象的特征。第一个集合的特征为量化提供了内聚相关度,而第二个集合则为量化提供了内聚的相异度。

在向量模型中,内聚相关度的量化是通过计算术语 在文档 中的出现频率来实现的。这些术语的频率( )表现了术语反映文档内容的程度。此外,内聚的相异程度的量化是通过计算术语 在集合中所有文档的出现频率的倒数来实现的,用 (inverse document frequency)来表示。使用 的目的是,在许多文档中出现的术语对区分查询串与文档是相关还是不相关时是没有多大用处的。在信息检索问题中,好的聚类算法,即最有效的术语权重方案应该尽量平衡这两种要素。

假设N为数据库中的总的文档数, 表示数据库中出现索引术语 的文档数, 为术语 在文档 中出现的次数。则术语 在文档中 的规格化频率 为:

表示在文档 中出现的单词数。如果术语 在文档 中没有出现,则 =0。进一步,定义 为术语 的倒置文档频率,且 。则术语 相对于文档 的权重 。这种术语权重的算法称为 算法。对于查询术语的权重,Salton和Buckley给出了这样一个公式: ,其中 表示术语 在查询串中的频率。

向量模型的优点在于:

1) 术语权重的算法提高了检索的性能;

2) 部分匹配的策略使得检索的结果文档集更接近用户的检索需求;

3) 根据结果文档对于查询串的相关度通过Cosine Ranking公式对结果文档进行排序。

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如何用java替换看不见的字符比如零宽空格​十六进制U+200B
 干货   2023-09-10
网页字号不能单数吗,网页字体大小为什么一般都是偶数
 干货   2023-09-06
java.lang.ArrayIndexOutOfBoundsException: 4096
 干货   2023-09-06
Noto Sans CJK SC字体下载地址
 干货   2023-08-30
window.navigator和navigator的区别是什么?
 干货   2023-08-23
js获取referer、useragent、浏览器语言
 干货   2023-08-23
oscache遇到404时会不会缓存?
 干货   2023-08-23
linux下用rm -rf *删除大量文件太慢怎么解决?
 干货   2023-08-08
刀郎新歌破世界纪录!
 娱乐   2023-08-01
js实现放大缩小页面
 干货   2023-07-31
生成式人工智能服务管理暂行办法
 百态   2023-07-31
英语学习:过去完成时The Past Perfect Tense举例说明
 干货   2023-07-31
Mysql常用sql命令语句整理
 干货   2023-07-30
科学家复活了46000年前的虫子
 探索   2023-07-29
英语学习:过去进行时The Past Continuous Tense举例说明
 干货   2023-07-28
meta name="applicable-device"告知页面适合哪种终端设备:PC端、移动端还是自适应
 干货   2023-07-28
只用css如何实现打字机特效?
 百态   2023-07-15
css怎么实现上下滚动
 干货   2023-06-28
canvas怎么画一个三角形?
 干货   2023-06-28
canvas怎么画一个椭圆形?
 干货   2023-06-28
canvas怎么画一个圆形?
 干货   2023-06-28
canvas怎么画一个正方形?
 干货   2023-06-28
中国河南省郑州市金水区蜘蛛爬虫ip大全
 干货   2023-06-22
javascript简易动态时间代码
 干货   2023-06-20
感谢员工的付出和激励的话怎么说?
 干货   2023-06-18
 
>>返回首页<<
 
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有