王朝百科
分享
 
 
 

概率模型

王朝百科·作者佚名  2010-01-03  
宽屏版  字体: |||超大  

给定一个用户的查询串,相对于该串存在一个包含所有相关文档的集合。我们把这样的集合看作是一个理想的结果文档集,在给出理想结果集后,我们能很容易得到结果文档。这样我们可以把查询处理看作是对理想结果文档集属性的处理。问题是我们并不能确切地知道这些属性,我们所知道的是存在索引术语来表示这些属性。由于在查询期间这些属性都是不可见的,这就需要在初始阶段来估计这些属性。这种初始阶段的估计允许我们对首次检索的文档集合返回理想的结果集,并产生一个初步的概率描述。为了提高理想结果集的描述概率,系统需要与用户进行交互式(feedback)操作。具体处理过程如下:用户大致浏览一下结果文档,决定哪些是相关的,哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描述;重复以上操作,就会越来越接近真正的结果文档集。

概率模型是基于以下理论:给定一个用户的查询串 和集合中的文档 概率模型来估计用户查询串与文档 相关的概率。概率模型假设这种概率只决定于查询串和文档。更进一步说,该模型假定存在一个所有文档的集合,即相对于查询串 的结果文档子集,这种理想的集合用R表示,集合中的文档是被预料与查询串相关的。这种假设存在着缺点,因为他没有明确定义计算相关度的概率,下面将给出这种概率的定义。

在概率模型中索引术语的权重都是二元的,例如: 。查询串 是索引术语集合的子集。设R是相关文档集合(初始的猜测集合), 是R的补集(非相关文档的集合)。 表示文档 与查询串 相关的概率, 表示文档 与查询串 不相关的概率。文档 对于查询串 的相关度值定义为: ,根据Bayesian定律

代表从相关文档集合R中随机选取文档 的概率。 表示从整个集合中随机选取一篇文档作为相关文档的概率。类似定义 , 。因为对于集合中所有的文档 和 是相同的,所以,

假设索引术语是相互独立的则:

表示集合R中随机选取的文档中出现索引术语 的概率, 表示集合R中随机选取的文档中不出现索引术语 的概率,类似定义了 , 。取对数,根据 ,我们最后可以得到:

这是在概率模型中计算相关度的一个关键的表达式。

由于我们在开始时并不知道集合R,因此必须设计一个初始化计算 和 的算法。有许多方法可以计算它们的值,下面将具体讨论一种简单的算法。

在查询的开始间段只定义了查询串,还没有得到结果文档集。我们不得不作一些简单的假设,例如:(a)假定 对所有的索引术语 来说是常数(一般等于0.5);(b)假定索引术语在非相关文档中的分布可以由索引术语在集合中所有文档中的分布来近似表示。这两种假设用公式表示如下:

表示出现索引术语 的文档的数目,N是集合中总的文档的数目。在上面的假设下,我们可以得到部分包含查询串的文档,并为他们提供一个初始的相关概率。

概率模型的优点在于,文档可以按照他们相关概率递减的顺序来计算秩(rank)。他的缺点在于:开始时需要猜想把文档分为相关和不相关的两个集合,实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二元的),而索引术语都是相互独立的。

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
中国古代四大美女:背后隐藏惊人秘密
 女性   2025-06-20
如何用java替换看不见的字符比如零宽空格​十六进制U+200B
 干货   2023-09-10
网页字号不能单数吗,网页字体大小为什么一般都是偶数
 干货   2023-09-06
java.lang.ArrayIndexOutOfBoundsException: 4096
 干货   2023-09-06
Noto Sans CJK SC字体下载地址
 干货   2023-08-30
window.navigator和navigator的区别是什么?
 干货   2023-08-23
js获取referer、useragent、浏览器语言
 干货   2023-08-23
oscache遇到404时会不会缓存?
 干货   2023-08-23
linux下用rm -rf *删除大量文件太慢怎么解决?
 干货   2023-08-08
刀郎新歌破世界纪录!
 娱乐   2023-08-01
js实现放大缩小页面
 干货   2023-07-31
生成式人工智能服务管理暂行办法
 百态   2023-07-31
英语学习:过去完成时The Past Perfect Tense举例说明
 干货   2023-07-31
Mysql常用sql命令语句整理
 干货   2023-07-30
科学家复活了46000年前的虫子
 探索   2023-07-29
英语学习:过去进行时The Past Continuous Tense举例说明
 干货   2023-07-28
meta name="applicable-device"告知页面适合哪种终端设备:PC端、移动端还是自适应
 干货   2023-07-28
只用css如何实现打字机特效?
 百态   2023-07-15
css怎么实现上下滚动
 干货   2023-06-28
canvas怎么画一个三角形?
 干货   2023-06-28
canvas怎么画一个椭圆形?
 干货   2023-06-28
canvas怎么画一个圆形?
 干货   2023-06-28
canvas怎么画一个正方形?
 干货   2023-06-28
中国河南省郑州市金水区蜘蛛爬虫ip大全
 干货   2023-06-22
javascript简易动态时间代码
 干货   2023-06-20
 
>>返回首页<<
 
 
静静地坐在废墟上,四周的荒凉一望无际,忽然觉得,凄凉也很美
© 2005- 王朝网络 版权所有