向量空间模型

王朝百科·作者佚名  2010-02-12  
宽屏版  字体: |||超大  

向量空间模型(Vector Space Model) M个无序特征项ti ,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij) 文档相似度比较1)Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积.2)内积计算,直接计算内积,计算强度低,但是误差大.

向量空间模型(或词组向量模型) 是一个应用于信息过滤, 信息撷取, 索引 以及评估相关性的代数模型。 SMART是首个使用这个模型的信息检索系统。

文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。

搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。

实务上,计算夹角向量之间的余弦比直接计算夹角容易:

余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。

 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
© 2005- 王朝百科 版权所有