vsm - 军军小站|张军博客

向量空间模型将文档映射为一个特征向量V(d)=(t ₁ ,ω ₁ (d)；…；t _n , ω _n (d))，其中t _i (i=1,2, …,n)为一列互不雷同的词条项，ω _i (d)为t _i 在d中的权值, 一般被定义为t _i 在d中出现频率tf _i (d)的函数，即。

在信息检索中常用的词条权值计算方法为 TF-IDF 函数，其中N为所有文档的数目，n _i 为含有词条t _i 的文档数目。TF-IDF公式有很多变种，下面是一个常用的TF-IDF公式：

根据TF-IDF公式，文档集中包含某一词条的文档越多，说明它区分文档类别属性的能力越低，其权值越小；另一方面，某一文档中某一词条出现的频率越高，说明它区分文档内容属性的能力越强，其权值越大。

两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示，即文档d _i ，d _j 的相似度可以表示为

进行查询的过程中，先将查询条件Q进行向量化，主要依据布尔模型:

当t _i 在查询条件Q中时，将对应的第i坐标置为1，否则置为0，即

从而文档d与查询Q的相似度为

根据文档之间的相似度，结合机器学习的一些算法如神经网络算法，K-近邻算法和贝叶斯分类算法等，可以将文档集分类划分为一些小的文档子集。

在查询过程中，可以计算出每个文档与查询的相似度，进而可以根据相似度的大小，将查询的结果进行排序。

向量空间模型可以实现文档的自动分类和对查询结果的相似度排序，能够有效提高检索效率；它的缺点是相似度的计算量大，当有新文档加入时，则必须重新计算词的权值。

vsm

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义

向量空间模型将文档映射为一个特征向量V(d)=(t 1 ,ω 1 (d)；…；t n , ω n (d))，其中t i (i=1,2, …,n)为一列互不雷同的词条项，ω i (d)为t i 在d中的权值, 一般被定义为t i 在d中出现频率tf i (d)的函数，即 。

向量空间模型将文档映射为一个特征向量V(d)=(t ₁ ,ω ₁ (d)；…；t _n , ω _n (d))，其中t _i (i=1,2, …,n)为一列互不雷同的词条项，ω _i (d)为t _i 在d中的权值, 一般被定义为t _i 在d中出现频率tf _i (d)的函数，即。