Latent Semantic Analysis(LSA/ LSI)算法简介

本文地址为：http://www.cnblogs.com/kemaswill/，作者联系方式为kemaswill@163.com,转载请注明出处。

1. 传统向量空间模型的缺陷

向量空间模型是信息检索中最常用的检索方法，其检索过程是，将文档集D中的所有文档和查询都表示成以单词为特征的向量，特征值为每个单词的TF-IDF值，然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度，从而得到和给定查询最相关的文档。

向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索，但是“说了或者写了哪些单词”和“真正想表达的意思”之间有很大的区别，其中两个重要的阻碍是单词的多义性(polysems)和同义性(synonymys)。多义性指的是一个单词可能有多个意思，比如Apple，既可以指水果苹果，也可以指苹果公司；而同义性指的是多个不同的词可能表示同样的意思，比如search和find。

同义词和多义词的存在使得单纯基于单词的检索方法(比如向量空间模型等)的检索精度受到很大影响。下面举例说明：

假设用户的查询为Q="IDF in computer-based information look-up"

存在三篇文档Doc 1，Doc 2，Doc 3，其向量表示如下：

	Access	Document	Retrieval	Information	Theory	Database	Indexing	Computer	Relevance	Match
Doc 1	1	1	1			1	1		R
Doc 2				1 x	1			1 x		M
Doc 3			1	1 x				1 x	R	M

其中Table(i,j)=1表示文档i包含词语j。Table(i,j)=x表示该词语在查询Q中出现。Relevance如果为R表示该文档实际上和查询Q相关，Match为M表示根据基于单词的检索方法判断的文档和查询的相关性。

通过观察查询，我们知道用户实际上需要的是和“信息检索”相关的文档，文档1是和信息检索相关的，但是因为不包含查询Q中的词语，所以没有被检索到。实际上该文档包含的词语“retrieval”和查询Q中的“look-up”是同义词，基于单词的检索方法无法识别同义词，降低了检索的性能。而文档2虽然包含了查询中的"information"和"computer"两个词语，但是实际上该篇文档讲的是“信息论”(Information Theory)，但是基于单词的检索方法无法识别多义词，所以把这篇实际不相关的文档标记为Match。

总而言之，在基于单词的检索方法中，同义词会降低检索算法的召回率(Recall)，而多义词的存在会降低检索系统的准确率(Precision)。

2. Latent Semantic Analysis (Latent Semantic Indexing)

我们希望找到一种模型，能够捕获到单词之间的相关性。如果两个单词之间有很强的相关性，那么当一个单词出现时，往往意味着另一个单词也应该出现(同义词)；反之，如果查询语句或者文档中的某个单词和其他单词的相关性都不大，那么这个词很可能表示的是另外一个意思(比如在讨论互联网的文章中，Apple更可能指的是Apple公司，而不是水果) 。

LSA(LSI)使用SVD来对单词-文档矩阵进行分解。SVD可以看作是从单词-文档矩阵中发现不相关的索引变量(因子)，将原来的数据映射到语义空间内。在单词-文档矩阵中不相似的两个文档，可能在语义空间内比较相似。

SVD，亦即奇异值分解，是对矩阵进行分解的一种方法，一个t*d维的矩阵(单词-文档矩阵)X，可以分解为T*S*D ^T ，其中T为t*m维矩阵，T中的每一列称为左奇异向量(left singular bector)，S为m*m维对角矩阵，每个值称为奇异值(singular value)，D为d*m维矩阵,D中的每一列称为右奇异向量。在对单词文档矩阵X做SVD分解之后，我们只保存S中最大的K个奇异值，以及T和D中对应的K个奇异向量，K个奇异值构成新的对角矩阵S’，K个左奇异向量和右奇异向量构成新的矩阵T’和D’：X’=T’*S’*D’ ^T 形成了一个新的t*d矩阵。

假设索引的文档的集合如下：

Term-Document矩阵为：

　对其进行分解后得到X=T*S*D ^T 。其中T为：

D ^T 为

Sigma为

我们只保留最大的2个奇异值和其对应的奇异向量，得到的T’为

D’ ^T 为

Sigma’为

还原后的X’为

还原后的X’与X差别很大，这是因为我们认为之前X存在很大的噪音，X’是对X处理过同义词和多义词后的结果。

在查询时，对与每个给定的查询，我们根据这个查询中包含的单词(X _q )构造一个伪文档：D _q =X _q TS ^-1 ，然后该伪文档和D’中的每一行计算相似度(余弦相似度)来得到和给定查询最相似的文档。

参考文献：

[1] Indexing By Latent Semantic Analysis. Scott Deerwester, Susan T. Dumais, George W.Furnas, Thomas K.Landauer, Richard Harshman.

[2] Latent Semantic Analysis Note. Zhou Li.

Latent Semantic Analysis(LSA/ LSI)算法简介

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义