亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

Latent Semantic Analysis(LSA/ LSI)算法簡(jiǎn)介

系統(tǒng) 2521 0

? 本文地址為:http://www.cnblogs.com/kemaswill/,作者聯(lián)系方式為kemaswill@163.com,轉(zhuǎn)載請(qǐng)注明出處。

1. 傳統(tǒng)向量空間模型的缺陷

? 向量空間模型是信息檢索中最常用的檢索方法,其檢索過程是,將文檔集D中的所有文檔和查詢都表示成以單詞為特征的向量,特征值為每個(gè)單詞的TF-IDF值,然后使用向量空間模型(亦即計(jì)算查詢q的向量和每個(gè)文檔di的向量之間的相似度)來衡量文檔和查詢之間的相似度,從而得到和給定查詢最相關(guān)的文檔。

? 向量空間模型簡(jiǎn)單的基于單詞的出現(xiàn)與否以及TF-IDF等信息來進(jìn)行檢索,但是“說了或者寫了哪些單詞”和“真正想表達(dá)的意思”之間有很大的區(qū)別,其中兩個(gè)重要的阻礙是單詞的多義性(polysems)和同義性(synonymys)。多義性指的是一個(gè)單詞可能有多個(gè)意思,比如Apple,既可以指水果蘋果,也可以指蘋果公司;而同義性指的是多個(gè)不同的詞可能表示同樣的意思,比如search和find。

? 同義詞和多義詞的存在使得單純基于單詞的檢索方法(比如向量空間模型等)的檢索精度受到很大影響。下面舉例說明:

? 假設(shè)用戶的查詢?yōu)镼="IDF in computer-based information look-up"

? 存在三篇文檔Doc 1,Doc 2,Doc 3,其向量表示如下:

? Access Document Retrieval Information Theory Database Indexing Computer Relevance Match
Doc 1 ? ? 1 ? ? ? 1 ? ? ?1 ? ? ? ? ?1 ? ? 1 ? ? ? ? R ?
Doc 2 ? ? ? ? ? ? 1 x ? ?1 ? ? ? ? 1 x ? ? M
Doc 3 ? ? ? ? ?1 ? ? ? 1 x ? ? ? ? ? 1 x ? ? ? R ? M

? 其中Table(i,j)=1表示文檔i包含詞語j。Table(i,j)=x表示該詞語在查詢Q中出現(xiàn)。Relevance如果為R表示該文檔實(shí)際上和查詢Q相關(guān),Match為M表示根據(jù)基于單詞的檢索方法判斷的文檔和查詢的相關(guān)性。

? 通過觀察查詢,我們知道用戶實(shí)際上需要的是和“信息檢索”相關(guān)的文檔,文檔1是和信息檢索相關(guān)的,但是因?yàn)椴话樵僎中的詞語,所以沒有被檢索到。實(shí)際上該文檔包含的詞語“retrieval”和查詢Q中的“l(fā)ook-up”是同義詞,基于單詞的檢索方法無法識(shí)別同義詞,降低了檢索的性能。而文檔2雖然包含了查詢中的"information"和"computer"兩個(gè)詞語,但是實(shí)際上該篇文檔講的是“信息論”(Information Theory),但是基于單詞的檢索方法無法識(shí)別多義詞,所以把這篇實(shí)際不相關(guān)的文檔標(biāo)記為Match。

? 總而言之,在基于單詞的檢索方法中,同義詞會(huì)降低檢索算法的召回率(Recall),而多義詞的存在會(huì)降低檢索系統(tǒng)的準(zhǔn)確率(Precision)。

2. Latent Semantic Analysis (Latent Semantic Indexing)

? 我們希望找到一種模型,能夠捕獲到單詞之間的相關(guān)性。如果兩個(gè)單詞之間有很強(qiáng)的相關(guān)性,那么當(dāng)一個(gè)單詞出現(xiàn)時(shí),往往意味著另一個(gè)單詞也應(yīng)該出現(xiàn)(同義詞);反之,如果查詢語句或者文檔中的某個(gè)單詞和其他單詞的相關(guān)性都不大,那么這個(gè)詞很可能表示的是另外一個(gè)意思(比如在討論互聯(lián)網(wǎng)的文章中,Apple更可能指的是Apple公司,而不是水果) ?。

? LSA(LSI)使用SVD來對(duì)單詞-文檔矩陣進(jìn)行分解。SVD可以看作是從單詞-文檔矩陣中發(fā)現(xiàn)不相關(guān)的索引變量(因子),將原來的數(shù)據(jù)映射到語義空間內(nèi)。在單詞-文檔矩陣中不相似的兩個(gè)文檔,可能在語義空間內(nèi)比較相似。

? SVD,亦即奇異值分解,是對(duì)矩陣進(jìn)行分解的一種方法,一個(gè)t*d維的矩陣(單詞-文檔矩陣)X,可以分解為T*S*D T ,其中T為t*m維矩陣,T中的每一列稱為左奇異向量(left singular bector),S為m*m維對(duì)角矩陣,每個(gè)值稱為奇異值(singular value),D為d*m維矩陣,D中的每一列稱為右奇異向量。在對(duì)單詞文檔矩陣X做SVD分解之后,我們只保存S中最大的K個(gè)奇異值,以及T和D中對(duì)應(yīng)的K個(gè)奇異向量,K個(gè)奇異值構(gòu)成新的對(duì)角矩陣S’,K個(gè)左奇異向量和右奇異向量構(gòu)成新的矩陣T’和D’:X’=T’*S’*D’ T 形成了一個(gè)新的t*d矩陣。

? 假設(shè)索引的文檔的集合如下:

Latent Semantic Analysis(LSA/ LSI)算法簡(jiǎn)介_第1張圖片

? Term-Document矩陣為:

      
         1
      
       [[ 
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         2
      
        [ 
      
        1
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         3
      
        [ 
      
        1
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         4
      
        [ 
      
        0
      
      .  
      
        1
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         5
      
        [ 
      
        0
      
      .  
      
        1
      
      .  
      
        1
      
      .  
      
        2
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         6
      
        [ 
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         7
      
        [ 
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         8
      
        [ 
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      
        .]

      
      
         9
      
        [ 
      
        0
      
      .  
      
        1
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      
        .]

      
      
        10
      
        [ 
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        1
      
      .  
      
        1
      
      .  
      
        0
      
      
        .]

      
      
        11
      
        [ 
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        1
      
      .  
      
        1
      
      
        .]

      
      
        12
      
        [ 
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        0
      
      .  
      
        1
      
      .  
      
        1
      
      .]]
    

 對(duì)其進(jìn)行分解后得到X=T*S*D T 。其中T為:

      
         1
      
       [-
      
        0.22
      
       -
      
        0.11
      
      
        0.29
      
       -
      
        0.41
      
       -
      
        0.11
      
       -
      
        0.34
      
       -
      
        0.52
      
      
        0.06
      
      
        0.41
      
      
        ]

      
      
         2
      
       [-
      
        0.2
      
        -
      
        0.07
      
      
        0.14
      
       -
      
        0.55
      
      
        0.28
      
      
        0.5
      
      
        0.07
      
      
        0.01
      
      
        0.11
      
      
        ]

      
      
         3
      
       [-
      
        0.24
      
      
        0.04
      
       -
      
        0.16
      
       -
      
        0.59
      
       -
      
        0.11
      
       -
      
        0.25
      
      
        0.3
      
        -
      
        0.06
      
       -
      
        0.49
      
      
        ]

      
      
         4
      
       [-
      
        0.4
      
      
        0.06
      
       -
      
        0.34
      
      
        0.1
      
      
        0.33
      
      
        0.38
      
       -
      
        0
      
      .    
      
        0
      
      .   -
      
        0.01
      
      
        ]

      
      
         5
      
       [-
      
        0.64
      
       -
      
        0.17
      
      
        0.36
      
      
        0.33
      
       -
      
        0.16
      
       -
      
        0.21
      
      
        0.17
      
       -
      
        0.03
      
       -
      
        0.27
      
      
        ]

      
      
         6
      
       [-
      
        0.27
      
      
        0.11
      
       -
      
        0.43
      
      
        0.07
      
      
        0.08
      
       -
      
        0.17
      
       -
      
        0.28
      
      
        0.02
      
      
        0.05
      
      
        ]

      
      
         7
      
       [-
      
        0.27
      
      
        0.11
      
       -
      
        0.43
      
      
        0.07
      
      
        0.08
      
       -
      
        0.17
      
       -
      
        0.28
      
      
        0.02
      
      
        0.05
      
      
        ]

      
      
         8
      
       [-
      
        0.3
      
        -
      
        0.14
      
      
        0.33
      
      
        0.19
      
      
        0.11
      
      
        0.27
      
       -
      
        0.03
      
      
        0.02
      
      
        0.17
      
      
        ]

      
      
         9
      
       [-
      
        0.21
      
      
        0.27
      
       -
      
        0.18
      
       -
      
        0.03
      
       -
      
        0.54
      
      
        0.08
      
      
        0.47
      
      
        0.04
      
      
        0.58
      
      
        ]

      
      
        10
      
       [-
      
        0.01
      
      
        0.49
      
      
        0.23
      
      
        0.02
      
      
        0.59
      
       -
      
        0.39
      
      
        0.29
      
       -
      
        0.25
      
      
        0.23
      
      
        ]

      
      
        11
      
       [-
      
        0.04
      
      
        0.62
      
      
        0.22
      
      
        0
      
      .   -
      
        0.07
      
      
        0.11
      
       -
      
        0.16
      
      
        0.68
      
       -
      
        0.23
      
      
        ]

      
      
        12
      
       [-
      
        0.03
      
      
        0.45
      
      
        0.14
      
       -
      
        0.01
      
       -
      
        0.3
      
      
        0.28
      
       -
      
        0.34
      
       -
      
        0.68
      
       -
      
        0.18
      
      ]
    

? D T

      
        1
      
       [-
      
        0.2
      
        -
      
        0.61
      
       -
      
        0.46
      
       -
      
        0.54
      
       -
      
        0.28
      
       -
      
        0
      
      .   -
      
        0.01
      
       -
      
        0.02
      
       -
      
        0.08
      
      
        ]

      
      
        2
      
       [-
      
        0.06
      
      
        0.17
      
       -
      
        0.13
      
       -
      
        0.23
      
      
        0.11
      
      
        0.19
      
      
        0.44
      
      
        0.62
      
      
        0.53
      
      
        ]

      
      
        3
      
       [ 
      
        0.11
      
       -
      
        0.5
      
      
        0.21
      
      
        0.57
      
       -
      
        0.51
      
      
        0.1
      
      
        0.19
      
      
        0.25
      
      
        0.08
      
      
        ]

      
      
        4
      
       [-
      
        0.95
      
       -
      
        0.03
      
      
        0.04
      
      
        0.27
      
      
        0.15
      
      
        0.02
      
      
        0.02
      
      
        0.01
      
       -
      
        0.02
      
      
        ]

      
      
        5
      
       [ 
      
        0.05
      
       -
      
        0.21
      
      
        0.38
      
       -
      
        0.21
      
      
        0.33
      
      
        0.39
      
      
        0.35
      
      
        0.15
      
       -
      
        0.6
      
      
         ]

      
      
        6
      
       [-
      
        0.08
      
       -
      
        0.26
      
      
        0.72
      
       -
      
        0.37
      
      
        0.03
      
       -
      
        0.3
      
        -
      
        0.21
      
      
        0
      
      .    
      
        0.36
      
      
        ]

      
      
        7
      
       [-
      
        0.18
      
      
        0.43
      
      
        0.24
      
       -
      
        0.26
      
       -
      
        0.67
      
      
        0.34
      
      
        0.15
      
       -
      
        0.25
      
       -
      
        0.04
      
      
        ]

      
      
        8
      
       [ 
      
        0.01
      
       -
      
        0.05
      
       -
      
        0.01
      
      
        0.02
      
      
        0.06
      
       -
      
        0.45
      
      
        0.76
      
       -
      
        0.45
      
      
        0.07
      
      
        ]

      
      
        9
      
       [ 
      
        0.06
      
       -
      
        0.24
      
       -
      
        0.02
      
      
        0.08
      
      
        0.26
      
      
        0.62
      
       -
      
        0.02
      
       -
      
        0.52
      
      
        0.45
      
      ]
    

? Sigma為

      
        1
      
       [ 
      
        3.34
      
      
        2
      
      
        2.54
      
      
        3
      
      
        2.35
      
      
        4
      
      
        1.64
      
      
        5
      
      
        1.50
      
      
        6
      
      
        1.31
      
      
        7
      
      
        0.85
      
      
        8
      
      
        0.56
      
      
        9
      
      
        0.36]
      
    

? 我們只保留最大的2個(gè)奇異值和其對(duì)應(yīng)的奇異向量,得到的T’為

      
         1
      
       [-
      
        0.22
      
       -
      
        0.11
      
      
        ]

      
      
         2
      
       [-
      
        0.2
      
        -
      
        0.07
      
      
        ]

      
      
         3
      
       [-
      
        0.24
      
      
        0.04
      
      
        ]

      
      
         4
      
       [-
      
        0.4
      
      
        0.06
      
      
        ]

      
      
         5
      
       [-
      
        0.64
      
       -
      
        0.17
      
      
        ]

      
      
         6
      
       [-
      
        0.27
      
      
        0.11
      
      
        ]

      
      
         7
      
       [-
      
        0.27
      
      
        0.11
      
      
        ]

      
      
         8
      
       [-
      
        0.3
      
        -
      
        0.14
      
      
        ]

      
      
         9
      
       [-
      
        0.21
      
      
        0.27
      
      
        ]

      
      
        10
      
       [-
      
        0.01
      
      
        0.49
      
      
        ]

      
      
        11
      
       [-
      
        0.04
      
      
        0.62
      
      
        ]

      
      
        12
      
       [-
      
        0.03
      
      
        0.45
      
      ]
    

? D’ T

      
        1
      
       [-
      
        0.2
      
        -
      
        0.61
      
       -
      
        0.46
      
       -
      
        0.54
      
       -
      
        0.28
      
       -
      
        0
      
      .   -
      
        0.01
      
       -
      
        0.02
      
       -
      
        0.08
      
      
        ]

      
      
        2
      
       [-
      
        0.06
      
      
        0.17
      
       -
      
        0.13
      
       -
      
        0.23
      
      
        0.11
      
      
        0.19
      
      
        0.44
      
      
        0.62
      
      
        0.53
      
      ]
    

? Sigma’為

      
        1
      
       [[ 
      
        3.34
      
      
        0
      
      
        .    ]

      
      
        2
      
        [ 
      
        0
      
      .          
      
        2.54
      
        ]]
    

? 還原后的X’為

      
         1
      
       [ 
      
        0.16
      
      
        0.4
      
      
        0.38
      
      
        0.47
      
      
        0.18
      
       -
      
        0.05
      
       -
      
        0.12
      
       -
      
        0.16
      
       -
      
        0.09
      
      
        ]

      
      
         2
      
       [ 
      
        0.14
      
      
        0.37
      
      
        0.33
      
      
        0.4
      
      
        0.16
      
       -
      
        0.03
      
       -
      
        0.07
      
       -
      
        0.1
      
        -
      
        0.04
      
      
        ]

      
      
         3
      
       [ 
      
        0.15
      
      
        0.51
      
      
        0.36
      
      
        0.41
      
      
        0.24
      
      
        0.02
      
      
        0.06
      
      
        0.09
      
      
        0.12
      
      
        ]

      
      
         4
      
       [ 
      
        0.26
      
      
        0.84
      
      
        0.61
      
      
        0.7
      
      
        0.39
      
      
        0.03
      
      
        0.08
      
      
        0.12
      
      
        0.19
      
      
        ]

      
      
         5
      
       [ 
      
        0.45
      
      
        1.23
      
      
        1.05
      
      
        1.27
      
      
        0.56
      
       -
      
        0.07
      
       -
      
        0.15
      
       -
      
        0.21
      
       -
      
        0.05
      
      
        ]

      
      
         6
      
       [ 
      
        0.16
      
      
        0.58
      
      
        0.38
      
      
        0.42
      
      
        0.28
      
      
        0.06
      
      
        0.13
      
      
        0.19
      
      
        0.22
      
      
        ]

      
      
         7
      
       [ 
      
        0.16
      
      
        0.58
      
      
        0.38
      
      
        0.42
      
      
        0.28
      
      
        0.06
      
      
        0.13
      
      
        0.19
      
      
        0.22
      
      
        ]

      
      
         8
      
       [ 
      
        0.22
      
      
        0.55
      
      
        0.51
      
      
        0.63
      
      
        0.24
      
       -
      
        0.07
      
       -
      
        0.14
      
       -
      
        0.2
      
        -
      
        0.11
      
      
        ]

      
      
         9
      
       [ 
      
        0.1
      
      
        0.53
      
      
        0.23
      
      
        0.21
      
      
        0.27
      
      
        0.14
      
      
        0.31
      
      
        0.44
      
      
        0.42
      
      
        ]

      
      
        10
      
       [-
      
        0.06
      
      
        0.23
      
       -
      
        0.14
      
       -
      
        0.27
      
      
        0.14
      
      
        0.24
      
      
        0.55
      
      
        0.77
      
      
        0.66
      
      
        ]

      
      
        11
      
       [-
      
        0.06
      
      
        0.34
      
       -
      
        0.15
      
       -
      
        0.3
      
      
        0.2
      
      
        0.31
      
      
        0.69
      
      
        0.98
      
      
        0.85
      
      
        ]

      
      
        12
      
       [-
      
        0.04
      
      
        0.25
      
       -
      
        0.1
      
        -
      
        0.21
      
      
        0.15
      
      
        0.22
      
      
        0.5
      
      
        0.71
      
      
        0.62
      
      ]
    

? 還原后的X’與X差別很大,這是因?yàn)槲覀冋J(rèn)為之前X存在很大的噪音,X’是對(duì)X處理過同義詞和多義詞后的結(jié)果。

? 在 查詢 時(shí),對(duì)與每個(gè)給定的查詢,我們根據(jù)這個(gè)查詢中包含的單詞(X q )構(gòu)造一個(gè)偽文檔:D q =X q TS -1 ,然后該偽文檔和D’中的每一行計(jì)算相似度(余弦相似度)來得到和給定查詢最相似的文檔。

?參考文獻(xiàn):

? [1] ?Indexing By Latent Semantic Analysis. Scott Deerwester, Susan T. Dumais, George W.Furnas, Thomas K.Landauer, Richard Harshman.

? [2] ?Latent Semantic Analysis Note. Zhou Li.

Latent Semantic Analysis(LSA/ LSI)算法簡(jiǎn)介


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。。?/p>

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 午夜视频网址 | 天天干天天操天天射 | 毛片啪啪视频 | 亚欧精品在线观看 | 玖玖精品国产 | 免费福利影院 | 亚洲国产天堂 | 成人免费精品视频 | 天天欲色成人综合网站 | 久久爱www人成 | 免费性生活视频 | 114一级毛片免费观看 | 国内成人免费视频 | 日本不卡在线一区二区三区视频 | 国内精品视频九九九九 | 国产成人精品久久免费动漫 | 国产精品爱久久 | 久久综合九色综合欧洲色 | 色黄网站成年女人色毛片 | 综合久久影院 | 国产精品夜色视频一区二区 | 精品在线视频播放 | 黑人欧美一级毛片 | 一级作爱视频免费观看 | 国产精品综合久成人 | 51精品视频在线一区二区 | 国产高清看片日韩欧美久久 | 欧美日韩国产亚洲一区二区 | 久热这里只有精品6 | 99久久国产免费中文无字幕 | 我要看欧美精品一级毛片 | 国产真实伦偷精品 | 成人免费久久精品国产片久久影院 | 国产最新在线视频 | 色九九视频 | 日韩视频一区二区在线观看 | 青青青国产高清免费视频 | 精品国产人成在线 | 亚洲视频综合网 | 欧美激情中文字幕一区二区 | 久久久综合视频 |