亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

vsm

系統(tǒng) 1825 0

向量空間模型將文檔映射為一個特征向量V(d)=(t 1 1 (d);…;t n , ω n (d)),其中t i (i=1,2, …,n)為一列互不雷同的詞條項,ω i (d)為t i 在d中的權值, 一般被定義為t i 在d中出現(xiàn)頻率tf i (d)的函數(shù),即

在信息檢索中常用的詞條權值計算方法為 TF-IDF 函數(shù) ,其中N為所有文檔的數(shù)目,n i 為含有詞條t i 的文檔數(shù)目。TF-IDF公式有很多變種,下面是一個常用的TF-IDF公式:

根據(jù)TF-IDF公式,文檔集中包含某一詞條的文檔越多,說明它區(qū)分文檔類別屬性的能力越低,其權值越小;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說明它區(qū)分文檔內容屬性的能力越強,其權值越大。

兩文檔之間的相似度可以用其對應的向量之間的夾角余弦來表示,即文檔d i ,d j 的相似度可以表示為

進行查詢的過程中,先將查詢條件Q進行向量化,主要依據(jù)布爾模型:

當t i 在查詢條件Q中時,將對應的第i坐標置為1,否則置為0,即

從而文檔d與查詢Q的相似度為

根據(jù)文檔之間的相似度,結合機器學習的一些算法如神經(jīng)網(wǎng)絡算法,K-近鄰算法和貝葉斯分類算法等,可以將文檔集分類劃分為一些小的文檔子集。

在查詢過程中,可以計算出每個文檔與查詢的相似度,進而可以根據(jù)相似度的大小,將查詢的結果進行排序。

向量空間模型可以實現(xiàn)文檔的自動分類和對查詢結果的相似度排序,能夠有效提高檢索效率;它的缺點是相似度的計算量大,當有新文檔加入時,則必須重新計算詞的權值。

vsm


更多文章、技術交流、商務合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 日本韩国欧美在线 | 国产区久久 | 欧美不卡精品中文字幕日韩 | 久久综合成人网 | 亚洲欧洲精品国产区 | 日韩毛片在线免费观看 | 国产福利在线观看永久免费 | 四虎影院免费视频 | 亚洲欧美日韩一级特黄在线 | 免费视频不卡 | 人做人爱视频欧美在线观看 | 亚洲片在线观看 | 亚洲狠狠婷婷综合久久久久图片 | 午夜j| 精品久久久久久中文字幕欧美 | 国产一级理论免费版 | 日韩欧美一二三区 | 香蕉成人影院 | 亚洲国产成人资源在线软件 | 日韩一级黄色录像 | 久久综合精品国产一区二区三区无 | 国产精品视频免费的 | a性视频 | 久久夜色精品 | 乱人伦中文字幕在线看 | 五月婷婷在线播放 | 欧美毛片一级 | 成人美女黄网站色大色费 | 色视频国产 | 一区二区三区欧美视频 | 久久久久久亚洲精品 | 毛片在线视频观看 | 欧美一级高清在线观看 | 全黄一级裸片视频免费 | 91亚洲国产成人久久精品网址 | 天天狠狠弄夜夜狠狠躁·太爽了 | 欧美成人h | 亚洲精品福利一区二区三区 | 免费小视频 | 国产美女在线免费观看 | 日本精品视频一区二区三区 |