要使得計算機能高效的處理真實文本,就必須找到一種理想的形式化表示方法,這種表示一方面能真實的反映文檔內容(主題、領域或結構等),另一方面也要有對不同文檔的區分能力。
?
目前文本表示通常采用 向量空間模型(vector space model, VSM) 。VSM是20世紀60年代末期由G. Salton等人提出的,是當前自然語言處理中常用的主流模型。
?
下面首先給出VSM設計的基本概念:
(1) 文檔(document): 通常是文章中具有一定規模的字符串。文檔通常我們也叫文本。
(2) 特征項 (feature term): 是VSM中最小的不可分的語言單元,可以是字、詞、詞組、短語等。一個文檔內容可以被看成是它含有的特征項的集合。表示為一個向量:D(t1,t2,...,tn),其中tk是特征項。
(3) 特征項權重 (term weight): 對于含有n個特征項的文檔D(t1,t2,..,tn),每一個特征項tk都依據一定的原則被賦予了一個權重wk,表示該特征相在文檔中的重要程度。這樣一個文檔D可用它含有的特征項及其特征項所對應的權重所表示: D(t1=w1,t2=w2,...,tn=wn),簡記為D(w1,w2,...,wn),其中wk就是特征項tk的權重。
?
一個文檔在上述約定下可以看成是n維空間中的一個向量,這就是VSM的基本理論基礎。
?
向量空間模型在計算文檔間相似程度上應用廣泛。我們可以通過向量的內積運算來做到這一點:
?
VSM模型為計算機處理文本分類打下了夯實的數學基礎,但是一篇文本到底用哪些特征項來表示呢?比如在《 【文本分類】 概述 》文章中舉的那篇NBA文本的例子,我們可以用所有標藍的詞語作為特征項來表示文本向量:
?
?????????? D = { 勒布朗-詹姆斯 , 德維恩-韋德 , 克 里斯-波什 , 新賽季 , 邁阿密熱火 , 總冠軍 , 熱火 , 球隊 , 衛冕冠軍,湖人 , 凱爾特人 , 休賽期 , 聯盟 }
?
?而且這些特征項在文章中的權重是如何計算的呢? 關于這幾個問題,我們都將在后面的特征提取方法和特征權重計算方法中講到。
?
因為統計學習方法的理論基礎(即文檔的內容與其中所包含的詞有著必然的聯系,同一類文檔之間總存在多個共同的詞,而不同類的文檔所包含的詞之間差異很大。進一步的,不光是包含哪些詞很重要,這些詞出現的次數對分類也很重要)。使得
VSM成了適合文本分類問題的文檔表示模型。在這種模型中,一篇文章被看作特征項集合來看,利用加權特征項構成向量進行文本表示,利用詞頻信息對文本特征進行加權。它實現起來比較簡單,并且分類準確度也高,能夠滿足一般應用的要求。
而實際上,文本是一種信息載體,其所攜帶的信息由幾部分組成:如組成元素本身的信息(詞的信息)、組成元素之間順序關系帶來的信息以及上下文信息(更嚴格的說,還包括閱讀者本身的背景和理解)而VSM這種文檔表示模型,基本上完全忽略了除詞的信息以外所有的部分,這使得它能表達的信息量存在上限,也直接導致了基于這種模型構建的文本分類系統(雖然這是目前絕對主流的做法),幾乎永遠也不可能達到人類的分類能力。后面我們也會談到,相比于所謂的分類算法,對特征的選擇,也就是使用哪些特征來代表一篇文檔,往往更能影響分類的效果。
對于擴充文檔表示模型所包含的信息量,人們也做過有益的嘗試,例如被稱為LSI(Latent Semantic Index潛在語義索引)的方法,就被實驗證明保留了一定的語義信息(之所以說被實驗證明了,是因為人們還無法在形式上嚴格地證明它確實保留了語義信息,而且這種語義信息并非以人可以理解的方式被保留下來),此為后話。
實際上:統計學習方法其實就是一個兩階段的解決方案,
(1)訓練階段,由計算機來總結分類的規則;(2)分類階段,給計算機一些它從來沒見過的文檔,讓它分類
。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
