一、 中文分詞方式:
中文分詞幾種常用的方式:
A. 單字分詞
單字分詞,顧名思義,就是按照中文一個(gè)字一個(gè)字地進(jìn)行分詞。如:我們是中國(guó)人,效果:我 \ 們 \ 是 \ 中 \ 國(guó) \ 人。
B. 二分法
二分法,就是按兩個(gè)字進(jìn)行切分。如:我們是中國(guó)人,效果:我們 \ 們是 \ 是中 \ 中國(guó) \ 國(guó)人。
C. 詞庫(kù)分詞
詞庫(kù)分詞,就是按某種算法構(gòu)造詞然后去匹配已建好的詞庫(kù)集合,如果匹配到就切分出來(lái)成為詞語(yǔ)。通常詞庫(kù)分詞被認(rèn)為是最理想的中文分詞算法如:我們是中國(guó)人,通成效果為:我們 \ 是 \ 中國(guó) \ 中國(guó)人。
二、 Lucene.net 中五種中文分詞效果探究
在 Lucene.net 中有很多種分詞器,不同分詞器使用了不同的分詞算法,有不同的分詞效果,滿足不同的需求!在這里主要是看看其中五中分詞器用來(lái)對(duì)中文切詞的效果。五中分詞器分 別為: StandardTokenizer , CJKTokenizer , ChinessTokenizer , LowerCaseTokenizer , WhitespaceTokenizer;
?? 下面就來(lái)測(cè)試一下它們切詞的效果:
??
測(cè)試目標(biāo):是否支持中文詞語(yǔ),英文單詞,郵件,
IP
地址,標(biāo)點(diǎn)符號(hào),數(shù)字,數(shù)學(xué)表達(dá)式的切割。
??
測(cè)試文字:“我們是中國(guó)人
;
我們 是 人
;we are chiness; 172.16.34.172;youpeizun@126.com;#$*;85*34;58 <st1:chmetcnv tcsc="0" hasspace="False" sourcevalue="69" numbertype="1" negative="False" unitname="”" w:st="on">69
”
</st1:chmetcnv>
測(cè)試 StandardTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國(guó) / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172.16.34.172/ youpeizun@126.com/ 85/ 34/ 58/ 69/ 測(cè)試 CJKTokenizer 的分詞情況如下: 我們 / 們是 / 是中 / 中國(guó) / 國(guó)人 / 我們 / 是 / 人 / we/ chiness/ 172/ 16/ 34/ 172/ youpe izun/ 126/ com/ #/ 85/ 34/ 58/ 69/ 測(cè)試 ChinessTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國(guó) / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172/ 16/ 34/ 172/ youp eizun/ 126/ com/ 85/ 34/ 58/ 69/ 測(cè)試 LowerCaseTokenizer 的分詞情況如下: 我們是中國(guó)人 / 我們 / 是 / 人 /we/are/chiness/youpeizun/com/ 測(cè)試 WhitespaceTokenizer 的分詞情況如下: 我們是中國(guó)人 ;/ 我們 / 是 / 人 ;we/are/chiness;/172.16.34.172;youpeizun@126.com;#$*;85* 34;58/69/ |
測(cè)試代碼:
一、
中文分詞方式:

<!---->









































































































?
中文分詞幾種常用的方式:
A. 單字分詞
單字分詞,顧名思義,就是按照中文一個(gè)字一個(gè)字地進(jìn)行分詞。如:我們是中國(guó)人,效果:我 \ 們 \ 是 \ 中 \ 國(guó) \ 人。
B. 二分法
二分法,就是按兩個(gè)字進(jìn)行切分。如:我們是中國(guó)人,效果:我們 \ 們是 \ 是中 \ 中國(guó) \ 國(guó)人。
C. 詞庫(kù)分詞
詞庫(kù)分詞,就是按某種算法構(gòu)造詞然后去匹配已建好的詞庫(kù)集合,如果匹配到就切分出來(lái)成為詞語(yǔ)。通常詞庫(kù)分詞被認(rèn)為是最理想的中文分詞算法如:我們是中國(guó)人,通成效果為:我們 \ 是 \ 中國(guó) \ 中國(guó)人。
二、 Lucene.net 中五種中文分詞效果探究
在 Lucene.net 中有很多種分詞器,不同分詞器使用了不同的分詞算法,有不同的分詞效果,滿足不同的需求!在這里主要是看看其中五中分詞器用來(lái)對(duì)中文切詞的效果。五中分詞器分 別為: StandardTokenizer , CJKTokenizer , ChinessTokenizer , LowerCaseTokenizer , WhitespaceTokenizer;
?? 下面就來(lái)測(cè)試一下它們切詞的效果:
??
測(cè)試目標(biāo):是否支持中文詞語(yǔ),英文單詞,郵件,
IP
地址,標(biāo)點(diǎn)符號(hào),數(shù)字,數(shù)學(xué)表達(dá)式的切割。
??
測(cè)試文字:“我們是中國(guó)人
;
我們 是 人
;we are chiness; 172.16.34.172;youpeizun@126.com;#$*;85*34;58 <st1:chmetcnv tcsc="0" hasspace="False" sourcevalue="69" numbertype="1" negative="False" unitname="”" w:st="on">69
”
</st1:chmetcnv>
測(cè)試 StandardTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國(guó) / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172.16.34.172/ youpeizun@126.com/ 85/ 34/ 58/ 69/ 測(cè)試 CJKTokenizer 的分詞情況如下: 我們 / 們是 / 是中 / 中國(guó) / 國(guó)人 / 我們 / 是 / 人 / we/ chiness/ 172/ 16/ 34/ 172/ youpe izun/ 126/ com/ #/ 85/ 34/ 58/ 69/ 測(cè)試 ChinessTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國(guó) / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172/ 16/ 34/ 172/ youp eizun/ 126/ com/ 85/ 34/ 58/ 69/ 測(cè)試 LowerCaseTokenizer 的分詞情況如下: 我們是中國(guó)人 / 我們 / 是 / 人 /we/are/chiness/youpeizun/com/ 測(cè)試 WhitespaceTokenizer 的分詞情況如下: 我們是中國(guó)人 ;/ 我們 / 是 / 人 ;we/are/chiness;/172.16.34.172;youpeizun@126.com;#$*;85* 34;58/69/ |
測(cè)試代碼:
測(cè)試代代碼下載

<!---->






























更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
