亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python gensim使用word2vec詞向量處理中文語料的方法

系統(tǒng) 2462 0

word2vec介紹

word2vec官網(wǎng):https://code.google.com/p/word2vec/

  • word2vec是google的一個開源工具,能夠根據(jù)輸入的詞的集合計(jì)算出詞與詞之間的距離。
  • 它將term轉(zhuǎn)換成向量形式,可以把對文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,計(jì)算出向量空間上的相似度,來表示文本語義上的相似度。
  • word2vec計(jì)算的是余弦值,距離范圍為0-1之間,值越大代表兩個詞關(guān)聯(lián)度越高。
  • 詞向量:用Distributed Representation表示詞,通常也被稱為“Word Representation”或“Word Embedding(嵌入)”。

簡言之:詞向量表示法讓相關(guān)或者相似的詞,在距離上更接近。

具體使用(處理中文)

收集語料

本文:亞馬遜中文書評語料,12萬+句子文本。
語料以純文本形式存入txt文本。
注意:
理論上語料越大越好
理論上語料越大越好
理論上語料越大越好
重要的事情說三遍。
因?yàn)樘〉恼Z料跑出來的結(jié)果并沒有太大意義。

分詞

中文分詞工具還是很多的,我自己常用的:
- 中科院NLPIR
- 哈工大LTP
- 結(jié)巴分詞

注意:分詞文本將作為word2vec的輸入文件。

分詞文本示例

python gensim使用word2vec詞向量處理中文語料的方法_第1張圖片

word2vec使用

python,利用gensim模塊。

win7系統(tǒng)下在通常的python基礎(chǔ)上gensim模塊不太好安裝,所以建議使用anaconda,具體參見: python開發(fā)之a(chǎn)naconda【以及win7下安裝gensim】

            
直接上代碼――
#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能:測試gensim使用,處理中文語料
時間:2016年5月21日 20:49:07
"""

from gensim.models import word2vec
import logging

# 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"C:\\Users\\lenovo\\Desktop\\word2vec實(shí)驗(yàn)\\亞馬遜中文書評語料.txt") # 加載語料
model = word2vec.Word2Vec(sentences, size=200) # 默認(rèn)window=5

# 計(jì)算兩個詞的相似度/相關(guān)程度
y1 = model.similarity(u"不錯", u"好")
print u"【不錯】和【好】的相似度為:", y1
print "--------\n"

# 計(jì)算某個詞的相關(guān)詞列表
y2 = model.most_similar(u"書", topn=20) # 20個最相關(guān)的
print u"和【書】最相關(guān)的詞有:\n"
for item in y2:
  print item[0], item[1]
print "--------\n"

# 尋找對應(yīng)關(guān)系
print u"書-不錯,質(zhì)量-"
y3 = model.most_similar([u'質(zhì)量', u'不錯'], [u'書'], topn=3)
for item in y3:
  print item[0], item[1]
print "--------\n"

# 尋找不合群的詞
y4 = model.doesnt_match(u"書 書籍 教材 很".split())
print u"不合群的詞:", y4
print "--------\n"

# 保存模型,以便重用
model.save(u"書評.model")
# 對應(yīng)的加載方式
# model_2 = word2vec.Word2Vec.load("text8.model")

# 以一種C語言可以解析的形式存儲詞向量
model.save_word2vec_format(u"書評.model.bin", binary=True)
# 對應(yīng)的加載方式
# model_3 = word2vec.Word2Vec.load_word2vec_format("text8.model.bin", binary=True)

if __name__ == "__main__":
  pass
          

運(yùn)行結(jié)果

【不錯】和【好】的相似度為: 0.790186663972
--------

和【書】最相關(guān)的詞有:

書籍 0.675163209438
書本 0.633386790752
確實(shí) 0.568059504032
教材 0.551493048668
正品 0.532882153988
沒得說 0.529319941998
好 0.522468209267
據(jù)說 0.51004421711
圖書 0.508755385876
挺 0.497194319963
新書 0.494331330061
很 0.490583062172
不錯 0.476392805576
正版 0.460161447525
紙張 0.454929769039
可惜 0.450752496719
工具書 0.449723362923
的確 0.448629021645
商品 0.444284260273
紙質(zhì) 0.443040698767
--------

書-不錯,質(zhì)量-
精美 0.507958948612
總的來說 0.496103972197
材質(zhì) 0.493623793125
--------

不合群的詞: 很

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。?!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 欧美成人免费全部观看天天性色 | 99伊人精品 | 99久久国产综合精品女不卡 | 美女被视频在线看九色 | jizzjizzjizz中国| 欧美劲爆第一页 | 美女羞羞视频网站 | 日韩一区二区久久久久久 | 一级做a爱片久久蜜桃 | 久久亚洲精品中文字幕二区 | 亚洲激情一区 | 精品欧美一区二区三区四区 | 青青青爽在线视频观看大全 | 国内精品日本久久久久影院 | 亚洲国产成人久久一区久久 | julia中文字幕久久亚洲 | 一区视频在线播放 | 国产精品久久久久久久久免费观看 | 国产一区二区三区久久精品 | 日本中文在线观看 | 天天射日 | 国产3级在线观看 | 男女一级毛片 | 伊人色网站 | 色综合视频在线观看 | 青青国产成人久久91网站站 | 国产亚洲久久 | 日韩永久免费视频 | 成人不卡在线 | 按摩一级片 | 四虎影院成人在线观看 | 一级淫片免费视频 | 久久草在线看 | 亚洲精品欧美精品国产精品 | 九九精品热 | 国产欧美日韩综合精品一区二区 | 日韩欧美亚洲中字幕在线播放 | 久久中文字幕免费视频 | 亚洲欧美中文字幕专区 | 97国产成人精品免费视频 | 色婷婷色婷婷 |