亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python基于隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入

系統(tǒng) 1873 0

在網(wǎng)上看到一篇關(guān)于隱馬爾科夫模型的介紹,覺得簡直不能再神奇,又在網(wǎng)上找到大神的一篇關(guān)于如何用隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入的博客,無奈大神沒給可以運(yùn)行的代碼,只能純手動(dòng)網(wǎng)上找到了結(jié)巴分詞的詞庫,根據(jù)此訓(xùn)練得出隱馬爾科夫模型,用維特比算法實(shí)現(xiàn)了一個(gè)簡單的拼音輸入法。githuh地址:https://github.com/LiuRoy/Pinyin_Demo

原理簡介隱馬爾科夫模型

抄一段網(wǎng)上的定義:

隱馬爾可夫模型 (Hidden Markov Model) 是一種統(tǒng)計(jì)模型,用來描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過程。其難點(diǎn)是從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用這些參數(shù)來作進(jìn)一步的分析。

拼音輸入法中可觀察的參數(shù)就是拼音,隱含的參數(shù)就是對(duì)應(yīng)的漢字。

viterbi算法

參考https://zh.wikipedia.org/wiki/維特比算法,思想是動(dòng)態(tài)規(guī)劃,代碼比較簡單就不贅述。

代碼解釋

model定義

代碼見model/table.py文件,針對(duì)隱馬爾科夫的三個(gè)概率矩陣,分別設(shè)計(jì)了三個(gè)數(shù)據(jù)表存儲(chǔ)。這樣的好處很明顯,漢字的轉(zhuǎn)移概率矩陣是一個(gè)非常大的稀疏矩陣,直接文件存儲(chǔ)占用空間很大,并且加載的時(shí)候也只能一次性讀入內(nèi)存,不僅內(nèi)存占用高而且加載速度慢。此外數(shù)據(jù)庫的join操作非常方便viterbi算法中的概率計(jì)算。

數(shù)據(jù)表定義如下:

            
class Transition(BaseModel):

  __tablename__ = 'transition'

  id = Column(Integer, primary_key=True)
  previous = Column(String(1), nullable=False)
  behind = Column(String(1), nullable=False)
  probability = Column(Float, nullable=False)


class Emission(BaseModel):

  __tablename__ = 'emission'

  id = Column(Integer, primary_key=True)
  character = Column(String(1), nullable=False)
  pinyin = Column(String(7), nullable=False)
  probability = Column(Float, nullable=False)


class Starting(BaseModel):

  __tablename__ = 'starting'

  id = Column(Integer, primary_key=True)
  character = Column(String(1), nullable=False)
  probability = Column(Float, nullable=False)
          

模型生成

代碼見train/main.py文件,里面的init starting,init emission,init_transition分別對(duì)應(yīng)于生成隱馬爾科夫模型中的初始概率矩陣,發(fā)射概率矩陣,轉(zhuǎn)移概率矩陣,并把生成的結(jié)果寫入sqlite文件中。訓(xùn)練用到的數(shù)據(jù)集是結(jié)巴分詞里的詞庫,因?yàn)闆]有訓(xùn)練長句子,最后運(yùn)行的結(jié)果也證明只能適用于短句輸入。

初始概率矩陣

統(tǒng)計(jì)初始化概率矩陣,就是找出所有出現(xiàn)在詞首的漢字,并統(tǒng)計(jì)它們出現(xiàn)在詞首的次數(shù),最后根據(jù)上述數(shù)據(jù)算出這些漢字出現(xiàn)在詞首的概率,沒統(tǒng)計(jì)的漢字就認(rèn)為出現(xiàn)在詞首的概率是0,不寫入數(shù)據(jù)庫。有一點(diǎn)注意的是為了防止概率計(jì)算的時(shí)候因?yàn)樵剿阍叫?dǎo)致計(jì)算機(jī)無法比較,所有的概率都進(jìn)行了自然對(duì)數(shù)運(yùn)算。統(tǒng)計(jì)的結(jié)果如下:

python基于隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入_第1張圖片

轉(zhuǎn)移概率矩陣

此處用到的是最簡單的一階隱馬爾科夫模型,即認(rèn)為在一個(gè)句子里,每個(gè)漢字的出現(xiàn)只和它前面的的一個(gè)漢字有關(guān),雖然簡單粗暴,但已經(jīng)可以滿足大部分情況。統(tǒng)計(jì)的過程就是找出字典中每個(gè)漢字后面出現(xiàn)的漢字集合,并統(tǒng)計(jì)概率。因?yàn)檫@個(gè)概率矩陣非常的大,逐條數(shù)據(jù)寫入數(shù)據(jù)庫過慢,后續(xù)可以優(yōu)化為批量寫入,提高訓(xùn)練效率。結(jié)果如下:

python基于隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入_第2張圖片

上圖展示的一后面出現(xiàn)概率最高的十個(gè)字,也挺符合日常習(xí)慣。

發(fā)射概率矩陣

通俗點(diǎn)就是統(tǒng)計(jì)每個(gè)漢字對(duì)應(yīng)的拼音以及在日常情況下的使用概率,已暴舉例,它有兩個(gè)讀音:bao和pu,難點(diǎn)就是找bao和pu出現(xiàn)的概率。此處統(tǒng)計(jì)用到了pypinyin模塊,把字典中的短語轉(zhuǎn)換為拼音后進(jìn)行概率統(tǒng)計(jì),但是某些地方讀音也不完全正確,最后運(yùn)行的輸入法會(huì)出現(xiàn)和拼音不匹配的結(jié)果。統(tǒng)計(jì)結(jié)果如下:

python基于隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入_第3張圖片

viterbi實(shí)現(xiàn)

代碼建input_method/viterbi.py文件,此處會(huì)找到最多十個(gè)局部最優(yōu)解,注意是十個(gè)局部最優(yōu)解而不是十個(gè)全局最優(yōu)解,但是這十個(gè)解中最優(yōu)的那個(gè)是全局最優(yōu)解,代碼如下:

            
def viterbi(pinyin_list):
  """
  viterbi算法實(shí)現(xiàn)輸入法

  Aargs:
    pinyin_list (list): 拼音列表
  """
  start_char = Emission.join_starting(pinyin_list[0])
  V = {char: prob for char, prob in start_char}

  for i in range(1, len(pinyin_list)):
    pinyin = pinyin_list[i]

    prob_map = {}
    for phrase, prob in V.iteritems():
      character = phrase[-1]
      result = Transition.join_emission(pinyin, character)
      if not result:
        continue

      state, new_prob = result
      prob_map[phrase + state] = new_prob + prob

    if prob_map:
      V = prob_map
    else:
      return V
  return V
          

結(jié)果展示

運(yùn)行input_method/viterbi.py文件,簡單的展示一下運(yùn)行結(jié)果:

python基于隱馬爾可夫模型實(shí)現(xiàn)中文拼音輸入_第4張圖片

問題統(tǒng)計(jì):

統(tǒng)計(jì)字典生成轉(zhuǎn)移矩陣寫入數(shù)據(jù)庫的速度太慢,運(yùn)行一次要將近十分鐘。發(fā)射概率矩陣數(shù)據(jù)不準(zhǔn)確,總有一些漢字的拼音不匹配。訓(xùn)練集太小,實(shí)現(xiàn)的輸入法不適用于長句子。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 伊人精品影院一本到欧美 | 一级高清在线观看影片 | 91亚洲精品福利在线播放 | 国产精品久久久久久久hd | 四虎视频在线精品免费观看 | 欧美洲大黑香蕉在线视频 | 一级黄色a视频 | 九九热精品视频在线观看 | 国产免费三a在线 | 国产一区二区三区在线免费 | 国产成a人片在线观看视频99 | 四虎影永久在线观看精品 | 中文字幕在线观看免费视频 | 国产成人精品一区二区视频 | 国人精品视频在线观看 | 久久乱码精品区中文字幕 | 欧美久久久久久久久 | 日本三级做a全过程在线观看 | 精品亚洲在线 | 黄片毛片 | 狠狠婷 | 二级毛片 | 免费视频毛片 | 欧美一欧美一区二三区性 | 99re6在线视频免费精品 | 在线免费观看a视频 | 免费精品一区二区三区在线观看 | 色综合久久夜色精品国产 | 国产高清a毛片在线看 | 最新国产区| 久久精品午夜视频 | 亚洲国产欧美精品一区二区三区 | 久久99精品久久久久久久野外 | 国产精品久久免费 | 久久天堂夜夜一本婷婷麻豆 | 国产精品欧美日韩精品 | 四虎影视紧急入口地址大全 | 亚洲国产精品悠悠久久琪琪 | 精品久久久久久中文字幕欧美 | japanese成人| 久色精品|