數(shù)學(xué)之美 系列十九 - 馬爾可夫鏈的擴(kuò)展 貝葉斯網(wǎng)絡(luò) (Bayesian Networks) 寫道
2007年1月28日 下午 09:53:00
發(fā)表者:Google 研究員,吳軍
我們?cè)谇懊娴南盗兄卸啻翁岬今R爾可夫鏈 (Markov Chain),它描述了一種狀態(tài)序列,其每個(gè)狀態(tài)值取決于前面有限個(gè)狀態(tài)。這種模型,對(duì)很多實(shí)際問題來(lái)講是一種很粗略的簡(jiǎn)化。在現(xiàn)實(shí)生活中,很多事物相互的關(guān)系并不能用一條鏈來(lái)串起來(lái)。它們之間的關(guān)系可能是交叉的、錯(cuò)綜復(fù)雜的。比如在下圖中可以看到,心血管疾病和它的成因之間的關(guān)系是錯(cuò)綜復(fù)雜的。顯然無(wú)法用一個(gè)鏈來(lái)表示。
?
我們可以把上述的有向圖看成一個(gè)網(wǎng)絡(luò),它就是貝葉斯網(wǎng)絡(luò)。其中每個(gè)圓圈表示一個(gè)狀態(tài)。狀態(tài)之間的連線表示它們的因果關(guān)系。比如從心血管疾病出發(fā)到吸煙的弧線表示心血管疾病可能和吸煙有關(guān)。當(dāng)然,這些關(guān)系可以有一個(gè)量化的可信度 (belief),用一個(gè)概率描述。我們可以通過(guò)這樣一張網(wǎng)絡(luò)估計(jì)出一個(gè)人的心血管疾病的可能性。在網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)概率的計(jì)算,可以用貝葉斯公式來(lái)進(jìn)行,貝葉斯網(wǎng)絡(luò)因此而得名。由于網(wǎng)絡(luò)的每個(gè)弧有一個(gè)可信度,貝葉斯網(wǎng)絡(luò)也被稱作信念網(wǎng)絡(luò) (belief networks)。
和馬爾可夫鏈類似,貝葉斯網(wǎng)絡(luò)中的每個(gè)狀態(tài)值取決于前面有限個(gè)狀態(tài)。不同的是,貝葉斯網(wǎng)絡(luò)比馬爾可夫鏈靈活,它不受馬爾可夫鏈的鏈狀結(jié)構(gòu)的約束,因此可以更準(zhǔn)確地描述事件之間的相關(guān)性??梢灾v,馬爾可夫鏈?zhǔn)秦惾~斯網(wǎng)絡(luò)的特例,而貝葉斯網(wǎng)絡(luò)是馬爾可夫鏈的推廣。
使用貝葉斯網(wǎng)絡(luò)必須知道各個(gè)狀態(tài)之間相關(guān)的概率。得到這些參數(shù)的過(guò)程叫做訓(xùn)練。和訓(xùn)練馬爾可夫模型一樣,訓(xùn)練貝葉斯網(wǎng)絡(luò)要用一些已知的數(shù)據(jù)。比如在訓(xùn)練上面的網(wǎng)絡(luò),需要知道一些心血管疾病和吸煙、家族病史等有關(guān)的情況。相比馬爾可夫鏈,貝葉斯網(wǎng)絡(luò)的訓(xùn)練比較復(fù)雜,從理論上講,它是一個(gè) NP-complete 問題,也就是說(shuō),對(duì)于現(xiàn)在的計(jì)算機(jī)是不可計(jì)算的。但是,對(duì)于某些應(yīng)用,這個(gè)訓(xùn)練過(guò)程可以簡(jiǎn)化,并在計(jì)算上實(shí)現(xiàn)。
值得一提的是 IBM Watson 研究所的茨威格博士 (Geoffrey Zweig) 和西雅圖華盛頓大學(xué)的比爾默 (Jeff Bilmes) 教授完成了一個(gè)通用的貝葉斯網(wǎng)絡(luò)的工具包,提供給對(duì)貝葉斯網(wǎng)絡(luò)有興趣的研究者。
貝葉斯網(wǎng)絡(luò)在圖像處理、文字處理、支持決策等方面有很多應(yīng)用。在文字處理方面,語(yǔ)義相近的詞之間的關(guān)系可以用一個(gè)貝葉斯網(wǎng)絡(luò)來(lái)描述。我們利用貝葉斯網(wǎng)絡(luò),可以找出近義詞和相關(guān)的詞,在 Google 搜索和 Google 廣告中都有直接的應(yīng)用。
發(fā)表者:Google 研究員,吳軍
我們?cè)谇懊娴南盗兄卸啻翁岬今R爾可夫鏈 (Markov Chain),它描述了一種狀態(tài)序列,其每個(gè)狀態(tài)值取決于前面有限個(gè)狀態(tài)。這種模型,對(duì)很多實(shí)際問題來(lái)講是一種很粗略的簡(jiǎn)化。在現(xiàn)實(shí)生活中,很多事物相互的關(guān)系并不能用一條鏈來(lái)串起來(lái)。它們之間的關(guān)系可能是交叉的、錯(cuò)綜復(fù)雜的。比如在下圖中可以看到,心血管疾病和它的成因之間的關(guān)系是錯(cuò)綜復(fù)雜的。顯然無(wú)法用一個(gè)鏈來(lái)表示。

?
我們可以把上述的有向圖看成一個(gè)網(wǎng)絡(luò),它就是貝葉斯網(wǎng)絡(luò)。其中每個(gè)圓圈表示一個(gè)狀態(tài)。狀態(tài)之間的連線表示它們的因果關(guān)系。比如從心血管疾病出發(fā)到吸煙的弧線表示心血管疾病可能和吸煙有關(guān)。當(dāng)然,這些關(guān)系可以有一個(gè)量化的可信度 (belief),用一個(gè)概率描述。我們可以通過(guò)這樣一張網(wǎng)絡(luò)估計(jì)出一個(gè)人的心血管疾病的可能性。在網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)概率的計(jì)算,可以用貝葉斯公式來(lái)進(jìn)行,貝葉斯網(wǎng)絡(luò)因此而得名。由于網(wǎng)絡(luò)的每個(gè)弧有一個(gè)可信度,貝葉斯網(wǎng)絡(luò)也被稱作信念網(wǎng)絡(luò) (belief networks)。
和馬爾可夫鏈類似,貝葉斯網(wǎng)絡(luò)中的每個(gè)狀態(tài)值取決于前面有限個(gè)狀態(tài)。不同的是,貝葉斯網(wǎng)絡(luò)比馬爾可夫鏈靈活,它不受馬爾可夫鏈的鏈狀結(jié)構(gòu)的約束,因此可以更準(zhǔn)確地描述事件之間的相關(guān)性??梢灾v,馬爾可夫鏈?zhǔn)秦惾~斯網(wǎng)絡(luò)的特例,而貝葉斯網(wǎng)絡(luò)是馬爾可夫鏈的推廣。
使用貝葉斯網(wǎng)絡(luò)必須知道各個(gè)狀態(tài)之間相關(guān)的概率。得到這些參數(shù)的過(guò)程叫做訓(xùn)練。和訓(xùn)練馬爾可夫模型一樣,訓(xùn)練貝葉斯網(wǎng)絡(luò)要用一些已知的數(shù)據(jù)。比如在訓(xùn)練上面的網(wǎng)絡(luò),需要知道一些心血管疾病和吸煙、家族病史等有關(guān)的情況。相比馬爾可夫鏈,貝葉斯網(wǎng)絡(luò)的訓(xùn)練比較復(fù)雜,從理論上講,它是一個(gè) NP-complete 問題,也就是說(shuō),對(duì)于現(xiàn)在的計(jì)算機(jī)是不可計(jì)算的。但是,對(duì)于某些應(yīng)用,這個(gè)訓(xùn)練過(guò)程可以簡(jiǎn)化,并在計(jì)算上實(shí)現(xiàn)。
值得一提的是 IBM Watson 研究所的茨威格博士 (Geoffrey Zweig) 和西雅圖華盛頓大學(xué)的比爾默 (Jeff Bilmes) 教授完成了一個(gè)通用的貝葉斯網(wǎng)絡(luò)的工具包,提供給對(duì)貝葉斯網(wǎng)絡(luò)有興趣的研究者。
貝葉斯網(wǎng)絡(luò)在圖像處理、文字處理、支持決策等方面有很多應(yīng)用。在文字處理方面,語(yǔ)義相近的詞之間的關(guān)系可以用一個(gè)貝葉斯網(wǎng)絡(luò)來(lái)描述。我們利用貝葉斯網(wǎng)絡(luò),可以找出近義詞和相關(guān)的詞,在 Google 搜索和 Google 廣告中都有直接的應(yīng)用。
?其它重要參考:
貝葉斯網(wǎng)絡(luò)技術(shù)簡(jiǎn)介
在這里我就用一個(gè)實(shí)例來(lái)簡(jiǎn)單說(shuō)說(shuō)這個(gè)網(wǎng)絡(luò)的具體使用吧。
還有更多的例子,大家可以在JavaBayes的exmaple中看到。
?
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
