?模糊關(guān)聯(lián)規(guī)則挖掘
? 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘最基本和最常用的算法之一,Apriori算法基本上是每個(gè)學(xué)習(xí)數(shù)據(jù)挖掘的同學(xué)掌握的第一個(gè)算法。但是,一般的關(guān)聯(lián)規(guī)則挖掘算法無(wú)法處理涉及連續(xù)值的記錄。? 雖然某些算法把連續(xù)值通過(guò)劃分區(qū)間的方法離散化,但是這種硬邊界劃分的方法效果并不是很好,一些在邊緣附近的數(shù)據(jù)只能屬于一個(gè)劃分,而這與事實(shí)不符。比如,年齡的一個(gè)劃分可以是青年,但如果我們把青年的區(qū)間定義為[20,30],則19歲的人就被排除在青年的范圍之外了,顯然這不是很合適。針對(duì)這種問(wèn)題,我們可以基于模糊集把區(qū)間劃分成多個(gè)模糊集,然后求得某個(gè)元素屬于某個(gè)模糊集的概率(根據(jù)模糊隸屬函數(shù)),這樣的話每個(gè)元素都可以屬于多個(gè)不同的模糊集,而不是只屬于一個(gè)集合。劃分模糊集的常用算法是FCM,見(jiàn)參考文獻(xiàn)。
? 當(dāng)我們給定了所有連續(xù)值屬性的模糊集劃分之后,下一步就是進(jìn)行關(guān)聯(lián)規(guī)則的挖掘了,我們定義問(wèn)題如下:
? T={t 1 ,t 2 ,...,t n }是數(shù)據(jù)集
? I={i 1 ,i 2 ,...,i m }是屬性集,我們假定所有的屬性都是數(shù)值型。
? F ik ={f ik 1 ,f ik 2 ,...,f ik l }代表第ik個(gè)屬性的模糊集。
? 我們要挖掘的模糊關(guān)聯(lián)規(guī)則的形式為:
? ?If X is A then Y is B.
? 其中,X和Y是屬性,A和B是X,Y對(duì)應(yīng)的模糊集中的某個(gè)劃分,比如:
? X為年齡,其對(duì)應(yīng)的模糊集為{嬰兒,幼兒,少年,青年,壯年,老年},A為青年,Y為薪水,其對(duì)應(yīng)的模糊集為{低薪,中薪,高薪},B為高薪。
? 模糊關(guān)聯(lián)規(guī)則挖掘的過(guò)程為:
? 1. 計(jì)算significance factor
? 對(duì)于每個(gè)屬性X與X屬性對(duì)應(yīng)的模糊集的劃分的屬性-劃分對(duì)<X,A>,比如<年齡,青年>,計(jì)算其significance系數(shù):
? 其中
? m aj 是用FCM算法已經(jīng)算好的模糊隸屬函數(shù)的值,只有當(dāng)其大于閥值w時(shí),我們才會(huì)取其值,否則只取0.
? ?2. 計(jì)算certainty factor
? 對(duì)于第一步求得的所有的significance系數(shù)大于給定值的<Z,C>對(duì),我們計(jì)算所有屬性-劃分對(duì):<X,A>,<Y,B>的certainty系數(shù):
? 求得的certainty系數(shù)大于給定值的<X,A>,<Y,B>就是我們要挖掘的關(guān)聯(lián)規(guī)則:
? If X is A then Y is B.?
?
? ? 參考文獻(xiàn):
? ? [1] Chan Man Kuok, Ada Fu, Man Hon Wong. Mining Fuzzy Association Rules in Databases.
? ? [2] FCM聚類(lèi)算法簡(jiǎn)介
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
