亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

Gaussian Discriminant Analysis

系統 2773 0

?

如果在我們的分類問題中,輸入特征$x$是連續型隨機變量,高斯判別模型(Gaussian Discriminant Analysis,GDA)就可以派上用場了。

以二分類問題為例進行說明,模型建立如下:

  1. 樣本輸入特征為\(x\in\mathbb{R}^n\),其類別\(y\in\{0,1\}\);
  2. 樣本類別\(y\)服從參數為\(\phi\)的伯努力分布,即\(y\sim Bernoulli(\phi)\);
  3. 兩類樣本分別服從不同的高斯分布,即\(x|y=0\sim\mathcal{N}(\mu_0,\Sigma),x|y=1\sim\mathcal{N}(\mu_1,\Sigma)\);

對應的概率分布形式如下:
\begin{equation}
p(y)=\phi^y(1-\phi)^{1-y}
\end{equation}
\begin{equation}
p(x|y=0)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0))
\end{equation}
\begin{equation}
p(x|y=1)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1))
\end{equation}
\begin{equation}
p(x|y)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_y)^T\Sigma^{-1}(x-\mu_y))
\end{equation}

我們模型的參數包括\(\phi,\mu_0,\mu_1,\Sigma\)。這里的兩個高斯分布具有不同的均值\(\mu_0\)和\(\mu_1\),但在實際應用中一般取相同的方差\(\Sigma\)。

給定包含\(m\)個樣本的訓練集\(\mathcal{S}=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}\),似然函數形式如下:
\begin{equation}
\begin{array}{ll}
&\quad\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)\\
&=\log\prod_{i=1}^m p(x^{(i)},y^{(i)};\phi,\mu_0,\mu_1,\Sigma)\\
&=\log\prod_{i=1}^m p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)p(y^{(i)};\phi)\\
&=\sum_{i=1}^m\log p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)+\log p(y^{(i)};\phi)\\
&=\sum_{i=1}^m\left[-\frac{1}{2}(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}(x^{(i)}-\mu_{y^{(i)}})\right.\\
&\quad\left.-\frac{n}{2}\log(2\pi)-\frac{1}{2}\log|\Sigma^{-1}|+y^{(i)}\log\phi\right.\\
&\quad\left.+(1-y^{(i)})\log(1-\phi)\right]
\end{array}
\end{equation}

通過最大似然進行參數估計,用似然函數\(\mathcal{L}\)對各個參數求偏導:
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\phi}\\
&=\frac{\partial}{\partial\phi}\sum_{i=1}^m\left[y^{(i)}\log\phi+(1-y^{(i)})\log(1-\phi)\right]\\
&=\sum_{i=1}^m\frac{y^{(i)}}{\phi}-\frac{1-y^{(i)}}{1-\phi}\\
&=\sum_{i=1}^m\frac{y^{(i)}-\phi}{\phi(1-\phi)}=0\\
&\Rightarrow \phi=\frac{\sum_{i=1}^my^{(i)}}{m}=\frac{\sum_{i=1}^m1\{y^{(i)}=1\}}{m}
\end{array}
\end{equation}
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\mu_0}\\
&=\frac{\partial}{\partial\phi}\sum_{i=1}^m\left[-\frac{1}{2}1\{y^{(i)}=0\}(x^{(i)}-\mu_{0})^T\Sigma^{-1}(x^{(i)}-\mu_{0})\right]\\
&=\frac{\partial}{\partial\mu_0}\sum_{i=1}^m-\frac{1}{2}1\{y^{(i)}=0\}\\
&\quad\cdot Tr[\mu_0^T\Sigma^{-1}\mu_0-\mu_0^T\Sigma^{-1}x^{(i)}-(x^{(i)})^T\Sigma^{-1}\mu_0]\\
&=\sum_{i=1}^m1\{y^{(i)}=0\}\Sigma^{-1}(x^{(i)}-\mu_0)=0\\
&\Rightarrow \mu_0=\frac{\sum_{i=1}^m1\{y^{(i)}=0\}x^{(i)}}{\sum_{i=1}^m1\{y^{(i)}=0\}}
\end{array}
\end{equation}
同理,可得
\begin{equation}
\mu_1=\frac{\sum_{i=1}^m1\{y^{(i)}=1\}x^{(i)}}{\sum_{i=1}^m1\{y^{(i)}=1\}}
\end{equation}
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\Sigma}\\
&=\frac{\partial}{\partial\Sigma}[-\frac{1}{2}(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}(x^{(i)}-\mu_{y{(i)}})-\frac{1}{2}\log|\Sigma|]\\
&=\sum_{i=1}^m\frac{1}{2}[\left(\Sigma^{-1}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}\right)^T-(\Sigma^{-1})^T]\\
&=\frac{1}{2}\sum_{i=1}^m(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T-\Sigma=0\\
&\Rightarrow \Sigma=\frac{1}{m}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T
\end{array}
\end{equation}

仔細分析一下估計出的四個參數,我們會發現$\phi$就是在訓練集上統計出的\(y=1\)的樣本出現的概率,\(\mu_0\)和\(\mu_1\)則分別為兩類樣本各自的均值,\(\Sigma\)為整個訓練集上的樣本方差。

有了這些參數,我們怎樣進行預測呢?這就很簡單了,將各參數帶入\(p(x|y)\)和\(p(y)\),利用\(p(x|y)p(y)=p(x,y)\)可導出聯合概率,我們取使聯合概率\(p(x,y)\)最大的類別\(y\)即可
\begin{equation}
\underset{y\in\{0,1\}}{arg\max}{\;p(x|y)p(y)}
\end{equation}

最后,我們來分析高斯判別模型和Logistic回歸之間的情緣。如果\(x|y\)服從高斯分布\(\mathcal{N}(\mu,\Sigma)\)(只針對\(y\)取兩個離散值的情況),則\(p(y|x)\)具有logistic函數的形式;反過來,\(p(y|x)\)形式上為logistic函數并不能說明\(x|y\sim\mathcal{N}(\mu,\Sigma)\)。實際上,有很多組假設都能使\(p(y|x)\)有logistic函數的形式,只要假設滿足\(x|y\)服從指數族分布(Exponential Family Distribution)。例如,\(x|y=0\sim Poisson(\lambda_0)\)和\(x|y=1\sim Poisson(\lambda_1)\),則\(p(y|x)\)在形式上同樣為logistic函數。以高斯判別分析為例,簡單證明一下:
\begin{equation}
\begin{array}{ll}
&p(y=1|x)\\
=&\frac{p(x|y=1)p(y=1)}{p(x|y=1)p(y=1)+p(x|y=0)p(y=0)}\\
=&\frac{\exp\left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)\phi}{\exp\left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)\phi+\exp\left(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right)(1-\phi)}\\
=&\frac{1}{1+\exp\left(\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right)\frac{1-\phi}{\phi}}\\
=&\frac{1}{1+\exp\left(x^T\Sigma^{-1}(\mu_0-\mu_1)+\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1-\frac{1}{2}\mu_0^T\Sigma^{-1}\mu_0+\log(1-\phi)-\log\phi\right)}
\end{array}
\end{equation}

高斯判別分析在建模時提出了很強的假設,那就是各個類別的數據服從高斯分布。當建模的假設近似正確時,高斯判別分析對數據的應用更高效,因為模型知道數據服從高斯分布,并且直接獲取了高斯分布的均值和方差,因此在數據量較少的情形下能有較好效果。如果數據的實際分布與假設相悖時,效果往往會比較差。Logistic回歸做出的模型假設相比之下很弱,因此對模型的假設具有更好的魯棒性。舉個例子,如果數據呈現的不是高斯分布而是Poisson分布,但是我們仍然假設\(x|y\)服從高斯分布,這時logistic回歸的性能仍然會很好。原因很簡單,不管\(x|y\)是服從高斯分布還是Poisson分布,\(p(y=1|x)\)最終都可以簡化成logistic函數的形式。但如果我們采用GDA在非高斯分布的數據上用高斯模型擬合,就無法保證能取得較好的結果。在我們不確定\(x|y\)的概率分布的情況下,用logistic回歸更穩妥,也是基于這個原因,logistic回歸實際上用得更多一些。

以下是GDA相關實驗的一個小Demo截圖和簡要說明, 實驗代碼在這里下載 。實驗中用兩個均值不同但方差相同的高斯模型隨機生成了400個1維的樣本點,其中兩類樣本之比為\(3:2\),而且兩類樣本見存在重疊;將整個數據集拆分成容量為\(9:1\)的兩部分,前者作為訓練集,后者作為測試集。橫坐標上的藍色和綠色點表示兩類樣本;藍色和綠色曲線標明了整個訓練集屬于兩類的概率;紅色曲線則表明了\(p(y=1|x)\)的值,從實驗角度證明\(p(y=1|x)\)形式上為logistic函數。在生成下圖的這次運行實例中,正確分類率為\(0.975\)。

Gaussian Discriminant Analysis_第1張圖片

Gaussian Discriminant Analysis


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 97在线免费观看 | 国产精品永久免费自在线观看 | 国语精品91自产拍在线观看二区 | 91精品国产色综合久久不 | 老司机精品在线播放 | 国内夫妇精品对白在线播放 | 天天干天天干天天天天天天爽 | 国产香蕉视频在线播放 | 亚洲精品色播一区二区 | 奇米888四色在线精品 | 一级毛片视频在线 | 99久久久久久久 | 网曝门精品国产事件在线观看 | 国产精品久久久久天天影视 | 在线视频亚洲一区 | 深夜免费福利视频 | 亚洲专区区免费 | 在线看国产精品 | 欧美性猛交xxxx免费看久久 | 天天干天天做天天操 | 欧美成人毛片一级在线 | 久久久久久久久久久9精品视频 | 亚洲天天做日日摸天天做 | 视频在线a| 91尤物视频 | 国产成人亚洲精品一区二区在线看 | 日本一级毛片高清免费观看视频 | 老子午夜精品我不卡影院 | 亚洲四房| 国产精品免费久久久久影院 | 亚洲福利精品一区二区三区 | 国产你懂的在线 | 亚洲视频在线一区二区三区 | 精品欧美一区二区三区精品久久 | 国产大战女模特在线视频 | 免费99视频 | 一级特黄aaa免费 | 久久色精品| 手机在线一区二区三区 | 欧美亚洲国产激情一区二区 | 一级一级毛片看看 |