簡介
高斯混合模型或者有時被稱為混合高斯模型,與其說它是一個模型,不如說是一個概率分布.它是一種普遍用於生成式無監督學習或聚類的模型。它也被稱為期望最大化聚類或EM聚類,是基於優化策略的。高斯混合模型用於表示總體中正態分布的子種群。混合模型的優點是它們不需要數據點屬於哪個子種群。它允許模型自動學習子種群。這構成了一種無監督學習的形式。
高斯分布是一種分布,它是一種流行的、數學上方便的分布類型。分布是一個實驗結果的列表,以及與每個結果相關的概率。讓我們舉個例子來理解。我們有一個數據表,它列出了一組自行車手的速度。
速度(公裏/小時) | 頻率 |
1 | 4 |
2 | 9 |
3. | 6 |
4 | 7 |
5 | 3. |
6 | 2 |
在這裏,我們可以看到一個騎自行車的人達到1km /h的速度4次,2Km/h的速度9次,3km /h,以此類推。我們可以注意到這是如何發生的,頻率上升然後下降。它看起來像一種鍾形曲線頻率隨著速度的增加而增加,然後它有一個峰值,然後又下降,我們可以用鍾形曲線來表示,也就是高斯分布。
高斯分布是一種分布類型,其中一半數據落在它的左邊,另一半數據落在它的右邊。這是一個均勻分布,人們可以直觀地注意到這在數學上很方便。
還讀:完全理解LASSO回歸
那麼,定義高斯分布或正態分布需要什麼呢?我們需要的是所有數據點的平均值。這將定義曲線的中心,而描述如何展開數據的標準偏差是。在數據達到峰值然後下降的情況下,高斯分布將是一個很好的數據模型分布。類似地,在多高斯分布中,我們將有多個具有多個均值和多個標準差的峰值。
用均值和標準差計算高斯分布的公式叫做概率密度函數:
對於給定的點X,我們可以計算相關的Y值。Y值是這些X值的概率。因此,對於任何X值,我們都可以計算出X值成為曲線或數據集一部分的概率。
這是一個連續隨機變量的函數,其在區間上的積分給出了變量值位於同一區間內的概率。
什麼是高斯混合模型?
有時我們的數據有多個分布或者有多個峰值。它並不總是有一個峰值,你可以通過觀察數據集注意到這一點。看起來這裏和那裏會出現多個峰值。有兩個峰值點,數據似乎上下波動了兩次或三次或四次。但如果有多個高斯分布可以表示這個數據,那麼我們就可以建立一個我們稱之為高斯混合模型。
換句話說,我們可以說,如果我們有三個高斯分布,如GD1, GD2, GD3,其均值為µ1,µ2,µ3,方差為1,2,3,那麼對於給定的一組數據點,GMM將識別出每個數據點屬於這些分布的概率。
它是一個由多個概率分布組成的概率分布,具有多個高斯分布。
d維高斯分布的概率分布函數定義為:
為什麼要用方差-協方差矩陣?
協方差是衡量一個變量的變化如何與第二個變量的變化相關聯的。這不是關於兩個變量變化的獨立性而是它們如何相互依賴。的variance-covariance矩陣是衡量這些變量之間關係的方法,在這方麵它和標準差很相似除了維度更大時,協方差矩陣除以標準差能給出更好更準確的結果。
其中,V= cxc方差協方差矩陣
N =每個c數據集中的分數數
xi2/N=是第i個數據集中元素的方差
xixj/N=為第一次和第j個數據集元素的協方差
和K個高斯分布的混合給出的概率,其中K是若幹個分布:
一旦我們將d維的概率分布函數乘以W,即每個高斯函數的先驗概率,它將給出給定X個數據點的概率值X。如果我們要畫出多個高斯分布,它會是多個鍾形曲線。我們真正想要的是一條由多條鍾形曲線組成的連續曲線。一旦我們有了這個巨大的連續曲線對於給定的數據點,它可以告訴我們它屬於某個特定類別的概率。
現在,我們想要找到X(我們想要預測概率的數據點)的最大似然估計,即我們想要最大化X屬於某個特定類的可能性,或者我們想要找到這個數據點X最有可能屬於某個類。
它與k-means算法非常相似。它使用相同的優化策略,即期望最大化算法。
k均值VS高斯混合模型
之所以將標準差加入其中,是因為在分母中,2在計算測量時考慮了變化,而K意味著隻計算傳統的歐幾裏得距離。即K-means計算距離,GM計算權重。
這意味著k-means算法給了你一個困難的任務:它要麼說這個數據點是這個類的一部分要麼是這個類的一部分。在一個很多情況下,我們隻想要硬作業但在很多情況下,有軟作業會更好。有時我們想要最大概率,比如,它屬於這個類的概率是70%但我們也想要它屬於其他類的概率。它是一個概率值的列表它可能是多個分布的一部分,它可能在中間,這個類的概率是60%這個類的概率是40%這就是為什麼我們要加入標準差。
期望最大化算法:EM可以用於不能直接觀測到的變量,並從其他觀測到的變量的值中推導出來。它可以用於未標記的數據進行分類。這是將可能性最大化的常用方法之一。
EM算法的基本思想:給定一組不完整的數據和一組起始參數。
E-Step:利用給定的數據和參數的當前值,估計隱藏數據的值。
M-Step:在e步之後,使用它來最大化隱變量和數據的聯合分布。
EM算法的使用
- 可用於填補缺失的數據。
- 求潛變量的值。
EM算法的缺點是收斂速度慢,隻能收斂到局部最優。
相對於梯度下降
梯度下降計算導數,它告訴我們數據想要移動的方向,或者我們應該向哪個方向移動模型的參數數據,這樣我們的模型的函數就會優化以適合我們的數據,但如果我們不能計算變量的梯度呢。也就是說,我們不能計算隨機變量的導數。高斯混合模型有一個隨機變量。這是一個隨機模型,即它是非確定性的。我們不能計算隨機變量的導數這就是為什麼我們不能用梯度下降法。
應用程序
- GMM廣泛應用於信號處理領域。
- GMM在語言識別方麵有很好的效果。
- 客戶流失是另一個例子。
- GMM在異常檢測中找到了它的用例。
- GMM還用於跟蹤視頻幀中的對象。
- GMM還可以用於根據類型對歌曲進行分類。
這篇關於高斯混合模型的文章就要結束了。希望你喜歡。如果你想學習更多這樣的概念,提高技能beplay2018官网Great Learning Academy的免費在線課程.