什麼是均方誤差?
在統計學中,均方誤差(MSE)被定義為實際值與估計值之差的平方的平均值或平均值。
由:斯瓦特•德瓦爾
為了更好地理解它,讓我們舉一個實際需求和預測需求的例子,一個品牌的冰淇淋在一年內在一家商店。在我們進入這個例子之前,
月 | 實際需求 | 預測需求 | 錯誤 | 平方誤差 |
1 | 42 | 44 | -2 | 4 |
2 | 45 | 46 | -1 | 1 |
3. | 49 | 48 | 1 | 1 |
4 | 55 | 50 | 5 | 25 |
5 | 57 | 55 | 2 | 4 |
6 | 60 | 60 | 0 | 0 |
7 | 62 | 64 | -2 | 4 |
8 | 58 | 60 | -2 | 4 |
9 | 54 | 53 | 1 | 1 |
10 | 50 | 48 | 2 | 4 |
11 | 44 | 42 | 2 | 4 |
12 | 40 | 38 | 2 | 4 |
總和 | 56 |
Mse = 56/12 = 4.6667
從上麵的例子,我們可以觀察到以下情況。
- 由於預測值可以小於或大於實際值,因此簡單的差值和可以為零。這可能會導致預測準確的錯誤解釋
- 當我們取一個平方,所有的誤差都是正的,平均值是正的,表明估計和實際有一些差異。均值越低,預測越接近實際。
- 上麵例子中的所有錯誤都在0到2的範圍內,除了1,即5。當我們對它平方時,這個和其他平方的差就會增大。這個單一的高值導致更高的平均值。所以MSE受到大偏差或離群值的影響。
因為這可以表明預測或估計與實際值的接近程度,所以這可以用作數據科學中評估模型的一種度量。
MSE作為模型評價指標
在監督學習方法中,數據集包含因變量或目標變量以及自變量。我們使用自變量建立模型,並預測因變量或目標變量。如果因變量是數值,則使用回歸模型進行預測。在這種情況下,MSE可以用來評估模型。
在線性回歸,我們找到最能描述給定數據點的線。許多線可以描述給定的數據點,但是哪條線描述得最好可以用MSE來找到。
在上圖中,預測值是直線上的點,實際值用小圓圈表示。預測誤差用數據點與擬合直線之間的距離表示。直線的均方誤差計算為所有數據點平方和的平均值。對於給定數據集中所有可能的這樣的直線,給出最小或最小MSE的直線被認為是最佳擬合。
對於一個給定的數據集,沒有數據點是恒定的,設n。設SSE1, SSE2,…SSEn表示誤差平方和。所以每一行的MSE將是SSE1/N, SSE2/N,…,SSEn/N
因此,最小誤差平方和也適用於具有最小均方誤差的直線。許多最佳擬合算法都使用最小平方和方法來尋找回歸線。
當誤差平方時,MSE單位階數高於誤差單位。為了得到相同的單位順序,需要多次取MSE的平方根。它叫做均方根誤差(RMSE)。
Rmse = sqrt (mse)
這也被用作模型評估的度量。還有其他的方法,如MAE, R2用於回歸模型的評估。讓我們看看這些與MSE或RMSE比較如何
平均絕對誤差(MAE)是實際值和預測值之間的絕對差之和。
R2或R平方是一個決定係數。它是由模型/總方差解釋的總方差。
Mse / rsme | 美 | R2 |
基於誤差平方 | 根據誤差的絕對值 | 根據實際值與預測值之間的相關性 |
取值範圍在0到∞之間 | 取值範圍在0到∞之間 | 取值在0到1之間 |
對異常值敏感,懲罰更大的誤差 | 對待大錯誤和小錯誤一視同仁。對異常值不敏感 | 對異常值不敏感 |
數值越小表示模型越好 | 數值越小表示模型越好 | 接近1的值表示模型更好 |
RSME總是大於或等於MAE (RSME >= MAE)。它們之間的差異越大,說明樣本中個體誤差的方差越大。
R & &Python擁有為回歸模型提供這些值的函數。選擇哪種測量方法取決於數據集和要解決的問題。如果我們想要平等地對待所有錯誤,MAE是一個更好的度量方法。如果我們想給大誤差更多的權重-年齡,則MSE/RMSE更好。
結論
MSE用於檢查估計或預測與實際值的接近程度。MSE越低,預測越接近實際。這被用作模型評價措施對於回歸模型,值越小表示擬合越好。
beplay2018官网偉大的學習也提供了一個人工智能與機器學習專業研究生課程與德克薩斯大學奧斯汀分校合作。參加PGP AIML,在在線輔導課程的幫助下學習,獲得職業援助,麵試準備和招聘會。獲得業界領袖的世界級培訓。