按域名瀏覽

R平方的介紹

指數

  1. r平方是什麼
  2. 評估回歸模型的擬合優度
  3. r平方和擬合優度
  4. r平方的可視化表示
  5. r平方有局限性
  6. 低r平方值總是一個問題嗎?
  7. 高r平方值總是好的嗎?
  8. r平方並不總是簡單的
  9. 如何解釋回歸分析中的調整r平方和預測r平方?
  10. 關於r平方的一些問題

r平方是什麼?

r平方是線性回歸模型的擬合優度度量。這一統計數據表明了自變量共同解釋的因變量方差的百分比。r平方衡量了你的模型和因變量之間關係的強度,方便的範圍是0 - 100%。

擬合線性回歸模型後,需要確定模型擬合數據的程度。它能很好地解釋因變量的變化嗎?回歸分析有幾個關鍵的擬合優度統計量。

評估回歸模型的擬合優度

線性回歸確定了在所有觀測值和擬合值之間產生最小差異的方程。準確地說,線性回歸找到數據集可能的最小殘差平方和。

統計學家說,如果觀測值和預測值之間的差異很小且有偏差,那麼回歸模型就能很好地擬合數據。在這種情況下,無偏意味著擬合值在觀測空間的任何地方都不會係統地過高或過低。

然而,在評估擬合優度的數值度量(如r平方)之前,我們應該評估殘差圖。殘差圖通過在殘差中顯示有問題的模式,可以比數值輸出更有效地暴露有偏差的模型。

r平方和擬合優度

r平方評估數據點在擬合回歸線周圍的散點。它也被稱為決定係數,或多元回歸的多重決定係數。對於相同的數據集,較高的r平方值表示觀測數據與擬合值之間的差異較小。

r平方是線性模型解釋的因變量變化的百分比。

r平方總是在0到100%之間:

  • 0%表示一個不能解釋響應變量在其平均值附近的任何變化的模型。因變量的均值既可以預測因變量,也可以預測回歸模型。
  • 100%表示一個模型,它解釋了響應變量在其平均值附近的所有變化。

通常R越大2,回歸模型越符合你的觀察結果。

r平方的可視化表示

為了直觀地演示r平方值如何表示回歸線周圍的散點,我們可以用觀測值繪製擬合值。

左邊回歸模型的r平方為15%,右邊模型的r平方為85%。當一個回歸模型占更多的方差時,數據點更接近回歸線。在實踐中,我們永遠不會看到帶有R的回歸模型2的100%。在這種情況下,擬合值等於數據值,因此,所有的觀測值完全落在回歸線上。

r平方有局限性

我們不能使用r平方來確定係數估計和預測是否有偏差,這就是為什麼必須評估殘差圖的原因。

r平方並不表示回歸模型是否與您的數據有足夠的擬合。一個好的模型可以有一個低的R2價值。另一方麵,有偏差的模型可能具有較高的R2價值!

低r平方值總是一個問題嗎?

不。由於幾個原因,具有低r平方值的回歸模型可以是非常好的模型。

有些研究領域天生就有大量無法解釋的變化。在這些方麵,你的R2價值必然會更低。例如,試圖解釋人類行為的研究通常有R2小於50%的值。人隻是比物理過程更難預測。

幸運的是,如果你的r平方值很低,但自變量在統計上顯著,你仍然可以得出關於變量之間關係的重要結論。在統計上,顯著係數繼續表示因變量的平均變化給定一個單位的變化在自變量。

在這種情況下,較小的r平方值可能會導致問題。如果我們需要生成相對精確的預測(較窄的預測區間),則低R2可以成為表演的終結者。

模型需要多高的r平方才能產生有用的預測?這取決於您需要的精度和數據中存在的變化量。

高r平方值總是好的嗎?

不!具有高r平方值的回歸模型可能存在大量問題。我們可能期望有一個高R2這是一個很好的模型,但是請看下麵的圖表。擬合的線圖模擬了電子遷移率和密度之間的關係。

擬合線圖中的數據遵循非常低的噪聲關係,r平方為98.5%,這看起來非常棒。然而,回歸線在曲線上始終低於和過高預測數據,這是偏差。殘差與擬合圖強調了這種不受歡迎的模式。無偏模型的殘差隨機分布在零附近。非隨機殘差模式表明盡管R值很高,但擬合不佳2

當我們的線性模型未被充分指定時,就會出現這種類型的規格偏差。換句話說,它缺少重要的自變量、多項式項和相互作用項。為了產生隨機殘差,可以嚐試向模型中添加項或擬合非線性模型。

各種各樣的其他情況都可以人為地誇大我們的R值2.這些原因包括模型過擬合和數據挖掘。這兩種方法中的任何一種都可以產生一個看起來與數據非常吻合的模型,但實際上,結果可能完全是欺騙性的。

過擬合模型是指模型擬合樣本的隨機怪癖。數據挖掘可以利用機會相關性。無論哪種情況,我們都可以得到一個高R的模型2即使是完全隨機的數據!

r平方並不總是簡單的

乍一看,r平方似乎是一個很容易理解的統計數據,它表明回歸模型適合數據集的程度。然而,它並沒有告訴我們整個故事。為了了解全貌,我們必須考慮R2值結合殘差圖,其他統計數據,並深入了解的主題領域。

機器學習模型評價指標

如何解釋回歸分析中的調整r平方和預測r平方?

r平方傾向於獎勵你在回歸模型中包含太多的自變量,並且它不會提供任何停止添加更多自變量的激勵。調整後的r平方和預測的r平方使用不同的方法來幫助你抑製增加太多的衝動。調整後的r平方和預測的r平方提供的保護是至關重要的,因為模型中太多的項會產生我們無法信任的結果。

多元線性回歸會令人難以置信地誘使統計分析,實際上要求你在模型中包含額外的自變量。每當你增加一個變量,r平方就會增加,這就會誘使你增加更多的變量。一些自變量有統計學意義。

關於r平方的一些問題

我們不能用r平方來判斷你的模型是否有偏差。為了檢查這種偏差,我們需要檢查殘差圖。不幸的是,關於r平方還有更多的問題需要我們去解決。

問題1:每當你向模型中添加一個自變量,r平方就會增加。的平方從來沒有減少,即使隻是變量之間的偶然相關。一個包含更多自變量的回歸模型比另一個模型看起來更適合,僅僅是因為它包含更多變量。

問題2:當一個模型包含過多的自變量和多項式項時,它就會過度定製以適應樣本中的特性和隨機噪聲,而不是反映整個種群。

幸運的是,調整後的r平方和預測的r平方解決了這兩個問題。

邏輯回歸與Python和R的例子

《阿凡達》的照片
beplay2018官网優秀的學習團隊
beplay2018官网Great Learning的博客涵蓋了最新的技術發展和創新,可以用來建立有價值的職業生涯。你會找到職業指南、技術教程和行業新聞,讓自己跟上快速變化的技術和商業世界。

留下評論

你的電郵地址將不會公布。必填字段已標記

與夢想的工作免費的印度最值得信賴的教育平台上的證書課程

滾動到頂部
Baidu
map