由:MH西迪基先生
LinkedIn簡介:https://www.linkedin.com/in/masood -西迪基- 7118 a71b/
方差分析(方差分析)是什麼?
在一些決策情況下,樣本數據可能分成不同組即樣本可能應該包括分樣本。有興趣在於研究總樣本是否可以視為同質或有跡象表明,使來自不同人群。所以,在這些情況下,我們需要比較不同群體的平均值,對一個或多個標準。
總變異存在於一組數據可以劃分為許多重疊的組件按分類的本質。係統的過程來實現這一目標方差分析(方差分析)。借助這樣一個分區,一些假設可能被執行的測試。
最初,方差分析(方差分析)隻使用了隨機設計的實驗數據,但後來他們被用於分析調查和描述性研究的輔助數據。
方差分析也可以可視化技術檢查依賴關係,響應(依賴)變量度量(測量時間間隔或比率量表)和因素(自變量)在本質上是絕對的兩個以上的類別。
方差分析的例子
文圖拉是一個快速消費品公司銷售的產品。其網點已經遍布整個國家。管理和規劃目的,文圖拉州再細分成四個地理區域(北部、東部、西部和南部)。隨機樣本數據來自不同渠道的銷售收集分布在四個地理區域。
變化,是一個基本特征的數據,將永遠存在。這裏,總銷售額的變化可能是衡量平均偏差的平方之和的銷售。如果我們在銷售分析變異的來源,在這種情況下,我們可以確定兩個來源:
- 銷售在一個地區會有所不同,這是適用於所有四個區域(類內變化)
- 可能有影響的地區和說明銷量不會同樣的四個區域即區域之間可能會有變化(群體間的差異)。
所以,總變差中樣本數據可以劃分為兩個部分:地區間和地區內及其大小可以決定是否有實質性的差異相比銷售區域。如果兩個變化密切協議,那麼就沒有理由相信銷售各四個區域並不相同,如果不是就可能得出的結論是,之間存在著很大的區別部分或所有的地區。
在這裏,應該牢記的是,方差分析的分區變化的隨機組件和可轉讓的原因和這個分區方差分析技術可以用作測試方法之間的差異顯著性意味著(超過兩個)。
類型的方差分析(方差分析)
如果反應變量的值隻受到一個因素(不同類別的單因素),然後會有隻有一個可轉讓的原因,數據再細分,那麼相應的分析將被稱為單向方差分析。(文圖拉銷售)的例子在這一類。其他的例子可能是:檢查各種subject-streams analytical-aptitude學生之間的差異(如工程畢業生,管理專業畢業生,統計畢業生);不同的廣告方式對品牌認可度的影響的耐用消費品等。
另一方麵,如果我們考慮多個指明原因的影響(不同類別的多個因素)在響應變量則稱為相應的分析多方方差分析(N > = 2)。特別是,如果兩個因素的影響(有多個類別)被認為是相關的變量,稱為(響應)雙向方差分析。例如:凡吐拉市銷售,如果隨著地理區域(北部、東部、西部和南部),一個因素的類型的出口(城鄉)一直被視為相應的分析將雙向方差分析。更多的例子:檢查各種subject-streams analytical-aptitude學生之間的差異和地理位置;不同的廣告方式的影響和耐用消費品的品牌認可度等職業。
雙向方差分析可以進一步分為兩類:
- 雙向方差分析與觀察每個細胞:隻有一個觀察每個單元(組合)。假設,我們有兩個因素(類別)和B (n類),所以,會有n = m * n總與一個觀察(數據點)的(A我Bj)細胞(組合),我= 1,2,……。,m和j = 1, 2,…. . n。在這裏,兩個因素的影響可能會檢查。
- 與多個觀察每個細胞雙向方差分析:將會有多個觀察每個單元(組合)。在這裏,還有兩個因素的影響,也可以檢查他們的交互影響。相互作用時發生的一個因素的影響(指明原因)取決於其他指明原因的類別(因素)等等。用於檢查相互影響是很有必要的,每個細胞(組合)應該有多個觀測它不可能在前麵的雙向方差分析與觀察每個細胞。
概念背景
方差分析背後的基本概念是“線性模型”。
X1,X2,………。xn可觀測的數量。在這裏,所有的值都可以表示為:
X我=µ我+ e我
在µ我的真正價值,因為一些可轉讓的原因和e我是隨機誤差項是由於原因。在這裏,它已經假定所有誤差項e我是獨立分布的正常變量平均值為零且常見的方差(σe2)。
此外,µ真正的價值我可以認為是由一個線性t的函數1t2,…….tk被稱為“效果”。
如果在一個線性模型中,所有影響tj的未知常量(參數),那麼,線性模型被稱為“固定效應模型”。否則,如果影響tj的隨機變量,模型被稱為“隨機效應模型”。
單向方差分析
我們有n個觀測(Xij),分為k組1,一個2,……。k,每個組都有nj觀察。
這裏,提出固定效應線性模型是:
Xij=µ我+ eij
在µ我我的意思是th組。
一般作用(總平均):µ=Σ(n我。µ我)/ n
我和額外的影響th集團在通用效果:α我=µ我-µ。
因此,線性模型就變成:
Xij=µ+α我+ eij
與Σ我(n我α我)= 0
µ的最小二乘估計和αi可能決定通過最小化誤差平方的總和(Σ我Σjeij2)=Σ我Σj(Xij-µ-α我)2為:
X . .(結合樣本的均值)和X我。(我的意思th組在示例)。
所以,估計線性模型就變成:
Xij= X . .+ (X我- X . .) + (Xij- X我。)
這可以進一步解決:
Σ我Σj(Xij- x . .)2=Σ我n我(X我- X . .)2+Σ我Σj(Xij- x我。)2
總額的平方=廣場由於基效應之和+由於誤差平方的總和
或
廣場的總額=組內平方之和+組之間的廣場
TSS =單邊帶+ SSE
此外,意思是平方的總和可以為:
MSB =單邊帶/ (k - 1)和MSE = SSE / (n - k),
在哪裏(k - 1)是單邊帶的自由度(df)和(n - k)的df SSE。
這裏,需要注意的是,單邊帶和SSE加起來TSS和相應的df (k - 1)和(n - k)加起來總df (n - 1)但MSB和MSE不會加起來總女士。
通過分區TSS和總df為兩個組件,我們可以測試的假設:
H0:µ1=µ2=………。=µk
H1:不是所有µ即是一樣的至少一個µ不同於其他人。
或者:
H0:α1=α2=………。=αk= 0
H1:不是所有α是零即至少一個α不同於零。
MSE一直是σ的無偏估計e2如果H0是真的,那麼MSB也將一個無偏估計的σe2。
進一步MSB /σe2將跟隨卡方(χ2)分布(k - 1) df和MSE /σe2將跟隨卡方(χ2與(n - k) df)分布。這兩個χ2分布是獨立的兩個卡方(χ的比率2)變量F = MSB / MSE將按照方差比分布(F分布)與(k - 1), (n - k df)。
在這裏,檢驗統計量F是一個right-tailed測試(單側檢驗)。因此,假定值可以估計決定拒絕/不能拒絕零假設的H0。
如果是H0拒絕即µ所有不相同的拒絕零假設不通知組意味著不同於其他人,因此,執行因果分析來識別哪些組意味著別人的明顯不同。事後多重比較的測試是測試兩組意味著平等(兩個一次)即H0:µp=µ問通過使用雙官能團獨立樣本測試或通過比較樣本之間的差異意味著一次(2)最少的意義區別(LSD) / (CD)的關鍵區別
= terror-df* MSE / (1 / np+ 1 / n問)1/2
如果觀察區別兩個意思是大於LSD / CD然後對應的零假設被拒絕在α水平的意義。
假設為方差分析
雖然一直在討論概念部分隻是重申應確保以下假設必須滿足:
1。樣品的數量應遵循正態分布。
2。樣品已經被選擇的隨機和獨立。
3所示。每組應該有共同的方差即應同方差的即因變量的變化值在不同的群體是相等的。
應該注意的是,方差分析中所使用的線性模型不受小偏差的影響特別是如果樣本很大的假設。
正常的假設可以使用正常的測試:檢查Shapiro-Wilk測試和Kolmogorov-Smirnov測試Lilliefors意義的修正。在這裏,正態概率圖(p p區和qq)也可以用於檢查正常的假設。平等的方差的假設(方差齊性)可能使用不同的測試檢查方差的同質性(列文測試,巴特利特的測試,Brown-Forsythe測試等等)。
方差分析和t檢驗
我們采用兩個獨立樣本t檢驗,檢查是否存在顯著差異的兩類即兩個樣本來自相同或不同的人群。擴展它可能適用於執行多個t(通過兩個一次)檢查的意義不同的k樣本方差分析。如果這是未遂,那麼錯誤參與測試的假說(I型和II型錯誤)不能正確估計和錯誤的價值將比α(顯著性水平)。所以,在這種情況下,方差分析總是優先於多個intendent樣本t。
喜歡,在我們的示例中有四類地區(N)北部,東部(E)、西(W)和南部(S)。如果我們想要比較人口意味著通過使用兩個獨立樣本t檢驗即通過兩類(組)。我們必須使4C2= 6號執行的比較即六個獨立樣本測試(測試比較N和S、N E, N W,與W E, E和S和W和S),假設我們使用5%的顯著性水準零假設基於六個人t,那麼錯誤就會= 1 - (0.95)6= 1 - 0.735 = 0.265即26.5%。
在SPSS單向方差分析
- 分析= >比較的意思= >單向方差分析打開相應的對話框。
- 因變量的依賴列表盒子和獨立變量因素框輸入。
- 新聞選項…命令按鈕打開單向方差分析:選擇sub-dialogue盒子。檢查描述性的和方差齊性框下統計數據。新聞繼續回到主對話框。
- 新聞事後…命令按鈕打開單向方差分析:事後多重比較sub-dialogue盒子。我們會得到許多選項進行多重比較。我們將選擇一個合適的測試和檢查(如。圖基HSD)。新聞繼續回到主對話框。
- 新聞好吧有輸出。
在這裏,我們考慮文圖拉銷售的例子,在樣品被分為四個地理區域的(北部、東部、西部和南部),所以我們有四組。所以,假設:
零假設H0:µN=µE=µW=µ年代
備擇假設H1:不是所有µ即是一樣的至少一個µ不同於其他人。
方差分析 | |||||
銷售渠道(Rs。000) | |||||
平方和 | df | 均方 | F | 團體。 | |
團體之間 | 1182.803 | 3 | 394.268 | 10.771 | 組織 |
群體內部 | 2049.780 | 56 | 36.603 | ||
總 | 3232.583 | 59 |
根據方差分析表,總額的平方(TSS) = 3232.583被劃分為兩個平方和的:組間平方之和(BSS) = 1182.803和群體內部的平方(SSE) = 2049.780。相應的均值平方和MSB = 394.268和MSE = 36.603。很明顯,群體間的變異是更高的大小與類內變化即兩種變體不關閉協議然後有理由相信,在所有四個區域銷售不相同。此外,方差比率:F統計量= MSB / MSE = 394.268/36.603 = 10.771似乎明顯高於第一支持這樣的觀點,在所有四個區域的銷售是不一樣的。最後,假定值(Sig。= 0.000 < 0.05),這是一個顯著低價值,表明零假設H0可能被拒絕在5%水平的意義即存在實質性的差異意味著銷售在一些或所有的地區。
方差的同質性的考驗 |
|||
銷售渠道(Rs。000) | |||
列文統計 | df1 | df2 | 團體。 |
1.909 | 3 | 56 | .139 |
方差齊性表的測試表明,方差齊性的假設(方差齊性)沒有違反了列文的統計不顯著(p值= 0.139 > 0.05)在5%水平的意義。
看看這個免費的課程探索性數據分析的基礎。
事後測試
多重比較
因變量:銷售渠道(Rs。000)
圖基HSD
(我)在該地區出口的位置 | (J)在該地區出口的位置 | 平均差(i j) | 性病。錯誤 | 團體。 |
北部 | 東部 | 8.636* | 2.850 | .044 |
西方 | 9.897* | 2.621 | .014 | |
南部 | 16.836* | 2.886 | 組織 | |
東部 | 北部 | -8.636* | 2.850 | .044 |
西方 | 1.261 | 1.738 | .979 | |
南部 | 8.200* | 2.116 | .012 | |
西方 | 北部 | -9.897* | 2.621 | .014 |
東部 | -1.261 | 1.738 | .979 | |
南部 | 6.939* | 1.795 | .033 | |
南部 | 北部 | -16.836* | 2.886 | 組織 |
東部 | -8.200* | 2.116 | .012 | |
西方 | -6.939* | 1.795 | .033 | |
*平均差在0.05水平具有重要意義。 |
最後,事後測試以來執行零假設H0已經拒絕了所以我們有興趣研究區域是不同的。在這裏,隻是為了演示目的,圖基HSD測試工作。測試包含多個比較通過測試組意味著平等(兩個一次)即H0:µp=µ問為每個6雙。
對有顯著差異:東部北部# (Sig = 0.044),北部#西部(Sig = 0.014),北部#南部(Sig = 0.000), # (Sig。= 0.012)南部和東部西部#南部(Sig。= 0.000),但東部和西部地區明顯不同(Sig。= 0.979)說明銷量。所以,它可以提出,北部地區說明銷量明顯不同於其他地區也是與南部地區說明銷量。然而,有微不足道的區別說明銷量的東部和西部地區,但他們明顯不同於北部和南部地區。
雙向方差分析(雙向方差分析)
在這裏,因變量(響應變量)的值可能會受兩個可轉讓的原因(因素)。例如:在文圖拉銷售隨著地理區域(北部、東部、西部和南部),稱為“A”因素,我們要檢查插座的類型的影響(城市和農村),稱為“B”因素,說明銷量的渠道。
這裏,提出固定效應線性模型是:
Xijk=µij+ eijk
在那裏,µij的真正價值是(i, j)th細胞和eijk誤差項。誤差項被認為是獨立正態分布與零均值和方差。µij進一步分解為:
µij=µ+α我+βj+γij
所以,固定效應線性模型就變成:
Xijk=µ+α我+βj+γij+ eijk
在那裏,
µ=總體平均值
α我=一個影響因素我
βj= B的影響因素j
γij(=相互影響的因素我Bj)
eijk=誤差項
最小二乘估計可能決定通過最小化誤差平方的總和(Σ我ΣjΣkeijk)2。
因此,方差分析是基於以下關係:
Σ我ΣjΣk(Xijk- x…)2= npΣ我(X我. .- X…)2+ mpΣj(X。j。- x…)2+ pΣ我Σj(Xij。- X我. .- X.。+ X…)2+Σ我ΣjΣk(Xijk- Xij。)2
總黨衛軍=黨衛軍由於因子A + B + SS黨衛軍由於因素由於交互& B + SS由於錯誤。
或
TSS = SSA +單邊帶+ SS (AB) +上交所
通過分區變化到上麵的組件,我們可以測試以下假設:
H01:α1=α2=………。=α米= 0(沒有影響的因素)
H02:β1=β2=………。=βn= 0 (B)的影響因素
H03:γij我和j = 0(相互影響缺席)
因此,均值平方和的:
MSA = SSA / (m - 1)
MSB =單邊帶/ (n - 1)
女士(AB) = SS (AB) / (m - 1) (n - 1)
MSE = SSE / mn (p - 1)
和方差比率:
F一個= MSA / MSE (m - 1) ~ F分布,mn df (p - 1)
FB= MSB / MSE (n - 1) ~ F分布,mn df (p - 1)
FAB= (AB)女士/ MSE ~ F分布(m - 1) (n - 1), mn df (p - 1)。
因此,假定值可以估計決定拒絕/不能拒絕零假設的三個H01H02和H03分別。
更多教程數據科學分析概念,跟隨我們數據科學頁麵。beplay2018官网很好的學習也提供了數據科學分析和綜合課程數據科學與商業分析你準備各種數據科學的角色。
很豐富。提供更清晰的概念。
好寫。