按域名瀏覽

多變量分析概述|什麼是多變量分析和模型建立過程?

  1. 什麼是多元分析?
  2. 曆史
  3. 多變量分析的優缺點
  4. 多元技術分類圖
  5. 多變量方差和協方差分析
  6. 多變量分析的目的
  7. 模型建立過程
  8. 模型的假設
  9. 多元分析常見問題
  10. 總結

由:Harsha Nimkar

什麼是多元分析?

多變量分析被定義為涉及多個因變量而產生一個結果的過程。這解釋了現實世界中的大多數問題都是多元的。例如,我們不能根據季節來預測任何一年的天氣。有多種因素,如汙染、濕度、降水等。在這裏,我們將向您介紹多元分析,它的曆史,以及它在不同領域的應用。還有,拿起一個多變量時間序列預測在R了解更多關於這個概念的知識。

多元分析的曆史

1928年,Wishart發表了他的論文。多元正態總體的樣本協方差矩陣的精確分布,是MVA的開始。

在20世紀30年代,R.A. Fischer、Hotelling、S.N. Roy和B.L. Xu等人對多元分析進行了大量的基礎理論工作。當時,它被廣泛應用於心理學、教育學、生物學等領域。

20世紀50年代中期,隨著計算機的出現和發展,多元分析開始在地質、氣象等領域發揮重要作用。醫學社會科學從那時起,新理論、新方法不斷被提出和實踐檢驗,更多的應用領域被開拓。在現代計算機的輔助下,我們可以應用多元分析的方法來進行相當複雜的統計分析。

多元分析的曆史

多變量分析:概述

假設一個項目被分配給你去預測公司的銷售情況。你不能簡單地說“X”是影響銷售的因素。

我們知道有很多方麵或變量會影響銷售。要分析對銷售有重大影響的變量,隻能用多變量分析。在大多數情況下,它不會隻有一個變量。

正如我們所知,銷售將取決於產品的類別、生產能力、地理位置、營銷努力、品牌在市場上的存在性、競爭對手分析、產品成本和多個其他變量。銷售隻是一個例子;這項研究可以在大多數領域的任何部分實施。

多變量分析廣泛應用於許多行業,如醫療保健行業。在最近發生的COVID-19事件中,一個數據科學家團隊預測,到2020年7月底,德裏的COVID-19患者將超過50萬。這一分析基於多個變量,如政府決策、公共行為、人口、職業、公共交通、醫療保健服務和社區的整體免疫力。看看新冠肺炎數據的多變量時間序列更多信息。

根據瑞爾森大學的Murtaza Haider的數據分析研究,是什麼導致了成本的增加或減少,也是基於多元分析。根據這項研究,主要因素之一是交通基礎設施。人們想在交通便利的地方買房,根據分析團隊的說法,這是研究開始時最少考慮的變量之一。但經過分析,這是幾個最終影響結果的變量。

多變量分析是探索性數據分析的一部分。基於MVA,我們可以對多個變量進行更深層次的可視化洞察。

多變量分析有20多種不同的方法,哪種方法最好取決於數據的類型和您試圖解決的問題。

多變量分析MVA)是一種統計程序,用於分析涉及多種類型的測量或觀察的數據。它也可能意味著解決同時分析多個因變量和其他變量的問題。

多變量分析的優缺點

優勢

  • 多變量分析的主要優點是由於它考慮了影響因變量變異性的多個自變量因素,因此得出的結論更加準確。
  • 結論更符合實際情況。

缺點

  • MVA的主要缺點包括需要相當複雜的計算才能得到滿意的結論。
  • 需要收集大量變量的許多觀察結果並將其製成表格;這是一個相當耗時的過程。

多元技術分類圖

選擇合適的多元技術取決於-

a)變量是否分為自變量和因變量?

b)如果是,在一次分析中有多少變量被視為從屬變量?

c)因變量和自變量如何測量?

多變量分析技術可以分為兩大類,即:這一分類取決於一個問題:所涉及的變量是否相互依賴?

如果答案是肯定的:我們有依賴的方法。
如果答案是否定的:我們有相互依賴的方法。

依賴技術依賴性技術是多變量分析技術的一種,當一個或多個變量可以被識別為因變量,而其他變量可以被識別為自變量時,就使用這種技術。

還讀:什麼是大數據分析?

多元回歸

多元回歸分析-多元回歸是簡單線性回歸的延伸。當我們希望根據兩個或多個其他變量的值來預測一個變量的值時,就會使用它。我們想要預測的變量稱為因變量(有時也稱為結果、目標或標準變量)。多元回歸分別使用多個“x”變量獨立變量:(x1)1, (x2)1, (x3)1, Y1)

還讀:機器學習中的線性回歸

聯合分析

聯合分析是一種基於調查的統計技術,用於市場研究,幫助確定人們如何評價構成單個產品或服務的不同屬性(特征、功能、好處)。聯合分析的目標是確定驅動策略/產品/服務的最終用戶的選擇或決策。今天,它被應用於許多領域,包括市場營銷、產品管理、運籌學等。

它經常用於測試消費者對新產品的反應、廣告的接受程度和在役設計。聯合分析技術也可以被稱為多屬性組合建模、離散選擇建模或聲明偏好研究,它是用於係統分析決策的更廣泛的權衡分析工具的一部分。

連接技術有多種,其中很少有基於選擇的連接(CBC)和適應性連接(ACBC)。

多重判別分析

判別分析的目的是通過尋找變量的線性組合,最大限度地提高被研究變量之間的差異,從而從一組預測因子中確定樣本的組成員關係,從而建立一個模型,以最小的誤差將對象分類到相應的群體中。

判別分析推導出一個方程,作為自變量的線性組合,它將在因變量的組之間進行最佳的判別。這個線性組合被稱為判別函數。分配給每個自變量的權重根據所有變量之間的相互關係進行了校正。這些權重被稱為鑒別係數。

判別方程:

F = β0 + β1X1 + β2X2 +…+ βpXp + ε

式中,F為因變量X1, X2,…線性組合而成的潛變量,XP為p自變量,ε為誤差項,β0, β1, β2,…,βp為判別係數。

線性概率模型

線性概率模型(LPM)是一種回歸模型,其中結果變量為二元,使用一個或多個解釋變量來預測結果。解釋變量本身可以是二元的,也可以是連續的。如果分類涉及二元因變量,自變量包含非度量變量,則最好采用線性概率模型。

二元結果無處不在:一個人是否死亡、髖部骨折、是否患有高血壓或糖尿病等。

我們通常想要理解二元結果的概率在給定解釋變量的情況下。

我們可以用線性模型來做,原因很簡單。如果Y是一個指標或啞變量,那麼E[Y |X]是在X前提下1s的比例,我們將其解釋為在X前提下Y的概率。

然後,我們可以將這些參數解釋為當X變化一個單位時Y的概率的變化,或當X變化很小時Y的概率的變化。例如,如果我們建立模型,我們可以將β1解釋為額外一歲死亡概率的變化

多變量方差和協方差分析

多變量方差分析(MANOVA)是一種常見的擴展方法方差分析(方差分析)。在方差分析中,研究單一響應變量上各群體均值的差異。在MANOVA中,響應變量的數量增加到兩個或更多。這個假設涉及到群均值向量的比較。MANOVA有一個或多個因子(每個因子有兩個或多個層次)和兩個或多個因變量。這種計算是一般線性模型方法的擴展方差分析

典型相關分析

典型相關分析是研究兩組變量之間的線性關係。它是相關分析的多元擴展。

CCA有兩個典型的用途:-

  • 數據簡化
  • 資料解釋

您可以計算從一個集合(p)到第二個集合(q)變量之間的所有相關性,但是當pq很大時,解釋是困難的。

典型相關分析允許我們在保留關係的主要方麵的同時,將關係總結為較少數量的統計信息。在某種程度上,典型相關的動機與主成分分析非常相似。

結構方程建模

結構方程建模是一種用於分析結構關係的多元統計分析技術。它是數據分析的一個極為廣泛和靈活的框架,也許把它當作一係列相關方法而不是單一的技術更好。

單次分析中的SEM可以評估一組相關和獨立構造之間的假設因果關係,即結構模型的驗證和觀察項目(測量)對其預期潛在變量(構造)的負載,即測量模型的驗證。測量值與結構模型的聯合分析使觀測變量的測量誤差作為模型的一個組成部分進行分析,並將因子分析與假設檢驗結合在一個操作中。

相互依賴技術

相互依賴技術是一種變量不能被分為依賴或獨立的關係。

它旨在揭示變量和/或主題之間的關係,而不顯式地假設變量的特定分布。其思想是描述數據中的模式,而無需對變量做出(非常)強的假設。

因子分析

因子分析是一種將多個變量的數據壓縮為幾個變量的方法。由於這個原因,它有時也被稱為“降維”。它對具有高相關性的變量進行分組。因子分析包括主成分分析和公因子分析等技術。

這種類型的技術被用作預處理步驟,在使用其他模型之前轉換數據。當數據有太多的變量時,多變量技術的性能不是在最佳水平,因為模式更難發現。通過使用因子分析,模式變得不那麼稀釋,更容易分析。

聚類分析

聚類分析是一種技術,用於將對象或案例劃分到稱為聚類的相對組中。在聚類分析中,沒有關於任何對象的組或集群成員關係的先驗信息。

  • 在進行聚類分析時,我們首先根據數據相似度將數據集劃分為組,然後將標簽分配給組。
  • 與分類相比,聚類的主要優點是它能適應變化,並有助於選出區分不同組的有用特征。

聚類分析用於異常值檢測應用,如檢測信用卡欺詐。作為一種數據挖掘功能,聚類分析是一種洞察數據分布的工具,可以觀察每個聚類的特征。

多維標度

多維標度(MDS)是一種技術,它創建一個地圖,顯示幾個對象的相對位置,隻給出它們之間的距離的表。地圖可以由一、二、三甚至更多維度組成。該程序可以計算度量解或非度量解。這個距離表被稱為接近矩陣。它要麼直接來自實驗,要麼間接作為相關矩陣產生。

對應分析

對應分析是一種將非負數據表的行和列可視化為地圖上的點的方法,具有特定的空間解釋。數據通常在交叉表中進行計數,盡管該方法已通過適當的數據轉換擴展到許多其他類型的數據。對於交叉表,該方法可以被考慮用來解釋表的行和列之間的關聯,用皮爾遜卡方統計量來測量。該方法與主成分分析有一些相似之處,即它將行或列放在高維空間中,然後找到一個最佳擬合子空間,通常是一個平麵,在這個空間中可以近似這些點。

對應表是任何非負數的雙向矩形數組,表示表的行項和列項之間的關聯強度。通信表最常見的例子是列聯表,其中行和列項表示兩個類別變量的類別,而表單元格中的數量表示頻率。

多變量分析的目的

(1)數據減少或結構簡化:這有助於在不犧牲有價值信息的情況下盡可能簡化數據。這將使口譯更容易。

(2)排序與分組:當我們有多個變量時,根據測量的特征創建“相似”對象或變量組。

(3)變量間相關性的研究變量之間關係的本質是令人感興趣的。所有的變量是相互獨立的還是一個或多個變量依賴於其他變量?

(4)變量之間的關係:必須根據對其他變量的觀察結果,為預測一個或多個變量的值而確定。

(5)假設構建和檢驗.具體的統計假設,根據多變量總體的參數,進行了檢驗。這樣做可能是為了驗證假設或強化先前的信念。

還讀:抽樣技術簡介

模型建立過程

建立模型——選擇預測器——是統計學中難以分辨的技能之一。很難列出步驟,因為在每一步中,您都必須評估情況,並對下一步做出決定。但這裏有一些步驟需要記住。

主要部分(階段1到階段3)處理分析目標、分析風格關注點和假設測試。第二部分討論了模型估計、解釋和模型驗證等問題。下麵是通過使用變量技術的任何應用來建立適當模型的一般流程圖-

模型的假設

預測變量之間的關係不是一件容易的事。每個模型都有它的假設。多元分析中最重要的假設是正態性,同方差,線性,以及相關誤差的缺失。如果數據集不符合對於假設,研究人員需要做一些預處理。錯過這個步驟會導致不正確的模型產生錯誤和不可靠的結果。

多元分析常見問題

列出多變量分析的任意三類。

多變量分析有三類:聚類分析、多元邏輯回歸和多變量方差分析。

談談多元分析的意義。

分析有助於有效地減少偏差。

舉一個多元分析的例子。

多元指的是導致一個結果的多個因變量。這意味著我們現實世界中的大多數問題都是多元的。例如,根據季節,我們無法預測任何一年的天氣。有幾個因素在預測同樣的情況時起著重要作用。如:濕度、降水、汙染等。

多變量分析有哪些應用?

多元分析有多種應用。它允許我們處理巨大的數據集,並發現隱藏的數據結構,有助於更好地理解和容易地解釋數據。根據手頭的任務,可以選擇多種多樣的技術。

什麼是雙變量和多變量分析?

多變量分析涉及兩個或多個變量。它分析哪些是與特定結果相關的。而二元分析隻討論兩個成對的數據集,並研究它們之間是否存在關係。

多元統計彙總

多元統計的關鍵在於從概念上理解以下技術之間的關係:

  • 每種技術適用的問題種類。
  • 每種技術的目標。
  • 每種技術所需的數據結構,
  • 每種技術的抽樣考慮。
  • 每種技術的基礎數學模型或缺乏數學模型。
  • 技術互補使用的潛力

最後,我想總結的是,每種技術也有一定的優點和缺點,在試圖解釋技術的結果之前,分析人員應該清楚地了解這些優點和缺點。當前的統計包(SAS、SPSS、S-Plus和其他)使運行過程變得越來越容易,但是如果沒有足夠的注意,結果可能會被災難性地誤解。

愛因斯坦在解釋多變量分析的必要性時,有一句名言是這樣的:“如果你不能簡單地解釋它,你就不能很好地理解它。”

總之,多元數據分析有助於探索被調查樣本的數據結構。

如果你是數據科學領域的初學者,並希望開始你的職業生涯,參加免費的在線課程可以幫助你全麵地掌握介紹性概念。beplay2018官网偉大的學習學院提供數據科學基礎免費在線課程這可以幫助你為工作做好準備。在課程結束時,您將獲得的一些技能包括線性編程、實際操作經驗和分析景觀。

《阿凡達》的照片
beplay2018官网優秀的學習型團隊
beplay2018官网偉大學習的博客涵蓋了技術的最新發展和創新,可以用來建立有回報的職業生涯。你會找到職業指南、技術教程和行業新聞,讓自己跟上快速變化的科技和商業世界。

請留言評論

您的電郵地址將不會公布。必填項已標記

用夢想的工作免費的印度最值得信賴的教育平台上的證書課程

滾動到頂部
Baidu
map