貢獻:Sreekanth Tadakaluru
LinkedIn簡介:https://www.linkedin.com/in/sreekanth-tadakaluru-3301649b/
簡介:
讓我們舉個例子新型冠狀病毒肺炎疫苗臨床試驗。在整個人口中進行試驗是非常困難的,因為它涉及到時間、金錢和資源。因此,在研究方法中,抽樣是一種幫助研究人員根據總體子集的結果推斷總體信息的方法,而不必調查每個個體。
一家電信公司計劃建立一個機器學習模型來預測他們網絡中的客戶流失。一種方法是收集所有客戶的信息並建立一個預測模型。該方法需要較高的計算能力和資源。因此,最好的方法是從代表總體的總體(所有客戶)中提取一個樣本(客戶子集),並建立機器學習模型。這樣既省錢又省力。
抽樣:
抽樣是從總體中選擇一組個體進行研究,並將其作為一個整體來表征的過程。
人口包括來自特定組的所有成員、所有可能的結果或感興趣的測量。確切的人口將取決於研究的範圍。
樣例由一些來自總體的觀察結果組成,所以是總體子集的一部分。樣本是參與研究的一組元素。
采樣幀是定位和定義宇宙維度的信息。
一個好的樣品應該滿足以下條件-
- 代表性:樣本應是所研究人群的最佳代表。
- 準確度:準確度被定義為樣本中不存在偏差的程度。一個準確的(無偏的)樣本是一個準確地代表總體的樣本。
- 尺寸:一個好的樣品必須有足夠的尺寸和可靠性。
還讀:推理統計學導論“,
不同類型的采樣技術:
有幾種不同的抽樣技術可用,它們可以細分為兩組-
1.概率抽樣涉及隨機選擇,允許您對整個組進行統計推斷。
有四種概率抽樣技術
- 簡單隨機抽樣
- 整群抽樣
- 係統抽樣
- 分層隨機抽樣
2.非概率抽樣涉及基於便利性或其他標準的非隨機選擇,允許您輕鬆收集初始數據。有四種類型的非概率抽樣技術。
- 便利抽樣
- 判斷性或目的性抽樣
- 滾雪球抽樣
- 定額抽樣
概率和非概率樣本之間的選擇
使用概率或非概率方法進行抽樣的選擇取決於多種因素:
- 研究的目標和範圍
- 數據收集方法
- 結果的精度
- 采樣幀的可用性以及維護該幀所需的資源
- 關於人口成員的額外信息的可用性
概率抽樣
在進行重大研究時,通常首選概率抽樣,特別是在有總體框架的情況下,以確保我們可以選擇和聯係總體中的每個單元。概率抽樣使我們能夠量化估計的標準誤差、形成的置信區間和要正式檢驗的假設。
主要的缺點是在選擇樣本和調查所涉及的成本方麵存在偏差。
簡單隨機抽樣
在簡單隨機抽樣中,總體中的每個觀察值都有相等的被選擇的概率,給定大小的每個可能樣本都有相同的被選擇的概率。選擇簡單隨機樣本的一種可能方法是按順序給采樣幀上的每個單元編號,並通過從隨機數發生器生成數字來進行選擇。
簡單的隨機抽樣可以包括選擇有或沒有替換的單元。替換抽樣允許單元被選擇多次,而不替換抽樣隻允許單元被選擇一次。不需要替換,抽樣是最常用的方法。
例:如果需要從100個人口中收集20個樣本。為人口成員分配唯一的數字,並使用隨機生成器隨機選擇20個成員。ML問題的訓練和測試分開。
還讀:中彩票的概率是多少?
應用程序
- 在機器學習問題中訓練和測試分開
- 彩票的方法
優勢
- 最小抽樣偏差,因為樣本是隨機收集的
- 樣本的選擇很簡單,因為使用了隨機發生器
- 由於研究結果具有代表性,因此可以推廣
缺點
- 所有受訪者的潛在可用性可能是昂貴和耗時的
- 更大的樣本量
係統抽樣
在係統隨機抽樣中,研究人員首先從總體中隨機選擇第一個項目。然後,研究人員將從列表中選擇第n個項目。係統隨機抽樣的過程非常簡單,可以手動完成。除非每n個個體都重複出現種群的某些特征,否則結果是具有代表性的。
選擇係統隨機樣本的步驟:
- 計算抽樣間隔(總體中觀測值的數量除以樣本所需的觀測值的數量)
- 在1和采樣間隔之間選擇一個隨機開始
- 反複增加采樣間隔,選擇後續住戶
例:如果需要從100個人口中收集20個樣本。將人口分成20組,每組成員為(100/20)= 5。從第一組中選擇一個隨機數,每5取一個th成員來自隨機數。
應用程序
- 質量控製:係統抽樣在製造業中廣泛應用,用於對其產品的質量進行統計控製。這裏的示例是通過定期從當前生產流中獲取一個項目來獲得的。
- 在審計中:在審計儲蓄帳戶時,最自然的方法是抽取一份帳戶清單,以檢查是否符合會計程序。
優勢
- 成本和時間效率
- 將樣本更均勻地分布在人群中
缺點
- 應該知道完整的種群
- 樣本偏差如果數據集中存在周期性模式
分層隨機抽樣
在分層隨機抽樣中,將整個種群劃分為多個不重疊的同質組(地層),並從各個地層中隨機選擇最終成員進行研究。每個組的成員應該是不同的,這樣所有組的每個成員都有平等的機會被選擇使用簡單概率。
分層隨機抽樣有三種類型
1.比例分層隨機抽樣
在這種技術中,每個階層的樣本量與階層的總體規模成比例,當觀察整個人口。例如,你有3個地層,分別有10、20和30個人口規模,抽樣比例為0.5,那麼每個地層的隨機樣本分別為5、10和15個。
2.不成比例分層隨機抽樣
比例分層隨機抽樣和非比例分層隨機抽樣的唯一區別是它們的抽樣分數。在非比例抽樣中,不同的地層有不同的抽樣分數。
3.最優分層抽樣
地層的大小與所研究變量的標準差成正比。
例句:一家公司想做一項員工滿意度調查,該公司有30萬名員工,計劃收集1000名員工的樣本進行調查。因此,樣本應該包含來自所有地點的所有級別的員工。因此,創建不同的地層或組,並從每個地層中選擇樣本。
優勢
- 所有群體都有更大的代表性
- 如果地層內部存在均質性,而地層之間存在非均質性,則可以同樣準確地進行估算
缺點
- 需要地層成員的知識
- 可能需要更長的時間和更昂貴的費用
- 複雜的方法
整群抽樣
聚類抽樣將人口分成多個聚類進行研究。然後研究人員通過簡單的隨機或係統隨機抽樣技術選擇隨機組進行數據收集和數據分析。
聚類抽樣的步驟:
- 根據總體數據創建集群
- 選擇每個集群作為一個采樣幀
- 為每個集群編號
- 選擇隨機的集群
選擇聚類後,要麼使用完整的聚類進行研究,要麼使用其他抽樣方法從聚類中選取樣本元素。
例句:一位研究人員想對某所大學的工科學生進行一次學術表現調查。他可以將整個人口劃分為多個工程學院(即集群),並隨機挑選一些集群進行研究。
整群抽樣類型:
- 單階段聚類:從上麵的例子中,從隨機的工程學院中選擇整個學生是一個階段聚類
- 兩階段聚類(Two-Stage Cluster):從同一個例子中,通過隨機或係統抽樣的方式從每個聚類中隨機抽取學生,稱為兩階段聚類
優勢
- 節省時間和金錢
- 從實用的角度來看,它很容易使用
- 可以使用更大的樣本量
缺點
- 采樣誤差大
- 可能無法反映抽樣框架中的多樣性
Non-probability抽樣
當結果的準確性不重要時,非概率樣本是首選。這些都是便宜的,容易運行,不需要框架。如果仔細地進行非概率抽樣,則可以減少結果中的偏差。
非概率抽樣的主要缺點是“對整個種群進行推斷是危險的”。
便利抽樣
便利抽樣是最簡單的抽樣方法,參與者是根據可獲得性和參與調查的意願選擇的。由於樣本可能不能代表總體,結果容易產生顯著的偏差。
應用程序
- 在社交網站和辦公室進行的調查
例子:在Facebook或Youtube上進行的民意調查。有興趣參加調查或民意調查的人將參加調查,結果可能並不準確,因為結果容易產生重大偏差。
優勢
- 樣品很容易拿到
- 成本低,參與者容易獲得
缺點
- 不能概括結果嗎
- 人口代表性不足或過多的可能性
- 重大偏差
定額抽樣
這種方法主要由市場研究人員使用。研究人員將調查人群劃分為相互排斥的子組。這些子群體是根據某些已知的特征、特征或興趣來選擇的。研究人員從每個亞組中選擇樣本。
配額抽樣可分為兩組-
- 控製配額抽樣是指為了限製研究者對樣本的選擇而引入一定的限製。
- 非受控配額抽樣與方便抽樣相似,研究人員可以自由選擇樣本組成員
配額抽樣所涉及的步驟
- 把人口劃分為獨立的小群體
- 確定子群體在人口中的比例
- 為每個子組選擇主題
- 確保樣本是總體的代表性
一家油漆公司想對他們的一種產品做研究。因此,研究者采用定額抽樣的方法選取了畫家、建築商、代理商和噴漆零售店主。
優勢
- 成本效益
- 不依賴於采樣幀
- 允許研究人員對研究非常感興趣的亞組進行抽樣
缺點
- 樣本可能代表過多
- 無法計算抽樣誤差
- 由於研究人員的能力不足和/或缺乏經驗,研究人員的偏見和工作質量可能會受到很大影響
判斷(或目的性)抽樣
在判斷(或目的性)抽樣中,研究人員在選擇參與研究的人口成員時依靠他或她的判斷。研究人員通常認為,他們可以通過合理的判斷獲得具有代表性的樣本,這將節省時間和金錢。
在這種抽樣技術中,由於研究人員的知識在創建樣本時起著重要作用,因此獲得的結果有可能在最小誤差範圍內高度準確。
一家廣播公司想調查其中一個電視節目。研究人員有一個目標受眾的想法,他可以選擇人口成員參與研究。
優勢
- 成本和時間有效的抽樣方法
- 允許研究人員直接接近他們的目標市場
- 幾乎實時的結果
缺點
- 易受研究者判斷錯誤的影響
- 可靠性低,偏差高
- 無法概括研究結果
滾雪球抽樣
這種方法在社會科學中通常用於調查難以接觸到的群體。現有的研究對象被要求提名更多他們已知的研究對象,因此樣本的規模就像滾動的雪球一樣增加。例如,在調查靜脈注射吸毒者的風險行為時,參與者可能會被要求提名其他接受采訪的使用者。
這種抽樣方法包括主要數據源指定其他潛在的主要數據源用於研究。所以滾雪球抽樣方法是基於初始受試者的轉介來生成額外的受試者。因此,當應用這種抽樣方法時,樣本組的成員是通過鏈式推薦招募的。
雪球抽樣有三種模式
- 線性滾雪球抽樣。隻招募一名受試者,該受試者隻提供一份推薦
- 指數非判別滾雪球抽樣。隻招募一名受試者,該受試者提供多個推薦
- 指數判別滾雪球抽樣。隻招募一名受試者,該受試者提供多個推薦。但是隻有一個科目是被推薦的
例:患有罕見疾病的人。如果一家製藥公司有興趣對患有罕見疾病的人進行研究,可能很難找到這些人。因此,製藥公司可以找到少數人參與研究,並要求他們從他們的聯係人中推薦這些人。
優勢
- 研究人員可以接觸到特定人群中的稀有對象
- 低成本,易於實現
- 它不需要招募團隊去招募額外的受試者
缺點
- 樣本可能不具有代表性
- 可能會出現抽樣偏差
- 因為樣本很可能是有偏見的,所以很難有信心地得出關於更大人群的結論
最後,
- 減少抽樣誤差是任何選擇技術的主要目標。
- 樣本應該大到足以回答研究問題,但又不能大到使取樣過程變得不經濟。
- 一般來說,樣本越大,抽樣誤差越小,你能做得越好。
- 根據研究或用例決定適當的抽樣方法。
希望這篇抽樣技術的介紹對你有幫助!