按域名瀏覽

推理統計學概述|推理統計學介紹

簡介

統計學在…領域中占有重要的地位數據科學.它幫助我們收集、分析和表示數據,無論是通過可視化還是通過數字轉換成一般可理解的格式。一般來說,我們把統計學分為兩個主要分支:描述統計學和推斷統計學。在本文中,我們將詳細討論推理統計。

總體和樣本

在討論推理統計之前,讓我們看看總體和樣本。Population包含一組數據中的所有數據點。這是我們收集數據的小組。而樣本則由從總體中選擇的一些觀察結果組成。從總體中選擇的樣本應該具有總體所具有的所有特征。總體的可測量特征如均值、標準差等被稱為參數,而樣本的可測量特征被稱為統計量。

什麼是推理統計學?

描述性統計用平均數、中位數、眾數、方差等描述數據的重要特征。它通過數字和圖表來總結數據。

在推論統計學中,我們從總體樣本中作出推論。推理統計學的主要目的是從樣本中得出一些結論,並將其推廣到總體數據中。例如,我們必須找出全印度數據分析師的平均工資。有兩種選擇。

  1. 第一個選擇是考慮印度各地數據分析師的數據,詢問他們的工資並取平均值。
  2. 第二種選擇是從印度主要IT城市的數據分析師中抽取樣本,並計算他們的平均值,並考慮整個印度。

第一種選擇是不可能的,因為很難收集印度各地數據分析師的所有數據。這既費時又費錢。因此,為了克服這個問題,我們將研究第二種選擇,收集數據分析師工資的小樣本,並將其平均值作為印度平均值。這是推理統計學我們從總體樣本中做出推斷。

在推論統計學中,我們將討論概率、分布和假設檢驗。

推理統計學的重要性

  • 從總體樣本中得出結論
  • 總結所選樣本對整體是否具有統計學意義
  • 比較兩個模型,找出哪個模型在統計學上更顯著。
  • 在特征選擇中,添加或刪除變量是否有助於改進模型。

概率

它是一種現象發生幾率的度量。現在我們將討論一些在概率中非常重要的術語:

  • 隨機試驗:隨機實驗或統計實驗是一種已知所有可能結果的實驗。實驗可以在相同或相似的條件下重複多次。
  • 樣本空間:隨機實驗的樣本空間是隨機實驗所有可能結果的集合或集合。
  • 事件:樣本空間的子集稱為事件。
  • 試驗:Trial是一種特殊類型的實驗,我們有兩種可能的結果:成功或失敗,成功概率不同。
  • 隨機變量:一個變量的值由於隨機性而發生變化,我們稱之為隨機變量。隨機變量有兩種類型:離散變量和連續變量。在數學上,我們可以說一個實值函數X: S -> R被稱為隨機變量,其中S是概率空間,R是實數的集合。

條件概率

條件概率是給定某個已經發生的條件,即X,特定事件Y發生的概率。那麼條件概率P(Y|X)定義為:

P(y | x) = n (x∩y) / n (x);N(X) > 0

N(X): -對事件X有利的情況總數

N(X∩Y): -總有利同時

或者,我們可以寫成:

P (Y | X)= p (x∩y) / p (x);P(x) > 0

概率分布和分布函數

描述隨機變量隨機性的數學函數叫做概率分布.它是對一個隨機變量的所有可能結果及其相關概率的描述

對於隨機變量X, CDF (Cumulative Distribution function)定義為:

F(x) = P {s ε s;X(s)≤X}

或者,

F(x) = P {x≤x}

例:P (X > 7) = 1- P (X≤7)

= 1 - {P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) + P (X = 5) + P (X = 6) + P (X = 7)}

抽樣分布

從總體中選擇大量樣本統計的概率分布稱為抽樣分布。隨著樣本大小的增加,樣本均值在總體均值附近正態分布。樣本的可變性隨著樣本量的增加而減小。

中心極限定理

CLT表示,當我們增加樣本容量時,樣本均值的分布就像樣本一樣正態分布,無論總體分布形狀如何。當樣本容量大於30時這個定理尤其成立。結論是,如果我們取更多的樣本,特別是大的樣本,樣本均值在圖中的分布將服從正態分布。

在上圖中,我們可以看到,當我們增加n的值,即樣本量時,它正在接近正態分布的形狀。

置信區間

置信區間是參數合理值的區間。置信區間用於對我們感興趣的參數進行區間估計。

通過將平均值和z分數的標準誤差相乘來發現誤差範圍。

誤差範圍= (z. σ)/√n

置信區間定義為:

置信區間值為95%表示我們有95%的把握實際均值在置信區間內。

假設檢驗

假設檢驗是統計的一部分,其中我們對總體參數進行假設。所以,假設檢驗是指通過分析隨機樣本來接受或拒絕假設的適當程序。

假設類型

假設有兩種類型:

  1. 零假設:零假設是一種假設,在這種假設中,我們假設樣本觀測完全是偶然的。用H0表示。
  1. 備用假設:備用假設是一種假設,在這種假設中,我們假設樣本觀測結果不是偶然的。它們受到一些非隨機情況的影響。另一種假設用H1或Ha表示。

假設檢驗步驟

根據樣本數據確定是否拒絕零假設或不拒絕零假設的過程稱為假設檢驗。它包括四個步驟:

  1. 定義原假設和備擇假設
  2. 定義一個分析計劃,以發現如何使用樣本數據來估計零假設
  3. 對樣本數據做一些分析,創建一個名為檢驗統計量的
  4. 通過應用決策規則來檢查零假設是否為真來理解結果

如果t-stat值小於顯著性水平,我們將拒絕原假設,否則,我們將無法拒絕原假設。

嚴格來說,我們從不接受零假設,我們要麼拒絕零假設,要麼拒絕零假設。

假設檢驗術語

顯著性水平

顯著性水平被定義為當我們拒絕零假設時,但實際上它是正確的情況的概率。例如,0.05顯著性水平表明,在實際沒有差異的情況下,假設存在一些差異的風險為5%。用α (α)表示。

上圖顯示,兩個陰影區域與原假設的距離相等,每個陰影區域的概率為0.025,總和為0.05,這是我們的顯著性水平。在雙尾檢驗中,陰影區域稱為臨界區域。

假定值

p值定義為,如果零假設值為真,則看到與計算值一樣極端的t統計量的概率。足夠低的p值是拒絕零假設的基礎。如果p值小於顯著性水平,則拒絕零假設。

假設檢驗中的錯誤

我們已經解釋了什麼是假設檢驗以及進行檢驗的步驟。在進行假設檢驗的過程中,可能會有一些錯誤。

我們把這些錯誤分為兩類。

  1. 第一類錯誤:第一類錯誤是指我們拒絕原假設,但實際上它是正確的。出現類型1錯誤的概率稱為顯著性水平alpha(α)。
  2. 2型錯誤:2型錯誤是指我們無法拒絕零假設,但實際上它是假的。出現2型錯誤的概率稱為β (β)。

因此,

α= P(零假設被否定|零假設為真)

β= P(接受原假設|原假設為假)

測試能力的定義為

P= 1- Type-2錯誤

= 1 - β

2型錯誤越小,假設檢驗的力量越大。

決定- - - - - - >
/
實際
拒絕原假設 拒絕零假設失敗
零假設為真 1型錯誤 決定是正確的
備擇假設是正確的 決定是正確的 2型錯誤

z檢驗

z檢驗主要用於數據正態分布的情況。我們找到樣本均值的z統計量並計算z得分。z分數由公式給出,

z分數= (x -µ)/ σ

z檢驗主要用於給出總體均值和標準差的情況。

學習任務

t檢驗類似於z檢驗。唯一的區別是當我們有樣本標準差但沒有總體標準,或者樣本容量小(n<30)時使用它。

不同類型的t檢驗

單樣本t檢驗

單樣本t檢驗將樣本數據的均值與已知值進行比較如果我們必須將樣本數據的均值與總體均值進行比較我們就使用單樣本t檢驗。

我們可以進行單樣本t檢驗當我們沒有總體標準差或者樣本容量小於30時。

雙樣本t檢驗

當我們想要評估兩個樣本的均值是否不同時,我們使用雙樣本t檢驗。在雙樣本t檢驗中,我們有另外兩個類別:

  • 獨立樣本t檢驗:獨立樣本是指從兩個完全不同的總體中選擇兩個不同的樣本。換句話說,我們可以說一個群體不應該依賴於另一個群體。
  • 配對t檢驗:如果我們的樣本以某種方式連接,我們必須使用配對t檢驗。這裏的連接是指樣本之間的連接,因為我們從同一組中收集了兩次數據,例如某醫院患者用藥前和用藥後的血液測試。

卡方檢驗

卡方檢驗用於必須比較分類數據的情況。卡方檢驗有兩種類型。兩者都使用卡方統計和分布來達到不同的目的。

  • 擬合優度:它確定類別變量的樣本數據是否與總體匹配。
  • 獨立檢驗:它比較兩個分類變量,以發現它們是否相互相關。

卡方統計量為:

方差分析

方差分析測試是一種判斷實驗結果是否有意義的方法。它通常用於有2個以上的組,我們必須檢驗的假設,倍數的均值人口而且倍數方差人口是平等的。

來自不同學院的學生參加同樣的考試。我們想看看一所大學是否比其他大學表現更好。

有兩種類型的方差分析檢驗:

  1. 單向方差分析
  2. 雙向方差分析

方差分析中的檢驗統計量為:

結論

在這篇文章中,我們學習了推理統計和其中的不同主題,如概率,假設檢驗,以及不同類型的假設檢驗。此外,我們還討論了推理統計的重要性,以及如何通過樣本數據對總體進行推理,從而節省時間和成本。

參考

  • 概率和數理統計Prasanna Sahoo路易斯維爾大學數學係,肯塔基州40292美國
  • 《數理統計基礎》作者:卡普爾
  • 統計科學概論:從理論到實施初版約瑟夫C.沃特金斯

如果你想從事數據科學方麵的職業,可以通過Great Learning提高技能beplay2018官网數據科學與商業分析碩士課程。

《阿凡達》的照片
beplay2018官网優秀的學習團隊
beplay2018官网Great Learning的博客涵蓋了最新的技術發展和創新,可以用來建立有價值的職業生涯。你會找到職業指南、技術教程和行業新聞,讓自己跟上快速變化的技術和商業世界。

留下評論

你的電郵地址將不會公布。必填字段已標記

與夢想的工作免費的印度最值得信賴的教育平台上的證書課程

滾動到頂部
Baidu
map