- 什麼是分銷?
- 數據測量水平
- 數據做什麼?在哪些方麵它最重要?
- 為什麼發行很重要
- 頻率分布與概率分布的差異
- 分布類型
- 用於發行版的Python庫
- 伯努利分布
- 正態分布
- 二項分布
- 泊鬆分布
- 均勻分布
- 伽馬分布
- 指數分布
貢獻者:Venkat M
LinkedIn簡介:https://www.linkedin.com/in/venkat-murali-3753bab/
什麼是分銷?
統計數據集的分布是數據的分布,它顯示了數據的所有可能值或間隔以及它們是如何發生的。
分布隻是一個變量的數據或分數的集合。通常,這些分數是按升序排列的,然後可以用圖形表示。
該分布提供了一個參數化的數學函數,它將計算樣本空間中任何單個觀測的概率。
在討論分布之前,先了解術語“數據”,這對數據分析師/數據科學家來說是非常重要和關鍵的
什麼是數據?
數據是關於事實、數字和統計數據的信息(數字、文字、測量、觀察)的集合,這些信息收集在一起用於分析。
例子:分布分類數據(真/假,是/否):它顯示了每個組中個體的數量(或百分比)。
如何可視化分類數據:條形圖,餅圖和帕累托圖。
的分布數值數據(身高、體重、工資):首先按照從高到低的順序進行排序,並根據相似度進行分組。它以圖形和圖表表示,以檢查數據中的方差量。
如何可視化數值數據:直方圖,線狀圖和散點圖。
數據測量水平
S.No | 定性 | 定量 |
1 |
名義-品牌名稱,郵政編碼和性別序號-等級,明星評論 | 序號-位置在種族和日期間隔-溫度在攝氏度,出生率的年份-身高,年齡,體重 |
數據做什麼?在哪些方麵它最重要?
- 標識兩個變量之間的關係
- 對未來的預測和基於以往數據趨勢的預測
- 數據集中存在的模式確定
- 檢測欺詐和異常
為什麼發行很重要?
抽樣分布對統計學很重要,因為我們需要收集樣本並估計總體分布的參數。因此,要對總體人口進行推斷,分布是必要的。
例如,衡量樣本之間差異的最常用方法是均值的標準偏差和標準誤差。
頻率分布與概率分布的差異
S.No | 頻率分布 | 概率分布 |
1 |
它記錄一個事件發生的頻率。這是根據實際觀察得出的結論 | 它記錄事件發生的可能性。它是基於對應該發生的事情的理論假設 |
頻率分布:
每個數值出現的次數。
概率分布
與每個可能的數值相關聯的概率列表。
分布類型
- 伯努利分布
- 均勻分布
- 二項分布
- 正態分布
- 泊鬆分布
- 指數分布
用於發行版的Python庫
伯努利分布
二項分布的一個特例。它是離散的概率分布,隻有兩種可能的結果——1(成功)和0(失敗),以及一次試驗。
例子:在板球:投擲硬幣導致贏或輸的投擲。沒有中間結果。出現頭表示成功,出現尾表示失敗。
成功(1)的概率是0.4,失敗(0)的概率是0.6
Python中的伯努利分布
正態分布
它也被稱為高斯分布和對稱分布。它是一種與均值對稱的連續概率分布。大多數觀測聚集在中心峰點附近。
這是一條鍾形曲線。
例子:績效考核、身高、血壓、測量誤差、智商分數服從正態分布。
均值=中位數=模式
標準正態分布為μ = 0, б = 1的正態分布。
基本屬性:
- 正態分布總是在-α和+α之間
- 零偏度和分布是對稱的。
- 零峰度
- 68%的數值與平均值相差1個標準差
- 95%的數值與平均值相差2sd
- 99.7%的數值在平均值的3sd範圍內
Python中的正態分布
二項分布
最廣為人知的離散概率分布。它已經使用了數百年。
假設:
- 這個實驗包括n個相同的試驗。
- 每次試驗隻有兩種可能的結果——成功或失敗。
- 每次試驗都獨立於之前的試驗。
- p和q在整個實驗過程中保持不變,其中p是在任何一次試驗中獲得成功的概率,q = (1 - p)是在任何一次試驗中獲得失敗的概率。
Python中的二項分布
泊鬆分布
它是一個事件在指定時間內可能發生次數的離散概率分布。它用於在給定時間間隔內以恒定速率發生的獨立事件。
每個區間的出現範圍從0到無窮(0到α)。
例子:
- 隨機抽取50輛車,一共有多少種黑色
- 在20分鍾的時間間隔內沒有到達洗車場的汽車
均勻分布
它是一個連續或矩形分布。它描述的是一種實驗,其結果在一定的邊界之間。
例子:
- 從紐瓦克到亞特蘭大的飛行時間在120到150分鍾之間如果我們監測許多商業航班的飛行時間它將或多或少地遵循統一的分布。
- 學生完成一小時考試的時間可能在50分鍾到60分鍾之間。同樣數量的學生在這個範圍內完成超過5分鍾的間隔——50、54、56、58和60。測試的完成時間可以用均勻分布來近似。
- 從Nanganallur到Alandur的披薩送餐時間從送餐員離開必勝客的時間統一為20到30分鍾。
Python中的均勻分布
伽馬分布
它處理連續變量,這些變量具有廣泛的值範圍,例如單個調用時間。在此基礎上,我們可以使用伽瑪分布函數在任何可能值範圍內建模概率。第一個是形狀參數(α),第二個是尺度參數(β)。
例子:
- 蓄積量:蓄積在水庫中的雨量
- 貸款拖欠者的規模和保險索賠的總和
- 產品在生產和分配過程中的流動
- web服務器上的負載
Python中的Gamma分布
指數分布
它與某一特定事件發生之前的時間有關。
例子:
- 地震發生前的時間呈指數分布
- 商務電話的時間
- 汽車電池可以持續使用。
- 顧客在一次超市消費的金額遵循指數分布。花少量錢的人多,花大量錢的人少。
指數分布在可靠性研究中得到了廣泛的應用。
請注意可靠性與產品的使用時間有關。
很好的洞察力和刷新我在五大湖學到的基本概念
謝謝,孔雀舞!請繼續關注更多此類文章。