在這篇關於離群值的分析,我們將看看,您需要了解的一切
由:Renjini
離群值分析是什麼?
“異常值分析是一個過程,包括識別異常觀測數據集。”
讓我們首先了解什麼是離群值。離群值是一個極端值偏離其他觀測數據集。
離群值是由於不正確的條目或引起的計算誤差,報道,抽樣誤差異常,但真正價值的錯誤。例如,顯示一個人的體重為1000公斤可以由一個程序的默認設置沒有記錄的重量。另外,離群值可能是土著的結果數據可變性。很多算法用於異常值的影響最小化或消除它們。這可能會導致損失的重要的隱藏信息,因為一個人的聲音可以另一個人的信號。在某些情況下如欺詐檢測、異常值表明欺詐活動。
離群值分析是數據挖掘的任務被稱為一個“異常挖掘”。它在欺詐檢測各種應用程序,比如不尋常的使用信用卡或電信服務,醫療分析尋找不尋常的醫學治療的反應,並識別客戶營銷的支出性質。
讓我們來看看如下,我們將查看挖掘問題
1。在一個給定的數據集,定義數據可能被認為是不一致的
2。找到一個有效的方法來提取異常值的定義。
在回歸模型中,分析數據的殘差可以給一個好的評價。然而,當發現異常值在時間序列數據,他們可能藏在趨勢,季節性或周期性變化。
多維數據分析時,結合維值將是極端。分類數據的離群值需要特殊考慮。
還讀:數據科學教程適合初學者
離群值分析技術
有多種方法可以找到離群值。所有的這些方法都使用不同的方法尋找值不同尋常的相比其他的數據集。這裏,我們來看看幾個這些技術如下:
排序
離群值的排序是最簡單的技術分析。你的數據加載到任何類型的數據操作工具,如電子表格、值的大小進行排序。然後,看各種數據點的值的範圍。如果有任何數據點明顯高於或低於其他數據集,他們可能會被視為離群值。
讓我們來看一個分類在實際的例子。考慮到公司的CEO的工資是其他員工的兩倍。在進入數據分析階段,他們應該確保沒有異常值的數據集。通過排序最高的薪水,他們將能夠識別異常高的觀測。知道的平均薪水更重要的是,一個觀察CEO的薪水將是一個異類。
圖形數據來識別異常值
另一個異常值分析技術是圖形。圖繪製的所有數據點,和看哪個點站遠離其他人。使用圖形方法排序的方法,我們可以想象的大小數據點,這使得它更容易看到離群值。讓我們看看我們能找到數據中離群值。我們可以檢測異常值通過箱線圖、柱狀圖和散點圖。
使用z分數檢測離群值
z分數措施多遠一個數據點的平均值,標準差來衡量。通過計算每個數據點的z分數,很容易看出哪些數據點放置遠離平均水平。z分數可以決定的色彩觀察當我們遵循正態分布的數據。z得分是標準差上方和下方的數量意味著每個值下降。例如,2的z分數表明一個觀察是兩個標準差以上平均在2的z分數意味著它是以下兩個標準差的意思。零的z分數代表的值等於的意思如下:
計算z分數的觀察,用原始然後減去均值,然後除以標準差。數學上,公式如下:
找到下麵的表,顯示了高(H)和z分數計算的例子更好的理解:
高度H | z分數 |
1.5895 | -0.34603 |
1.6508 | -0.31975 |
1.7131 | -0.29301 |
1.7136 | -0.29283 |
1.7212 | -0.28954 |
1.7296 | -0.28595 |
1.7343 | -0.28394 |
1.7663 | -0.2702 |
1.8018 | -0.25501 |
10.8135 | 3.691 |
拋出的異常值出現在數據的z得分,因為它膨脹平均值和標準偏差批評性思維如何所有的z分數是負麵的,除了離群值的值。如果您的數據集包含異常值,z值是有偏見的,他們似乎不太接近於零。
使用四分位範圍創建例外柵欄
局外人箱線圖是一種變異的骨骼箱線圖,而是擴展到最小值和最大值,胡須擴展到最遙遠的觀察在1.5 X從四分位差。離群值附近可能被確定為觀察超過1.5 x從四分位差,和可能的異常值為觀察進一步比3.0 x從四分位差。任何一組數據可以描述的five-number總結。這五個數字,給你信息你需要找到模式和異常值,包括(按升序):
- 數據集的最小或最小值
- 第一個四分位數Q1,代表四分之一的所有數據的列表
- 的中位數的數據集,代表整個列表的中點的數據
- 第三四分位數Q3,代表四分之三的所有數據的列表
- 最大值或最高價值的數據集。
這五個點解釋更多關於他們的數據比看這些數字都使這更容易。例如,範圍最大最小值相減時,是如何展開的一個指標範圍是在一組數據。否則很難得出結論。類似於範圍,但離群值不敏感,是四分位範圍。所有你找到第三個四分位數:減去第一個四分位數差=第三季- Q1。
四分位範圍顯示了數據分布中值。
使用四分位規則發現異常值:四分位範圍可以用來檢測離群值。這是通過使用這些步驟:
- 計算數據的四分位範圍。
- 四分位範圍(差)乘以1.5(一個常數用來識別異常值)。
- 添加1.5 x(差),第三個四分位數。任何數量大於這個疑似異常值。
- 從第一個四分位數減去1.5 x(差)。任何數量不到這是一個疑似異常值。
現在,離群值的概念分析可能清理了,有很多方法來識別異常值。我們必須使用我們的深入了解所有變量在分析數據。這是知道值是典型的,不尋常的,不可能的。
當我們使用更深入的知識,最好使用更簡單,可視化方法。乍一看,潛在的離群值的數據點能夠輕易找到。因此,我經常使用箱線圖、柱狀圖和老式的數據排序!這些簡單工具提供足夠的信息讓我找到不同尋常的異常數據點進行進一步的調查分析。
如果你發現這個博客有幫助,希望學習更多這樣的概念,加入beplay2018官网很好的學習學院是免費的在線課程今天。