異常值分析和如何提高分析是什麼? - beplay赞助,beplay网站登录

離群值分析機是什麼

在這篇關於離群值的分析,我們將看看,您需要了解的一切

離群值分析
離群值分析技術

離群值分析是什麼?

“異常值分析是一個過程,包括識別異常觀測數據集。”

讓我們首先了解什麼是離群值。離群值是一個極端值偏離其他觀測數據集。

離群值是由於不正確的條目或引起的計算誤差,報道,抽樣誤差異常,但真正價值的錯誤。例如,顯示一個人的體重為1000公斤可以由一個程序的默認設置沒有記錄的重量。另外,離群值可能是土著的結果數據可變性。很多算法用於異常值的影響最小化或消除它們。這可能會導致損失的重要的隱藏信息,因為一個人的聲音可以另一個人的信號。在某些情況下如欺詐檢測、異常值表明欺詐活動。

離群值分析是數據挖掘的任務被稱為一個“異常挖掘”。它在欺詐檢測各種應用程序,比如不尋常的使用信用卡或電信服務,醫療分析尋找不尋常的醫學治療的反應,並識別客戶營銷的支出性質。

讓我們來看看如下,我們將查看挖掘問題

1。在一個給定的數據集,定義數據可能被認為是不一致的
2。找到一個有效的方法來提取異常值的定義。

在回歸模型中,分析數據的殘差可以給一個好的評價。然而,當發現異常值在時間序列數據,他們可能藏在趨勢,季節性或周期性變化。

多維數據分析時,結合維值將是極端。分類數據的離群值需要特殊考慮。

還讀:數據科學教程適合初學者

離群值分析技術

有多種方法可以找到離群值。所有的這些方法都使用不同的方法尋找值不同尋常的相比其他的數據集。這裏,我們來看看幾個這些技術如下:

排序

離群值的排序是最簡單的技術分析。你的數據加載到任何類型的數據操作工具,如電子表格、值的大小進行排序。然後,看各種數據點的值的範圍。如果有任何數據點明顯高於或低於其他數據集,他們可能會被視為離群值。

讓我們來看一個分類在實際的例子。考慮到公司的CEO的工資是其他員工的兩倍。在進入數據分析階段,他們應該確保沒有異常值的數據集。通過排序最高的薪水,他們將能夠識別異常高的觀測。知道的平均薪水更重要的是,一個觀察CEO的薪水將是一個異類。

圖形數據來識別異常值

另一個異常值分析技術是圖形。圖繪製的所有數據點,和看哪個點站遠離其他人。使用圖形方法排序的方法,我們可以想象的大小數據點,這使得它更容易看到離群值。讓我們看看我們能找到數據中離群值。我們可以檢測異常值通過箱線圖、柱狀圖和散點圖。

還讀:前100 +數據科學的麵試問題

使用z分數檢測離群值

z分數措施多遠一個數據點的平均值,標準差來衡量。通過計算每個數據點的z分數,很容易看出哪些數據點放置遠離平均水平。z分數可以決定的色彩觀察當我們遵循正態分布的數據。z得分是標準差上方和下方的數量意味著每個值下降。例如,2的z分數表明一個觀察是兩個標準差以上平均在2的z分數意味著它是以下兩個標準差的意思。零的z分數代表的值等於的意思如下:

計算z分數的觀察,用原始然後減去均值,然後除以標準差。數學上,公式如下:

找到下麵的表,顯示了高(H)和z分數計算的例子更好的理解:

高度H	z分數
1.5895	-0.34603
1.6508	-0.31975
1.7131	-0.29301
1.7136	-0.29283
1.7212	-0.28954
1.7296	-0.28595
1.7343	-0.28394
1.7663	-0.2702
1.8018	-0.25501
10.8135	3.691

拋出的異常值出現在數據的z得分,因為它膨脹平均值和標準偏差批評性思維如何所有的z分數是負麵的,除了離群值的值。如果您的數據集包含異常值,z值是有偏見的,他們似乎不太接近於零。

使用四分位範圍創建例外柵欄

局外人箱線圖是一種變異的骨骼箱線圖,而是擴展到最小值和最大值,胡須擴展到最遙遠的觀察在1.5 X從四分位差。離群值附近可能被確定為觀察超過1.5 x從四分位差,和可能的異常值為觀察進一步比3.0 x從四分位差。任何一組數據可以描述的five-number總結。這五個數字,給你信息你需要找到模式和異常值,包括(按升序):