按域名瀏覽

什麼是異常值檢測|異常值檢測的定義

由:Saurabh古普塔

數據科學家的主要任務是將模型應用於數據,在某些時候,您肯定會遇到包含異常值的數據集。異常值隻是超出預期分布或模式的數據點或觀察值。例如,如果我們用泊鬆分布來近似數據,那麼異常值就是不符合泊鬆分布模式的觀測值。

當選擇線性回歸模型時,這也可以類似地概念化,殘差圖表明少量觀測值/數據點與圖中大多數點的其餘點有很大不同。

離群值檢測通常在數據科學項目管理過程的探索性數據分析階段執行,我們處理它們的決定決定了模型對手頭業務問題的表現是好是壞。模型以及整個工作流程都會受到異常值的影響。

它們在分析數據時至關重要,至少有兩個原因:

  1. 異常值可能會對整個分析結果產生負麵的偏倚。
  2. 異常值的行為可能正是您所追求的,這時您需要與領域專家進行討論。

在繼續進行模型構建之前,首先檢測並去除數據中的異常值變得非常重要。這無疑將有助於最終建立一個高效的模型。

異常值的類型

  1. 第一類-全局
  2. 類型2 -上下文
  3. 第三類-集體

1.全球離群值

也被稱為“點異常”,是一種明顯偏離其餘數據的異常值。如果度量偏離了數據的分布,而不考慮特征,那麼它將被稱為全局離群值,因為該度量遠遠偏離了全局分布。它是最簡單的離群值類型,在大多數情況下都可以找到。

全局離群值通過表示其離群值而區別於其他數據點。它可以通過考慮一個真實的示例數據集來更好地解釋信用卡欺詐檢測,其中包含持有信用卡的銀行客戶的交易數據。如果我們將客戶的每日交易金額視為屬性之一,那麼與個人支出的正常範圍相比金額非常高的交易將被視為點或全局離群值。

2.上下文的異常值

如果數據實例在特定上下文中是異常的,那麼它將被稱為上下文離群值或條件離群值。因此,與一組顯著較大的觀測值相比,上下文離群值本身代表一小組離群值(具有一些相似的特征)。但是,在不同的上下文中,該值可能被視為正常值。

上下文的概念是由數據集的結構引起的,應該作為問題表述的一部分加以指定。應用上下文離群值技術的選擇是由必須應用上下文離群值的目標域中的意義決定的。

3.集體的離群值

當數據集中觀測值的子集(作為一個集合)顯著偏離整個數據集時,它被稱為集合離群值。集體離群值中的每個實例也不一定是離群值。在尋找異常值檢測時,牢記上下文是非常重要的,因為有時,給定研究的上下文,一個點或集體異常值也可能是上下文異常值。

異常值檢測的挑戰

1.有效的識別

離群值定義是一項高度主觀的任務,依賴於領域和應用場景。正常觀察和異常值之間的灰色區域通常非常小,甚至一點無知都可能導致將可能的異常值視為正常觀察,反之亦然。因此,我們在選擇異常值檢測方法來處理異常值時必須非常謹慎。

2.特定於應用程序的挑戰

如前所述,選擇相似度或距離度量和關係模型來描述數據對象在離群值檢測中是至關重要的。不幸的是,它們通常依賴於應用程序。不同的應用程序可能有非常不同的需求;例如,來自醫療領域的數據集可能有異常值,甚至與數據集的其餘部分略有偏差。因此,必須開發專用於特定應用的個別離群值檢測方法。

3.處理噪聲

數據中的噪聲往往與實際異常值相似,因此很難將其與惡意異常值區分和去除。我們必須明白,異常值和噪聲是兩個不同的實體,彼此不同。由於噪聲通常不可避免地存在於收集到的各種數據中,通過模糊正常觀測和異常值之間的差異,它會給異常值檢測帶來很多挑戰。噪聲隱藏了離群點目標,從而降低了離群點檢測算法的有效性。

異常值檢測方法

1.統計方法

簡單地從單變量數據的可視化分析開始,使用箱線圖、散點圖、晶須圖等,可以幫助找到數據中的極端值。假設正態分布,計算z分數,這意味著標準差(σ)乘以數據點來自樣本的平均值。因為我們從經驗法則中知道,68%的數據落在一個標準差之內,95%落在兩個標準差之內,99.7%落在三個標準差之內,我們可以將超過三倍標準差的數據點識別為異常值。另一種方法是使用四分位數範圍(IQR)作為標準,並處理第一或第三四分位數1.5倍範圍之外的異常值。

2.接近的方法

基於鄰近性的方法部署聚類技術來識別數據中的聚類並找出每個聚類的質心。他們假設一個對象是一個離群值,如果該對象的最近鄰居在特征空間中很遠;也就是說,在同一數據集中,對象與其鄰居的接近度顯著地偏離了大多數其他對象與其鄰居的接近度。通常的方法如下-固定一個閾值並評估每個數據點到聚類中心的距離,然後刪除離群數據點並繼續建模。

這類模型的成功很大程度上取決於用作距離度量的度量標準。缺點是,對於某些特定的問題類型,找到正確的距離測量可能是一個挑戰。另一個缺點是,當一組離群值彼此接近時,它就不那麼準確了。

基於鄰近性的方法分為兩類:基於距離的方法根據數據點與鄰居的距離來判斷數據點。基於密度的基於局部密度確定每個數據實例的輪廓度。DBScan, k-means和分層聚類技術是基於密度的離群值檢測方法的例子。

3.投影方法

投影方法利用PCA等技術,使用線性相關將數據建模為低維子空間。之後,計算每個數據點到適合子空間的平麵的距離。這個距離可以用來尋找異常值。投影方法簡單且易於應用,可以突出顯示不相關的值。

基於pca的方法通過分析可用的特征來解決問題,以確定構成“正常”類的是什麼。然後,該模塊應用距離度量來識別代表異常的情況。

總結

巨大的數據,具有多方麵的屬性和設備/設備的存儲,每一秒都在多個行業中生成和捕獲。如果使用適當的工具和技術進行處理、分析和理解,這些數據具有難以置信的業務價值。但說起來容易做起來難,因為數據會帶來許多隱藏的不一致,這可能會在很大程度上影響整個過程和分析。

異常值是數據中非常自然的東西。它們可能具有隱藏的模式/含義,當揭示這些模式/含義時,可以提高模型的性能,因為從分析中刪除不必要的/錯誤的數據點,或者挖掘出否則無法揭示的模式。由於每種數據集都有不同類型的離群值,因此本文解釋了如何處理它們,並應用最佳技術來得出一個大大改進的結論。

想了解更多此類內容,請注冊beplay2018官网Great Learning Academy的免費在線課程今天提升技能吧!

《阿凡達》的照片
beplay2018官网優秀的學習團隊
beplay2018官网Great Learning的博客涵蓋了最新的技術發展和創新,可以用來建立有價值的職業生涯。你會找到職業指南、技術教程和行業新聞,讓自己跟上快速變化的技術和商業世界。

留下評論

你的電郵地址將不會公布。

與夢想的工作免費的印度最值得信賴的教育平台上的證書課程

滾動到頂部
Baidu
map