檢視肖維涅準則的原始碼

在統計理論中，'''蕭文納準則'''（以威廉·蕭文納命名）是一種評估方法，用以判斷一組觀測數據中的某個實驗數據點是否可能為可疑數據——即離群值。

==推導==
蕭文納準則背後的概念，是尋找一個以常態分佈平均值為中心、能合理包含所有 n 個樣本的機率區間。如此一來，任何落在該機率區間之外的數據點，即可視為離群值並從數據集中移除，然後根據剩餘的數值與新的樣本數，重新計算平均值與標準差。識別離群值的方法，是先找出對應平均值周圍機率區間邊界的標準差倍數（ D_{\mathrm{max}} ），再將此值與「可疑離群值和平均值之差的絕對值」除以「樣本標準差」後所得的值（公式1）進行比較。

其中
*  D_{\mathrm{max}}  為最大容許偏差，
*  | \cdot |  為絕對值，
*  x  為可疑離群值之值，
*  \bar x  為樣本平均值，且
*  s_x  為樣本標準差。

為了涵蓋樣本中所有的  n  個觀測值，此機率區間（以平均值為中心）必須包含  n-\tfrac12  個樣本（若  n=3 ，則機率區間內必須包含 2.5 個樣本）。現實中，樣本數不可能為部分值，因此  n-\tfrac12 （當  n=3  時為 2.5）近似於  n 。任何小於  n-\tfrac12  的值則近似於  n-1 （當  n=3  時為 2），這是不成立的，因為我們的目標是找出包含  n  個觀測值的機率區間，而非  n-1  個樣本。簡言之，我們尋求的機率  P  等於  n  個樣本中的  n-\tfrac12 （公式2）。

其中
*  P  為以樣本平均值為中心的機率區間，且
*  n  為樣本數。

數值  \tfrac1{2n}  對應於常態分佈中，落在機率區間  P  之外的兩條尾端的組合機率。為了找出與  P  相關的標準差水準，由於常態分佈的對稱性，僅需分析其中一條尾端的機率即可（公式3）。

其中
*  P_z  為常態分佈單側尾端所代表的機率，且
*  n  = 樣本數。

公式1類似於  Z  分數方程式（公式4）。

其中
*  Z  為  Z  分數，
*  x  為樣本值，
*  \mu=0  為標準常態分佈的平均值，且
*  \sigma=1  為標準常態分佈的標準差。

根據公式4，欲求  D_{\mathrm{max}} （公式1），可在  Z  分數表中找出對應於  P_z  的 z-score。 D_{\mathrm{max}}  等於對應  P_z  的 z-score。使用此方法，可針對任何樣本數確定  D_{\mathrm{max}} 。在 Excel 中，可使用以下公式求得  D_{\mathrm{max}} ：=ABS(NORM.S.INV(1/(4n)))。

==計算==
應用蕭文納準則時，首先計算觀測數據的平均值與標準差。根據可疑數據點與平均值的差異程度，使用常態分佈函數（或其對照表）來確定任一數據點會落在該可疑數據點數值的機率。將此機率乘以所採集的數據點總數。若結果小於 0.5，則可捨棄該可疑數據點。換言之，若觀測值與平均值出現特定偏差的機率小於  \tfrac1{2n} ，則可將該讀數剔除。

==範例==
例如，假設某數值在數次實驗中測得 9、10、10、10、11 及 50，而我們想判斷 50 是否為離群值。

首先，我們求出  P_z 。

 P_z = 1-\frac1{4n}=1-\frac1{4\times6}=1-\frac1{24}\approx.9583   

接著，我們將  P_z  代入分位數函數，求出  D_{max} 。

 D_{max}=Q(P_z)\approx1.7317 

然後，我們求出 50 的 z-score。

 z=\frac{50-\bar x}{s_x}=\frac{50-16.67}{16.34}\approx2.04 

由此可見  z>D_{max} ，因此根據蕭文納準則，可判定 50 為離群值。

==皮爾斯準則==
另一種剔除可疑數據的方法稱為''皮爾斯準則''。它在蕭文納準則發表前幾年即已發展出來，是一種更嚴謹地、合理地刪除離群數據的方法。其他方法，如用於檢定離群值的格拉布斯檢定法，則在「離群值」條目下有所提及。

==批評==
刪除離群數據是一種具爭議性的作法，不受許多科學家與科學教師的認同；儘管蕭文納準則為數據剔除提供了一套客觀且量化的方法，但它並未使此作法在科學上或方法論上更為健全，尤其是在小樣本或無法假設為常態分佈的情況下。在某些實務領域中，若能量測過程的基礎模型以及量測誤差的常態分佈是可信且已知的，那麼剔除離群值就較能被接受。

==參考資料==

==參考書目==
* Taylor, John R.  An Introduction to Error Analysis.  2nd edition.  Sausalito, California: University Science Books, 1997. pp 166–8.
* Barnett, Vic and Lewis, Toby. "Outliers in Statistical Data". 3rd  edition. Chichester: J.Wiley and Sons, 1994. .
*Aicha Zerbet, Mikhail Nikulin. A new statistics for detecting outliers in exponential case, Communications in Statistics: Theory and Methods, 2003, v.32, pp. 573–584.

蕭文納
Category:統計離群值

[[分類: 待校正]]