肖維涅準則

在統計理論中，蕭文納準則（以威廉·蕭文納命名）是一種評估方法，用以判斷一組觀測數據中的某個實驗數據點是否可能為可疑數據——即離群值。

推導

蕭文納準則背後的概念，是尋找一個以常態分佈平均值為中心、能合理包含所有 n 個樣本的機率區間。如此一來，任何落在該機率區間之外的數據點，即可視為離群值並從數據集中移除，然後根據剩餘的數值與新的樣本數，重新計算平均值與標準差。識別離群值的方法，是先找出對應平均值周圍機率區間邊界的標準差倍數（ D_{\mathrm{max}} ），再將此值與「可疑離群值和平均值之差的絕對值」除以「樣本標準差」後所得的值（公式1）進行比較。

其中

D_{\mathrm{max}} 為最大容許偏差，
| \cdot | 為絕對值，
x 為可疑離群值之值，
\bar x 為樣本平均值，且
s_x 為樣本標準差。

為了涵蓋樣本中所有的 n 個觀測值，此機率區間（以平均值為中心）必須包含 n-\tfrac12 個樣本（若 n=3 ，則機率區間內必須包含 2.5 個樣本）。現實中，樣本數不可能為部分值，因此 n-\tfrac12 （當 n=3 時為 2.5）近似於 n 。任何小於 n-\tfrac12 的值則近似於 n-1 （當 n=3 時為 2），這是不成立的，因為我們的目標是找出包含 n 個觀測值的機率區間，而非 n-1 個樣本。簡言之，我們尋求的機率 P 等於 n 個樣本中的 n-\tfrac12 （公式2）。

其中

P 為以樣本平均值為中心的機率區間，且
n 為樣本數。

數值 \tfrac1{2n} 對應於常態分佈中，落在機率區間 P 之外的兩條尾端的組合機率。為了找出與 P 相關的標準差水準，由於常態分佈的對稱性，僅需分析其中一條尾端的機率即可（公式3）。

其中

P_z 為常態分佈單側尾端所代表的機率，且
n = 樣本數。

公式1類似於 Z 分數方程式（公式4）。

其中

Z 為 Z 分數，
x 為樣本值，
\mu=0 為標準常態分佈的平均值，且
\sigma=1 為標準常態分佈的標準差。

根據公式4，欲求 D_{\mathrm{max}} （公式1），可在 Z 分數表中找出對應於 P_z 的 z-score。 D_{\mathrm{max}} 等於對應 P_z 的 z-score。使用此方法，可針對任何樣本數確定 D_{\mathrm{max}} 。在 Excel 中，可使用以下公式求得 D_{\mathrm{max}} ：=ABS(NORM.S.INV(1/(4n)))。

計算

應用蕭文納準則時，首先計算觀測數據的平均值與標準差。根據可疑數據點與平均值的差異程度，使用常態分佈函數（或其對照表）來確定任一數據點會落在該可疑數據點數值的機率。將此機率乘以所採集的數據點總數。若結果小於 0.5，則可捨棄該可疑數據點。換言之，若觀測值與平均值出現特定偏差的機率小於 \tfrac1{2n} ，則可將該讀數剔除。

範例

例如，假設某數值在數次實驗中測得 9、10、10、10、11 及 50，而我們想判斷 50 是否為離群值。

首先，我們求出 P_z 。

P_z = 1-\frac1{4n}=1-\frac1{4\times6}=1-\frac1{24}\approx.9583

接著，我們將 P_z 代入分位數函數，求出 D_{max} 。

D_{max}=Q(P_z)\approx1.7317

然後，我們求出 50 的 z-score。

z=\frac{50-\bar x}{s_x}=\frac{50-16.67}{16.34}\approx2.04

由此可見 z>D_{max} ，因此根據蕭文納準則，可判定 50 為離群值。

皮爾斯準則

另一種剔除可疑數據的方法稱為皮爾斯準則。它在蕭文納準則發表前幾年即已發展出來，是一種更嚴謹地、合理地刪除離群數據的方法。其他方法，如用於檢定離群值的格拉布斯檢定法，則在「離群值」條目下有所提及。

批評

刪除離群數據是一種具爭議性的作法，不受許多科學家與科學教師的認同；儘管蕭文納準則為數據剔除提供了一套客觀且量化的方法，但它並未使此作法在科學上或方法論上更為健全，尤其是在小樣本或無法假設為常態分佈的情況下。在某些實務領域中，若能量測過程的基礎模型以及量測誤差的常態分佈是可信且已知的，那麼剔除離群值就較能被接受。

參考資料

參考書目

Taylor, John R. An Introduction to Error Analysis. 2nd edition. Sausalito, California: University Science Books, 1997. pp 166–8.
Barnett, Vic and Lewis, Toby. "Outliers in Statistical Data". 3rd edition. Chichester: J.Wiley and Sons, 1994. .
Aicha Zerbet, Mikhail Nikulin. A new statistics for detecting outliers in exponential case, Communications in Statistics: Theory and Methods, 2003, v.32, pp. 573–584.

蕭文納 Category:統計離群值