跳至內容

肖維涅準則

出自Taiwan Tongues 繁中維基
於 2025年9月25日 (四) 17:07 由 TaiwanTonguesApiRobot留言 | 貢獻 所做的修訂 (從 JSON 檔案批量匯入)

(差異) ←上個修訂 | 已批准修訂 (差異) | 最新修訂 (差異) | 下個修訂→ (差異)

在統計理論中,蕭文納準則(以威廉·蕭文納命名)是一種評估方法,用以判斷一組觀測數據中的某個實驗數據點是否可能為可疑數據——即離群值。

推導

蕭文納準則背後的概念,是尋找一個以常態分佈平均值為中心、能合理包含所有 n 個樣本的機率區間。如此一來,任何落在該機率區間之外的數據點,即可視為離群值並從數據集中移除,然後根據剩餘的數值與新的樣本數,重新計算平均值與標準差。識別離群值的方法,是先找出對應平均值周圍機率區間邊界的標準差倍數( D_{\mathrm{max}} ),再將此值與「可疑離群值和平均值之差的絕對值」除以「樣本標準差」後所得的值(公式1)進行比較。

其中

  • D_{\mathrm{max}} 為最大容許偏差,
  • | \cdot | 為絕對值,
  • x 為可疑離群值之值,
  • \bar x 為樣本平均值,且
  • s_x 為樣本標準差。

為了涵蓋樣本中所有的 n 個觀測值,此機率區間(以平均值為中心)必須包含 n-\tfrac12 個樣本(若 n=3 ,則機率區間內必須包含 2.5 個樣本)。現實中,樣本數不可能為部分值,因此 n-\tfrac12 (當 n=3 時為 2.5)近似於 n 。任何小於 n-\tfrac12 的值則近似於 n-1 (當 n=3 時為 2),這是不成立的,因為我們的目標是找出包含 n 個觀測值的機率區間,而非 n-1 個樣本。簡言之,我們尋求的機率 P 等於 n 個樣本中的 n-\tfrac12 (公式2)。

其中

  • P 為以樣本平均值為中心的機率區間,且
  • n 為樣本數。

數值 \tfrac1{2n} 對應於常態分佈中,落在機率區間 P 之外的兩條尾端的組合機率。為了找出與 P 相關的標準差水準,由於常態分佈的對稱性,僅需分析其中一條尾端的機率即可(公式3)。

其中

  • P_z 為常態分佈單側尾端所代表的機率,且
  • n = 樣本數。

公式1類似於 Z 分數方程式(公式4)。

其中

  • Z 為 Z 分數,
  • x 為樣本值,
  • \mu=0 為標準常態分佈的平均值,且
  • \sigma=1 為標準常態分佈的標準差。

根據公式4,欲求 D_{\mathrm{max}} (公式1),可在 Z 分數表中找出對應於 P_z 的 z-score。 D_{\mathrm{max}} 等於對應 P_z 的 z-score。使用此方法,可針對任何樣本數確定 D_{\mathrm{max}} 。在 Excel 中,可使用以下公式求得 D_{\mathrm{max}} :=ABS(NORM.S.INV(1/(4n)))。

計算

應用蕭文納準則時,首先計算觀測數據的平均值與標準差。根據可疑數據點與平均值的差異程度,使用常態分佈函數(或其對照表)來確定任一數據點會落在該可疑數據點數值的機率。將此機率乘以所採集的數據點總數。若結果小於 0.5,則可捨棄該可疑數據點。換言之,若觀測值與平均值出現特定偏差的機率小於 \tfrac1{2n} ,則可將該讀數剔除。

範例

例如,假設某數值在數次實驗中測得 9、10、10、10、11 及 50,而我們想判斷 50 是否為離群值。

首先,我們求出 P_z 。

P_z = 1-\frac1{4n}=1-\frac1{4\times6}=1-\frac1{24}\approx.9583   

接著,我們將 P_z 代入分位數函數,求出 D_{max} 。

D_{max}=Q(P_z)\approx1.7317 

然後,我們求出 50 的 z-score。

z=\frac{50-\bar x}{s_x}=\frac{50-16.67}{16.34}\approx2.04 

由此可見 z>D_{max} ,因此根據蕭文納準則,可判定 50 為離群值。

皮爾斯準則

另一種剔除可疑數據的方法稱為皮爾斯準則。它在蕭文納準則發表前幾年即已發展出來,是一種更嚴謹地、合理地刪除離群數據的方法。其他方法,如用於檢定離群值的格拉布斯檢定法,則在「離群值」條目下有所提及。

批評

刪除離群數據是一種具爭議性的作法,不受許多科學家與科學教師的認同;儘管蕭文納準則為數據剔除提供了一套客觀且量化的方法,但它並未使此作法在科學上或方法論上更為健全,尤其是在小樣本或無法假設為常態分佈的情況下。在某些實務領域中,若能量測過程的基礎模型以及量測誤差的常態分佈是可信且已知的,那麼剔除離群值就較能被接受。

參考資料

參考書目

  • Taylor, John R. An Introduction to Error Analysis. 2nd edition. Sausalito, California: University Science Books, 1997. pp 166–8.
  • Barnett, Vic and Lewis, Toby. "Outliers in Statistical Data". 3rd edition. Chichester: J.Wiley and Sons, 1994. .
  • Aicha Zerbet, Mikhail Nikulin. A new statistics for detecting outliers in exponential case, Communications in Statistics: Theory and Methods, 2003, v.32, pp. 573–584.

蕭文納 Category:統計離群值