跳至內容
主選單
主選單
移至側邊欄
隱藏
導覽
首頁
近期變更
隨機頁面
MediaWiki說明
Taiwan Tongues 繁中維基
搜尋
搜尋
外觀
建立帳號
登入
個人工具
建立帳號
登入
檢視 肖維涅準則 的原始碼
頁面
討論
臺灣正體
閱讀
檢視原始碼
檢視歷史
工具
工具
移至側邊欄
隱藏
操作
閱讀
檢視原始碼
檢視歷史
一般
連結至此的頁面
相關變更
特殊頁面
頁面資訊
外觀
移至側邊欄
隱藏
←
肖維涅準則
由於以下原因,您無權編輯此頁面:
您請求的操作只有這些群組的使用者能使用:
使用者
、taigi-reviewer、apibot
您可以檢視並複製此頁面的原始碼。
在統計理論中,'''蕭文納準則'''(以威廉·蕭文納命名)是一種評估方法,用以判斷一組觀測數據中的某個實驗數據點是否可能為可疑數據——即離群值。 ==推導== 蕭文納準則背後的概念,是尋找一個以常態分佈平均值為中心、能合理包含所有 n 個樣本的機率區間。如此一來,任何落在該機率區間之外的數據點,即可視為離群值並從數據集中移除,然後根據剩餘的數值與新的樣本數,重新計算平均值與標準差。識別離群值的方法,是先找出對應平均值周圍機率區間邊界的標準差倍數( D_{\mathrm{max}} ),再將此值與「可疑離群值和平均值之差的絕對值」除以「樣本標準差」後所得的值(公式1)進行比較。 其中 * D_{\mathrm{max}} 為最大容許偏差, * | \cdot | 為絕對值, * x 為可疑離群值之值, * \bar x 為樣本平均值,且 * s_x 為樣本標準差。 為了涵蓋樣本中所有的 n 個觀測值,此機率區間(以平均值為中心)必須包含 n-\tfrac12 個樣本(若 n=3 ,則機率區間內必須包含 2.5 個樣本)。現實中,樣本數不可能為部分值,因此 n-\tfrac12 (當 n=3 時為 2.5)近似於 n 。任何小於 n-\tfrac12 的值則近似於 n-1 (當 n=3 時為 2),這是不成立的,因為我們的目標是找出包含 n 個觀測值的機率區間,而非 n-1 個樣本。簡言之,我們尋求的機率 P 等於 n 個樣本中的 n-\tfrac12 (公式2)。 其中 * P 為以樣本平均值為中心的機率區間,且 * n 為樣本數。 數值 \tfrac1{2n} 對應於常態分佈中,落在機率區間 P 之外的兩條尾端的組合機率。為了找出與 P 相關的標準差水準,由於常態分佈的對稱性,僅需分析其中一條尾端的機率即可(公式3)。 其中 * P_z 為常態分佈單側尾端所代表的機率,且 * n = 樣本數。 公式1類似於 Z 分數方程式(公式4)。 其中 * Z 為 Z 分數, * x 為樣本值, * \mu=0 為標準常態分佈的平均值,且 * \sigma=1 為標準常態分佈的標準差。 根據公式4,欲求 D_{\mathrm{max}} (公式1),可在 Z 分數表中找出對應於 P_z 的 z-score。 D_{\mathrm{max}} 等於對應 P_z 的 z-score。使用此方法,可針對任何樣本數確定 D_{\mathrm{max}} 。在 Excel 中,可使用以下公式求得 D_{\mathrm{max}} :=ABS(NORM.S.INV(1/(4n)))。 ==計算== 應用蕭文納準則時,首先計算觀測數據的平均值與標準差。根據可疑數據點與平均值的差異程度,使用常態分佈函數(或其對照表)來確定任一數據點會落在該可疑數據點數值的機率。將此機率乘以所採集的數據點總數。若結果小於 0.5,則可捨棄該可疑數據點。換言之,若觀測值與平均值出現特定偏差的機率小於 \tfrac1{2n} ,則可將該讀數剔除。 ==範例== 例如,假設某數值在數次實驗中測得 9、10、10、10、11 及 50,而我們想判斷 50 是否為離群值。 首先,我們求出 P_z 。 P_z = 1-\frac1{4n}=1-\frac1{4\times6}=1-\frac1{24}\approx.9583 接著,我們將 P_z 代入分位數函數,求出 D_{max} 。 D_{max}=Q(P_z)\approx1.7317 然後,我們求出 50 的 z-score。 z=\frac{50-\bar x}{s_x}=\frac{50-16.67}{16.34}\approx2.04 由此可見 z>D_{max} ,因此根據蕭文納準則,可判定 50 為離群值。 ==皮爾斯準則== 另一種剔除可疑數據的方法稱為''皮爾斯準則''。它在蕭文納準則發表前幾年即已發展出來,是一種更嚴謹地、合理地刪除離群數據的方法。其他方法,如用於檢定離群值的格拉布斯檢定法,則在「離群值」條目下有所提及。 ==批評== 刪除離群數據是一種具爭議性的作法,不受許多科學家與科學教師的認同;儘管蕭文納準則為數據剔除提供了一套客觀且量化的方法,但它並未使此作法在科學上或方法論上更為健全,尤其是在小樣本或無法假設為常態分佈的情況下。在某些實務領域中,若能量測過程的基礎模型以及量測誤差的常態分佈是可信且已知的,那麼剔除離群值就較能被接受。 ==參考資料== ==參考書目== * Taylor, John R. An Introduction to Error Analysis. 2nd edition. Sausalito, California: University Science Books, 1997. pp 166–8. * Barnett, Vic and Lewis, Toby. "Outliers in Statistical Data". 3rd edition. Chichester: J.Wiley and Sons, 1994. . *Aicha Zerbet, Mikhail Nikulin. A new statistics for detecting outliers in exponential case, Communications in Statistics: Theory and Methods, 2003, v.32, pp. 573–584. 蕭文納 Category:統計離群值 [[分類: 待校正]]
返回到「
肖維涅準則
」。