附 錄A 正態(tài)樣本異常值的判斷及處理方法——狄克遜準則
在一組重復測量數(shù)據(jù)中,若有個別數(shù)據(jù)與其他的有明顯差異,則很可能含有粗大誤差,稱其為可疑數(shù)據(jù),需要對這些異常值做出正確的判斷和處理。通常采用統(tǒng)計的方法進行判別,統(tǒng)計方法處理的基本思想是:給定一個顯著性水平,按一定分布確定一個臨界值, 凡超過這個界限的誤差,則認為它是異常值,應予以剔除。
本附錄介紹一種常用的正態(tài)樣本異常值的判斷和處理方法——狄克遜準則。該方法僅限于對正態(tài)或近似正態(tài)的樣本數(shù)據(jù)進行判別,適用于樣本量為3~30、總體中含有一個以上異常值的情況。
狄克遜準則,是狄克遜(Dixon)在1950年提出的一種不需要估算平均值 和標準差 S便能判斷總體中含有異常值的方法,它根據(jù)測量數(shù)據(jù)按大小排列后的順序差來判別粗大誤差,用狄克遜準則判斷樣本數(shù)據(jù)中混有一個以上異常值的情形效果較好。以下介紹常用的狄克遜雙側檢驗準則。
設正態(tài)測量總體的一組樣為x1,x2,...xn,,按大小順序排列為:
構造檢驗高端異常值和低端異常值的統(tǒng)計量,分以下幾種情形:
以上的r10,,…,r22,簡記為rij和 。狄克遜認為對不同的測量次數(shù),應選用不同的統(tǒng)計量rij, 才能達到良好的效果。狄克遜導出了它們的概率密度函數(shù)。在選定顯著性水平D(α,n) 下,求得臨界值D(α,n), 見表A-1。
表A-1 狄克遜雙側檢驗的臨界值
n | 統(tǒng)計量 | α=0.05 | α=0.01 |
3 |
r10和中較大者 | 0.970 | 0.994 |
4 | 0.829 | 0.926 | |
5 | 0.710 | 0.821 | |
6 | 0.628 | 0.740 | |
7 | 0.569 | 0.680 | |
8 |
r11和中較大者 | 0.608 | 0.717 |
9 | 0.564 | 0.672 | |
10 | 0.530 | 0.635 | |
11 |
r21和 中較大者 | 0.619 | 0.709 |
12 | 0.583 | 0.660 | |
13 | 0.557 | 0.638 | |
14 |
r22和中較大者 | 0.586 | 0.670 |
15 | 0.565 | 0.647 | |
16 | 0.546 | 0.627 | |
17 |
r22和中較大者 | 0.529 | 0.610 |
18 | 0.514 | 0.594 | |
19 | 0.501 | 0.580 | |
20 | 0.489 | 0.567 | |
21 | 0.478 | 0.555 | |
22 | 0.468 | 0.544 | |
23 | 0.459 | 0.535 | |
24 | 0.451 | 0.526 | |
25 | 0.443 | 0.517 | |
26 | 0.436 | 0.510 | |
27 | 0.429 | 0.502 | |
28 | 0.423 | 0.495 | |
29 | 0.417 | 0.489 | |
30 | 0.412 | 0.483 |
若
rij>,rij>D(α,n)
則判斷為異常值,予以剔除;
若
rij<,>D(α,n)
則判斷為異常值,予以剔除; 否則,判斷沒有異常值。
重復上述步驟,便可剔除一個以上的異常值。