スミルノフ・グラブス検定は、正規分布を仮定した標本において、最大値または最小値が外れ値かどうか判定する検定の一つである。
外れ値を除去する際、外れ値を一つずつ検証することよりも、外れ値がすべて除去されたデータだけがほしいときもあるのではないだろうか。
ここでは、正規分布を仮定したデータからスミルノフ・グラブス検定を繰り返し用いて外れ値を除去するソースコードをご紹介する。
このソースコードは、次のサイトのソースコードを参考にさせていただいた。
さっそくだが、スミルノフ・グラブス検定を繰り返し用いて外れ値を除去するソースコードは次になる。
remove.outliers <- function(x, conf.level = 0.95)
{
x <- x[!is.na(x)]
del.val <- NULL
while (TRUE) {
n <- length(x)
if (n < 3) {
break
}
r <- range(x)
t <- abs(r - mean(x)) / sd(x)
q <- sqrt((n - 2) / ((n - 1) ^ 2 / t ^ 2 / n - 1))
p <- n * pt(q, n - 2, lower.tail = FALSE)
if (t[1] < t[2]) {
if (p[2] < 1 - conf.level) {
del.val <- c(del.val, r[2])
x <- x[x != r[2]]
next
}
} else {
if (p[1] < 1 - conf.level) {
del.val <- c(del.val, r[1])
x <- x[x != r[1]]
next
}
}
break
}
return(list(x = x, del.val = del.val))
}
参考にさせていただいたサイトにあるデータで試すと、次のようになり結果は一致する。
> x <- c(133, 134, 134, 134, 135, 135, 139, 140, 140, 140,
141, 142, 142, 144, 144, 147, 147, 149, 150, 164)
> remove.outliers(x)
$x
[1] 133 134 134 134 135 135 139 140 140 140 141 142 142 144 144 147 147 149 150
$del.val
[1] 164
このデータに対して極端な値を追加して試すと、次のようになり、外れ値がすべて除去されたデータだけが手に入る。
> x <- c(-100, -50, 133, 134, 134, 134, 135, 135, 139, 140, 140, 140,
141, 142, 142, 144, 144, 147, 147, 149, 150, 164, 200, 300)
> remove.outliers(x)
$x
[1] 133 134 134 134 135 135 139 140 140 140 141 142 142 144 144 147 147 149 150
$del.val
[1] -100 -50 300 200 164
関連する記事
R スミルノフ・グラブス検定を繰り返し用いて外れ値を除去する方法