Stein의 역설과 James–Stein 추정량을 통해, 왜 고차원에서 최대우도추정(MLE)이 더 이상 “최선”이 아니며 수축(shrinkage)과 편향–분산 균형이 왜 중요한지 설명하겠습니다.
거의 절대적인 위치였던 최대우도추정 이론
1. Stein의 역설과 문제 설정
1961년 Stein의 결과는, 그전까지 거의 절대적인 위치였던 최대우도추정 이론에 정면으로 도전하며 통계학계를 충격에 빠뜨린 결과로 소개됩니다.
설정: 서로 독립인 정규분포 여러 개에서, 각 분포의 평균 $\mu_i$를 한 번씩 샘플 $X_i$만 보고 추정하는 문제를 다룹니다.
1차원·2차원에서는 “그냥 관측값 그대로 쓰는” $\hat\mu_i = X_i$ 가 여러 의미에서 최선으로 여겨지며, MLE 이론도 이를 지지합니다.
하지만 $p \ge 3$ 차원에서는, 이 자연스러운 추정량을 항상 이기는 다른 추정량이 존재하고, 이게 바로 James–Stein 추정량이라는 점이 역설적으로 느껴지는 핵심입니다.
Best Estimator
2. “최선의 추정량”과 MSE·지배 개념
영상에서는 추정량의 성능을 평균제곱오차(MSE) 로 정의합니다.
오차: $\hat\mu - \mu$ 혹은 다변량일 때는 벡터 차이의 노름.
MSE: 이 오차의 제곱을 평균한 값 $E|\hat\mu - \mu|^2$.
1차원 예시에서
보통 추정량 $\hat\mu = X$의 MSE는 분산과 같아서 1(분산 1 가정 시)이고, $\mu$에 의존하지 않습니다.
“무조건 7이라고 추정하는” 나이브 추정량은 MSE가 $(7-\mu)^2$로 $\mu$에 따라 바뀌고, $\mu$가 7 근처면 오히려 더 잘 작동하기도 합니다.
이에 기반해
어떤 추정량 A의 MSE가 모든 $\mu$에서 다른 추정량 B보다 작거나 같고, 적어도 한 점에서는 더 작으면 “A가 B를 지배(dominates) 한다”고 합니다.
어떤 추정량이 더 좋은 다른 추정량에게 지배당하지 않으면 admissible 이라고 부릅니다.
이 기준으로 1·2차원에서는 $\hat\mu = X$가 admissible인 반면, $p \ge 3$에서는 James–Stein 추정량이 이를 지배하여 $\hat\mu = X$가 더 이상 admissible이 아니게 됩니다.
그 그림에서 화살표가 가리키는 건 “한쪽 길이”처럼 보이지만, 분산 자체는 양쪽 퍼짐 전체를 반영하는 값 입니다.
분산의 정확한 의미 - 분산은 Var(X)=E[(X−μ) 2 ]로, 평균에서 얼마나 멀리 흩어져 있는지의 제곱 평균을 말합니다. - 대칭인 정규분포에서는 왼쪽·오른쪽 모두에서의 흩어짐이 같이 들어가 있어서, “반쪽 퍼짐”이 아니라 전체 퍼짐을 숫자 하나로 요약한 정도입니다.
그림에서 화살표가 의미하는 것 - 영상 속 보라색 화살표는 “표준편차가 1인 정규분포”라는 사실을 시각적으로 보여 주려고, 평균에서 한쪽 방향으로 길이 1만큼을 그려 둔 것뿐입니다. - 표준편차 1은 “양쪽으로 평균에서 대략 1 정도 떨어진 곳에 데이터가 많이 모여 있다”는 뜻이고, 그 제곱이 분산 1입니다.
정리 - 분산: 양쪽 전체 퍼짐을 반영하는 전역적인 퍼짐 정도. - 그림의 한쪽 화살표: “표준편차가 1이다”를 보여 주는 시각적 도구일 뿐, 분산이 반쪽만 의미한다는 뜻은 아닙니다.
3. James–Stein 추정량과 수축 직관
James–Stein 추정량은 $p \ge 3$에 대해 다음과 같이 정의됩니다.
$$ \hat\mu_{JS}(X) = \left(1 - \frac{p-2}{|X|^2}\right) X $$
$|X|^2 = \sum_i X_i^2$이며, 앞의 계수는 보통 0과 1 사이라서 $X$를 원점(0) 쪽으로 수축(shrinkage) 하는 역할을 합니다.
놀라운 점은, 각 $X_i$가 서로 독립인 분포에서 나온 값인데도, $\mu_1$을 추정할 때 $\mu_2,\dots,\mu_p$의 데이터까지 모두 들어간 $|X|^2$가 계수에 사용된다는 점입니다.
영상에서는 2차원·3차원 그림을 통해 수축의 기하학적 직관을 설명합니다.[
진짜 평균 $\mu$를 평면의 한 점으로 보고, 관측값 $X$는 그 주변의 원형(혹은 구형)으로 퍼져 있는 점으로 생각합니다.
원점 쪽으로 조금씩 끌어당기면, “멀리 있는 점들”은 원점과 $\mu$가 둘 다 멀리 있는 경우가 많아서 오히려 $\mu$에 더 가까워지고, “원점 근처의 점들”은 $\mu$에서 더 멀어지는 손해를 봅니다.
결국
멀리 있는 영역(파란 영역) 에서는 수축으로 거리가 줄어드는 경우가 넓은 부피를 차지하고,
근처 영역(녹색 영역) 에서는 거리가 늘어나지만 공간적으로 상대적으로 작습니다.
고차원에서는 바깥쪽 껍질의 부피가 폭발적으로 커지므로, 전체 평균 거리(즉 MSE)를 줄이는데 수축이 훨씬 유리해집니다.
를 직접 적분으로 정의한 뒤, 정규분포의 밀도 함수 $\phi(x_1-\mu_1)$와 곱해 적분합니다.
이때 $(x_1 - \mu_1)\exp(-(x_1-\mu_1)^2/2)$가 지수함수의 미분으로부터 나오는 구조를 이용하여, 부분적분을 적용할 수 있게 만들고, $x_1/|x|^2$를 $u$로 잡는 방식으로 적분을 정리합니다.
부분적분 후 경계항은 정규분포 꼬리가 0으로 수렴하므로 사라지고, 남는 항은 $x_1/|x|^2$의 도함수를 포함한 새 적분으로 바뀝니다.
이 과정을 거치면, 원래의 적분이 다시 하나의 기대값 형태로 바뀌는데, 이때 integrand가 $\partial (x_1/|x|^2)/\partial x_1$이므로, 이를 모든 $i$에 대해 합하고 선형성을 이용해 합과 기대를 바꾸면 전체 합이 $(p-2)E(1/|X|^2)$에 해당하는 형태가 됩니다.
즉, 각 좌표별 적분을 합친 결과가 결국 $(p-2)E(1/|X|^2)$가 되어, 위에서 나온 $(p-2)^2 E(1/|X|^2)$ 항과 조합되어 최종적으로 $- (p-2)^2 E(1/|X|^2)$가 추가되는 구조를 완성합니다.
왜 p≥3에서만 성립하는가
이제 남은 핵심은 $E(1/|X|^2)$가 실제로 잘 정의되고 유한한지 여부이며, 이 부분이 차원 조건 $p \ge 3$과 직결됩니다.
$p=1$일 때 $|X|^2 = X^2$이고, $E(1/X^2)$는 $x=0$ 근처에서 적분이 발산합니다. 즉, $1/x^2$ 특이점 때문에 기대값이 존재하지 않습니다.
$p=2$일 때 $|X|^2 = r^2$로 두고 극좌표로 바꾸면, integrand에 $1/r^2$가 등장하고, 야코비안에서 $r$이 나와서 전체적으로 $1/r$ 꼴이 되어 여전히 $r=0$ 근처에서 적분이 수렴하지 않습니다.
반면 $p=3$ 이상에서는 상황이 바뀝니다.
구면좌표에서 야코비안이 $r^{p-1}\sin(\theta_1)\cdots$ 형태이므로, integrand에 있는 $1/r^2$와 곱하면 전체적으로 $r^{p-3}$ 항이 생깁니다.
$p \ge 3$이면 $p-3 \ge 0$이므로 $r=0$ 근처에서도 적분이 수렴하고, 따라서 $E(1/|X|^2)$는 유한하게 잘 정의됩니다.
이로부터 다음이 결론으로 따라옵니다.
MLE의 MSE는 항상 $p$입니다.
James–Stein 추정량의 MSE는 $p - (p-2)^2 E(1/|X|^2)$로, $p \ge 3$이면 $E(1/|X|^2) > 0$이고 유한하므로, MSE가 엄밀히 더 작습니다.
그러나 $p=1,2$에서는 $E(1/|X|^2)$가 발산해 위 공식이 성립하지 않고, 이 차원에서는 MLE가 여전히 admissible 하다는 고전적인 결과와 일치합니다.
정리: 수축과 차원의 역할
영상은 마지막에, James–Stein 추정량이 단순히 각 좌표를 독립적으로 추정하는 대신 전체 길이 $|X|$ 를 이용해 한 번에 수축(shrinkage)시키는 방식이라는 점을 강조합니다.
이 “공유 정보” 덕분에 전체 MSE 관점에서 MLE를 지배(dominates)하지만, 그 대가로 편향이 생기고, 그 편향이 고차원에서 더 잘 작동합니다.
특히 $|X|$가 0에 가까울수록 수축 효과가 커져 오차를 많이 줄이고, $|X|$가 클수록 MLE에 가까운 값으로 돌아가는 구조를 갖습니다.
결국 James–Stein 추정량은 $p \ge 3$ 차원에서 MSE 기준으로 “더 좋은” 추정량이 존재함을 보여주며, 이 때문에 고전적인 직관(독립인 평균들은 각각 따로 추정하는 것이 최선이라는 생각)을 깨뜨리는 Stein의 역설로 불립니다.