Problem Solving with Algorithms

728x90
반응형

제임스 스타인 추정량의 배경과 세부 내용을 알아 보겠습니다.

 

SteinParadox.pdf
0.59MB

제임스 스타인 추정량

 

 

거의 절대적인 위치였던 최대우도추정 이론에 정면으로 도전

Stein의 역설과 James–Stein 추정량을 통해, 왜 고차원에서 최대우도추정(MLE)이 더 이상 “최선”이 아니며 수축(shrinkage)과 편향–분산 균형이 왜 중요한지 설명하겠습니다.

거의 절대적인 위치였던  최대우도추정  이론

 

1. Stein의 역설과 문제 설정

1961년 Stein의 결과는, 그전까지 거의 절대적인 위치였던 최대우도추정 이론에 정면으로 도전하며 통계학계를 충격에 빠뜨린 결과로 소개됩니다.

  • 설정: 서로 독립인 정규분포 여러 개에서, 각 분포의 평균 $\mu_i$를 한 번씩 샘플 $X_i$만 보고 추정하는 문제를 다룹니다.
  • 1차원·2차원에서는 “그냥 관측값 그대로 쓰는” $\hat\mu_i = X_i$ 가 여러 의미에서 최선으로 여겨지며, MLE 이론도 이를 지지합니다.

하지만 $p \ge 3$ 차원에서는, 이 자연스러운 추정량을 항상 이기는 다른 추정량이 존재하고, 이게 바로 James–Stein 추정량이라는 점이 역설적으로 느껴지는 핵심입니다.

 

Best Estimator

 

 

 

2. “최선의 추정량”과 MSE·지배 개념

영상에서는 추정량의 성능을 평균제곱오차(MSE) 로 정의합니다.

  • 오차: $\hat\mu - \mu$ 혹은 다변량일 때는 벡터 차이의 노름.
  • MSE: 이 오차의 제곱을 평균한 값 $E|\hat\mu - \mu|^2$.

1차원 예시에서

  • 보통 추정량 $\hat\mu = X$의 MSE는 분산과 같아서 1(분산 1 가정 시)이고, $\mu$에 의존하지 않습니다.
  • “무조건 7이라고 추정하는” 나이브 추정량은 MSE가 $(7-\mu)^2$로 $\mu$에 따라 바뀌고, $\mu$가 7 근처면 오히려 더 잘 작동하기도 합니다.

이에 기반해

  • 어떤 추정량 A의 MSE가 모든 $\mu$에서 다른 추정량 B보다 작거나 같고, 적어도 한 점에서는 더 작으면 “A가 B를 지배(dominates) 한다”고 합니다.
  • 어떤 추정량이 더 좋은 다른 추정량에게 지배당하지 않으면 admissible 이라고 부릅니다.

이 기준으로 1·2차원에서는 $\hat\mu = X$가 admissible인 반면, $p \ge 3$에서는 James–Stein 추정량이 이를 지배하여 $\hat\mu = X$가 더 이상 admissible이 아니게 됩니다.

그 그림에서 화살표가 가리키는 건 “한쪽 길이”처럼 보이지만,  분산 자체는 양쪽 퍼짐 전체를 반영하는 값 입니다.

 

분산의 정확한 의미
- 분산은 Var(X)=E[(X−μ) 2 ]로, 평균에서 얼마나 멀리 흩어져 있는지의 제곱 평균을 말합니다.​
- 대칭인 정규분포에서는 왼쪽·오른쪽 모두에서의 흩어짐이 같이 들어가 있어서, “반쪽 퍼짐”이 아니라 전체 퍼짐을 숫자 하나로 요약한 정도입니다.


그림에서 화살표가 의미하는 것
- 영상 속 보라색 화살표는 “표준편차가 1인 정규분포”라는 사실을 시각적으로 보여 주려고, 평균에서 한쪽 방향으로 길이 1만큼을 그려 둔 것뿐입니다.​
- 표준편차 1은 “양쪽으로 평균에서 대략 1 정도 떨어진 곳에 데이터가 많이 모여 있다”는 뜻이고, 그 제곱이 분산 1입니다.


정리
- 분산: 양쪽 전체 퍼짐을 반영하는 전역적인 퍼짐 정도.
- 그림의 한쪽 화살표: “표준편차가 1이다”를 보여 주는 시각적 도구일 뿐, 분산이 반쪽만 의미한다는 뜻은 아닙니다.

 

 

 

 

 

3. James–Stein 추정량과 수축 직관

James–Stein 추정량은 $p \ge 3$에 대해 다음과 같이 정의됩니다.

$$
\hat\mu_{JS}(X) = \left(1 - \frac{p-2}{|X|^2}\right) X
$$

  • $|X|^2 = \sum_i X_i^2$이며, 앞의 계수는 보통 0과 1 사이라서 $X$를 원점(0) 쪽으로 수축(shrinkage) 하는 역할을 합니다.
  • 놀라운 점은, 각 $X_i$가 서로 독립인 분포에서 나온 값인데도, $\mu_1$을 추정할 때 $\mu_2,\dots,\mu_p$의 데이터까지 모두 들어간 $|X|^2$가 계수에 사용된다는 점입니다.

영상에서는 2차원·3차원 그림을 통해 수축의 기하학적 직관을 설명합니다.[

  • 진짜 평균 $\mu$를 평면의 한 점으로 보고, 관측값 $X$는 그 주변의 원형(혹은 구형)으로 퍼져 있는 점으로 생각합니다.
  • 원점 쪽으로 조금씩 끌어당기면, “멀리 있는 점들”은 원점과 $\mu$가 둘 다 멀리 있는 경우가 많아서 오히려 $\mu$에 더 가까워지고, “원점 근처의 점들”은 $\mu$에서 더 멀어지는 손해를 봅니다.

결국

  • 멀리 있는 영역(파란 영역) 에서는 수축으로 거리가 줄어드는 경우가 넓은 부피를 차지하고,
  • 근처 영역(녹색 영역) 에서는 거리가 늘어나지만 공간적으로 상대적으로 작습니다.

고차원에서는 바깥쪽 껍질의 부피가 폭발적으로 커지므로, 전체 평균 거리(즉 MSE)를 줄이는데 수축이 훨씬 유리해집니다.

 

 

 

 

 

4. 편향–분산 트레이드오프와 현대 통계

MSE는 다음과 같이 분산과 편향의 합으로 분해됩니다.

$$
\text{MSE} = \text{Var}(\hat\mu) + \text{Bias}(\hat\mu)^2
$$

  • 보통 추정량 $\hat\mu = X$는 편향이 0인 대신 분산이 큽니다.
  • James–Stein 추정량은 원점 방향으로 수축하면서 $\mu$에서 살짝 빗나가 편향을 도입하지만, 추정값들의 분산은 크게 줄어듭니다.

영상에서는 이걸 그림으로 설명합니다.

  • 편향 0이고 분산 큰 분포: 평균은 정확히 $\mu$지만, 샘플 하나가 멀리 튈 가능성이 크므로 오차가 클 수 있습니다.
  • 약간 편향 있지만 분산 작은 분포: 평균이 $\mu$와 살짝 다르지만, 대부분의 샘플이 $\mu$ 근처에 모여 평균적인 제곱오차는 더 작아집니다.

이것이 편향–분산 트레이드오프이며, Stein의 역설은 “편향이 0이라고 해서 좋은 추정량은 아니다”라는 교훈을 강하게 보여줍니다.

 

 

 

 

5. 응용: 머신러닝의 정규화와 고차원 추정

마지막으로, 영상은 이 toy 문제의 교훈이 현대 통계·머신러닝에서 어떻게 재등장하는지 설명합니다.

  • 실제 문제에서는 입력–출력 데이터로부터 거대한 파라미터 벡터(가중치들)를 추정해야 하는 상황이 많고, 차원 수가 매우 큽니다.
  • 이때 각 파라미터를 독립적으로 “있는 그대로” 추정하면 분산이 너무 커져 과적합이 생기므로, James–Stein과 비슷하게 수축·정규화(regularization) 를 도입해 파라미터를 0 근처로 끌어당깁니다.

대표적인 예로

  • Ridge, Lasso 같은 정규화 기법은 가중치를 0 쪽으로 수축시켜 분산을 줄이고, 일부는 완전히 0으로 만들어 변수 선택까지 수행합니다.
  • James–Stein 추정량 자체는 그대로 쓰지 않더라도, “고차원에서 수축을 통해 MSE를 줄일 수 있다”는 Stein의 아이디어는 경험적 베이즈, 계층 베이즈, 다중 과제 학습 등 수많은 기법의 철학적 배경이 됩니다.

영상은 끝에서, 심지어 James–Stein 추정량조차 더 좋은 추정량에게 지배당할 수 있으며, Stein의 역설이 단순한 장난감 문제가 아니라 현대 통계와 머신러닝의 핵심 개념(수축·정규화·편향–분산 트레이드오프)의 출발점임을 강조하며 마무리합니다.

 

 

출처: https://www.youtube.com/watch?v=cUqoHQDinCM

 

 

 

 

 

제임스 스타인 추정량 James-Stein estimator

지금부터는 James–Stein 추정량이 왜 정규분포 평균의 보통 MLE 추정량(그냥 표본벡터 $X$)보다 항상 작은 MSE를 가지는지, 특히 왜 차원이 $p \ge 3$일 때만 이런 우월성이 성립하는지를 계산 과정을 중심으로 설명하겠습니다.

Why James-Stein estimator dominates ordinary MLE

 

 

 

 

James–Stein 추정량과 목표

영상에서 다루는 설정은 다음과 같습니다.

  • 관측값 $X = (X_1,\dots,X_p)$는 평균 $\mu = (\mu_1,\dots,\mu_p)$, 공분산 $\sigma^2 I$를 갖는 다변량 정규분포에서 한 번 샘플링한 벡터입니다.
  • 보통의 최대우도추정량(MLE)은 그대로 $X$를 평균 $\mu$의 추정값으로 사용하는 것입니다. 이때 MSE(평균제곱오차)는 $E|X - \mu|^2 = p\sigma^2$가 됩니다.
  • James–Stein 추정량은 다음과 같은 수축형 추정량입니다.

$$
\hat\mu_{JS}(X) = \left(1 - \frac{p-2}{|X|^2}\right) X
$$

여기서 $|X|^2 = \sum_{i=1}^p X_i^2$이며, $p \ge 3$일 때 이 추정량이 MLE보다 더 작은 MSE를 가진다는 것이 목표입니다.

MSE 전개와 벡터 분해

영상에서는 James–Stein 추정량의 MSE

$$
E\bigl(|\hat\mu_{JS}(X) - \mu|^2\bigr)
$$

를 직접 전개하여 MLE의 MSE와 비교합니다.

  • 먼저 $\hat\mu_{JS}(X) - \mu$ 안의 식을 정리하면, 항을 묶어서 두 벡터 $a$, $b$의 합으로 분해할 수 있고, 그 제곱노름은 $|a|^2 + |b|^2 + 2 a\cdot b$ 꼴이 됩니다.
  • 여기서 $|a|^2$에 대한 기댓값은 정확히 $p$가 되는데, 이는 그냥 MLE $X$ 의 MSE가 바로 $p$라는 사실을 다시 확인하는 과정입니다.

두 번째 항 $|b|^2$과 교차항 $2 a\cdot b$는 $|X|^{-2}$가 포함된 형태가 되며, 이 두 항을 적절히 정리하면 $(p-2)^2 E(1/|X|^2)$, 그리고 $-(p-2)E(1/|X|^2)$ 꼴의 항으로 나타납니다.
마지막에 이들을 합치면 MSE가

$$
\text{MSE}_{JS} = p - (p-2)^2 E\left(\frac{1}{|X|^2}\right)
$$

형태로 정리되고, 따라서 James–Stein 추정량은 MLE의 MSE인 $p$에서 양수 항을 뺀 형태가 되어 MSE가 더 작게 됩니다.

기대값 계산과 적분 트릭

핵심은 $\sum_{i=1}^p E\left(\frac{X_i(X_i - \mu_i)}{|X|^2}\right)$ 같은 꼴의 기대값을 계산해 $(p-2)E(1/|X|^2)$로 정리하는 부분입니다.

  • 우선 한 좌표(예: $i=1$)에 대해서

$$
E\left(\frac{X_1(X_1 - \mu_1)}{|X|^2}\right)
$$

를 직접 적분으로 정의한 뒤, 정규분포의 밀도 함수 $\phi(x_1-\mu_1)$와 곱해 적분합니다.

  • 이때 $(x_1 - \mu_1)\exp(-(x_1-\mu_1)^2/2)$가 지수함수의 미분으로부터 나오는 구조를 이용하여, 부분적분을 적용할 수 있게 만들고, $x_1/|x|^2$를 $u$로 잡는 방식으로 적분을 정리합니다.
  • 부분적분 후 경계항은 정규분포 꼬리가 0으로 수렴하므로 사라지고, 남는 항은 $x_1/|x|^2$의 도함수를 포함한 새 적분으로 바뀝니다.

이 과정을 거치면, 원래의 적분이 다시 하나의 기대값 형태로 바뀌는데, 이때 integrand가 $\partial (x_1/|x|^2)/\partial x_1$이므로, 이를 모든 $i$에 대해 합하고 선형성을 이용해 합과 기대를 바꾸면 전체 합이 $(p-2)E(1/|X|^2)$에 해당하는 형태가 됩니다.

  • 즉, 각 좌표별 적분을 합친 결과가 결국 $(p-2)E(1/|X|^2)$가 되어, 위에서 나온 $(p-2)^2 E(1/|X|^2)$ 항과 조합되어 최종적으로 $- (p-2)^2 E(1/|X|^2)$가 추가되는 구조를 완성합니다.

왜 p≥3에서만 성립하는가

이제 남은 핵심은 $E(1/|X|^2)$가 실제로 잘 정의되고 유한한지 여부이며, 이 부분이 차원 조건 $p \ge 3$과 직결됩니다.

  • $p=1$일 때 $|X|^2 = X^2$이고, $E(1/X^2)$는 $x=0$ 근처에서 적분이 발산합니다. 즉, $1/x^2$ 특이점 때문에 기대값이 존재하지 않습니다.
  • $p=2$일 때 $|X|^2 = r^2$로 두고 극좌표로 바꾸면, integrand에 $1/r^2$가 등장하고, 야코비안에서 $r$이 나와서 전체적으로 $1/r$ 꼴이 되어 여전히 $r=0$ 근처에서 적분이 수렴하지 않습니다.

반면 $p=3$ 이상에서는 상황이 바뀝니다.

  • 구면좌표에서 야코비안이 $r^{p-1}\sin(\theta_1)\cdots$ 형태이므로, integrand에 있는 $1/r^2$와 곱하면 전체적으로 $r^{p-3}$ 항이 생깁니다.
  • $p \ge 3$이면 $p-3 \ge 0$이므로 $r=0$ 근처에서도 적분이 수렴하고, 따라서 $E(1/|X|^2)$는 유한하게 잘 정의됩니다.

이로부터 다음이 결론으로 따라옵니다.

  • MLE의 MSE는 항상 $p$입니다.
  • James–Stein 추정량의 MSE는 $p - (p-2)^2 E(1/|X|^2)$로, $p \ge 3$이면 $E(1/|X|^2) > 0$이고 유한하므로, MSE가 엄밀히 더 작습니다.
  • 그러나 $p=1,2$에서는 $E(1/|X|^2)$가 발산해 위 공식이 성립하지 않고, 이 차원에서는 MLE가 여전히 admissible 하다는 고전적인 결과와 일치합니다.

정리: 수축과 차원의 역할

영상은 마지막에, James–Stein 추정량이 단순히 각 좌표를 독립적으로 추정하는 대신 전체 길이 $|X|$ 를 이용해 한 번에 수축(shrinkage)시키는 방식이라는 점을 강조합니다.

  • 이 “공유 정보” 덕분에 전체 MSE 관점에서 MLE를 지배(dominates)하지만, 그 대가로 편향이 생기고, 그 편향이 고차원에서 더 잘 작동합니다.
  • 특히 $|X|$가 0에 가까울수록 수축 효과가 커져 오차를 많이 줄이고, $|X|$가 클수록 MLE에 가까운 값으로 돌아가는 구조를 갖습니다.

결국 James–Stein 추정량은 $p \ge 3$ 차원에서 MSE 기준으로 “더 좋은” 추정량이 존재함을 보여주며, 이 때문에 고전적인 직관(독립인 평균들은 각각 따로 추정하는 것이 최선이라는 생각)을 깨뜨리는 Stein의 역설로 불립니다.

 

 

 

출처: https://www.youtube.com/watch?v=3ne9yghOtw8

728x90
반응형
반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band
250x250