[Loss, Math] MLE vs. MAP vs. Bayesian


최근 면접 중에 “MLE, MAP, Bayesian 의 차이를 말해보세요.” 라는 질문을 받았다. 이를 통해 해당 개념들이 완전히 정리가 되지 않았고 얕은 시각으로만 이해하고 있음을 깨달았다. 따라서 이 포스트에서 예시를 가지고 정리하여 완전히 이해해보자.

예시: 동전 던지기

  • 동전 던지기는 베르누이 분포를 따른다. 우리가 동전을 $N$ 번 던져서 관측한 데이터 $\mathcal{X}$ 는 아래와 같이 표현될 수 있다.

    \[\mathcal{X} = \biggl \{ x_i = \biggl | \begin{matrix} & \text{head} \\ & \text{tail} \end{matrix} , \quad \scriptstyle{i=1,\ldots, N} \biggr \}\]
  • 이제 해당 동전이 앞면이 많이 나오는 동전인지 뒷면이 많이 나오는 동전인지를 알고 싶다. 이를 알면 다음 동전 던지기의 결과도 예측할 수 있을 것이다.
  • 앞면($\text{head}$)이 나올 확률은 parameter 로서 $\theta$ 로 나타낼 수 있고, $N$ 번 동전을 던졌을 때 앞면이 $k$ 번 나올 확률은 이항 분포로 표현될 수 있다.

    \[f(k;N,\theta) = \dbinom{N}{k}\theta^k(1-\theta)^{N-k}\]
  • 이제 parameter $\theta$ 를 MLE, MAP, Bayesian 관점에서 추정해보자. 이 추정된 parameter 를 통해 해당 동전이 앞면이 많이 나오는 동전인지를 알아낼 수 있다.

Bayes Rule

  • MLE, MAP, Bayesian 에 대해 정리하기 전에, 그 근간이 되는 Bayes Rule 에 대해 먼저 보자.
  • 우리가 parameter 를 가진 확률 모델을 만들었을 때, MLE, MAP, Bayesian기록된 관측치, 즉 가지고 있는 데이터를 사용하여 모델의 parameter 를 최적으로 추정하는 방법이다. 그리고 parameter 를 추정하는데 아래의 Bayes Rule 의 도움을 받을 수 있다.

    \[\text{prob}(\theta | \mathcal{X}) = \frac{\text{prob}(\mathcal{X} | \theta) \; \cdot \; \text{prob}(\theta)}{\text{prob}(\mathcal{X})}\]
  • 위 Bayes Rule 의 각 term 이 가지는 이름으로 표현하면 아래와 같다.

    \[\text{posterior} = \frac{\text{likelihood}\; \cdot \;\text{prior}}{\text{evidence}}\]
  • 왼쪽 term 인 사후확률(posterior) 은 데이터를 관찰했을 때 parameter 가 성립할 확률을 의미한다. 왜 사후확률이냐면, 데이터를 관찰한 이후에 측정하는 확률이기 때문이다.
  • 우측 term 의 사전확률(prior) 은 데이터가 주어지지 않은 상황에서, parameter 에 대한 모델링을 하기 이전에 사전에 주어진 확률로 이해할 수 있다. 사전확률은 데이터를 분석하기 전에 어떤 모수나 가정 등 모델링하고자 하는 타겟에 대해서 사전에 미리 가정을 깔아두고, 모델링 하기 이전에 설정하는 확률분포다. 이렇게 사전확률을 설정하고 모델링하여 데이터를 관찰한 후 나오는 사후확률을 업데이트할 때 베이즈 정리를 이용한다.
  • 또 다른 우측 term 의 가능도(likelihood)는 현재 주어진 parameter, 모수 또는 가정에서 이 데이터가 관찰될 확률을 계산하는 것이다.
  • 분모의 evidence가지고 있는 데이터 전체의 분포로, 주변확률분포와 조건부확률의 정의를 이용하면 구할 수 있다. 자세한 것은 아래에서 보자.
  • Bayes Rule 을 이용하면 데이터를 통해서 모델을 학습하거나 예측할 때, 어떤 parameter 가 주어진 상황에서 데이터가 관찰될 확률을 의미하는 likelihood 와 관찰하는 데이터 자체의 분포 evidence 를 통해서 사전확률을 사후확률로 업데이트할 수 있게 된다.
  • MLE 에서는 likelihood 를 이용하게 되고, MAP 에서는 evidence 를 제외한 Bayse Rule, Bayesian 에서는 Bayes Rule 전체를 이용하게 된다.

Evidence

  • 위 Bayes Rule 에서 $\mathcal{X}$ 는 Evidence 로서, independent 한 관측치의 집합인 우리가 가진 데이터로 구성된다. 즉 최적의 parameter $\theta$ 는 이 Evidence 를 가장 잘 설명하는 $\hat{\theta}$ 다.
  • 아래 섹션에서 자세히 보겠지만, Bayesian 추정을 어렵게 만드는 분모의 Evidence 는 아래와 같이 풀어쓸 수 있다.

    \[\text{prob}(\mathcal{X}) = \int _\Theta \text{prob}(\mathcal{X} | \Theta) \; \cdot \; \text{prob}(\Theta) \; d\Theta\]
  • 이러한 형태가 나온 이유가 뭘까? 여기에는 Marginalization 또는 Law of Total Probability 의 개념이 들어가 있고, Weighted Average(가중평균)으로도 생각할 수 있다.
  • 우리는 주어진 데이터를 기반으로 해서 분포를 상정할 수 있는데, 이 분포를 결합분포(joint distribution)라 한다. 그리고 이러한 결합분포 $p(\mathbb{x}, y)$ 는 실제 데이터 공간에서의 데이터 분포를 모델링한다.
    • 참고로 $p(\mathbb{x} \cap y)$ 와는 단지 표기법의 차이만 있고 같은 의미를 나타낸다.
  • 이 결합분포는 주어진 데이터의 모양을 보고 적절하게 선택한다. 실제 데이터 공간에서의 데이터 분포에 따라 결정하는 것은 아니고, 주어진 데이터에서 실증적으로 분포를 결정할 수 있다.
  • 결합분포를 적절하게 선택하면, 입력 $\mathbb{x}$ 에 대한 주변분포(marginal distribution)를 구해볼 수 있다. 이 주변확률분포는 개별 사건의 확률이지만, 결합 사건들의 합으로 표시될 수 있는 확률을 의미한다. 주변확률이라는 용어는 상대적이며 변수가 $\mathbb{x, y, z}$ 가 있다면 $p(\mathbb{x, y})$ 도 주변확률이 될 수 있다.
    • 즉 주변확률분포는 어떤 결합확률분포(joint distribution)가 있을 때, 그 중 하나 이상의 변수에 대해 다른 변수들을 적분(또는 합)해서 구하는 부분 확률분포다.
    • 이는 다른 확률변수들을 (적분 또는 합을 통해) “제외하고” 관심있는 변수 하나의 분포만 보고 싶을 때 구하는 확률분포라고 이해할 수 있다.
    • 주변확률분포 $\text{prob}(\mathbb{x})$ 는 $\mathbb{x}$ 에 대한 정보를 주는 것이지 $y$ 에 대한 정보를 주지는 않는다. 그렇기 때문에 결합분포에서 주변분포를 계산할 수 있지만 주변분포가 지정됐다고 해서 그것으로 결합분포를 결정할 수 없다.
  • Evidence 는 이러한 주변확률분포를 계산하는 것으로 구할 수 있다. 이 때 내가 관심있는 변수와 관련된 모든 결합확률을 더하는 점에서 Law of Total Probability 의 의미와 연결될 수 있다. 그리고 이러한 Law of Total Probability 는 Marginalization 과 동일한 의미로 쓰인다고 한다.
    • 결합확률을 표 형태로 정리했을 때 주변(marginal)에 위치하게 되는 것이 주변확률이며 이는 관심있는 변수를 고정하고 다른 변수들을 적분이나 합을 통해 제외하는 것이라 볼 수 있다.
  • 즉 Evidence 는 결합분포 $\text{prob}(\mathcal{X}, \Theta)$ 에서 $\Theta$ 를 주변화(marginalize)함으로써 얻은 값이며, 이는 모델 전체가 데이터 $\mathcal{X}$ 를 얼마나 잘 설명하는지를 나타낸다.”
    • 따라서 Evidence 의 식을 의미적으로 보면, prior 분포에 따라 가능한 모든 $\Theta$ 에 대해, $\mathcal{X}$ 에 대한 likelihood 의 기대값으로 해석할 수 있다.
  • 참고로 아래 수식에서 Multiplication Rule ($p(A, B) = p(A \cap B) = p(A \mid B)\cdot p(B)$) 을 이용하면 Law of Total Probability 와 Marginalization 이 같은 식을 나타내는 것임을 알 수 있다.

    \[\begin{aligned} \text{Law of Total Probability} :& \quad p(x) = \int _y p(x \mid y)\cdot p(y) dy = \sum _y p(x \mid y)\cdot p(y)\\ \text{Marginalization} :& \quad p(x) = \int _y p(x, y) dy = \sum _y p(x, y) \end{aligned}\]
  • 또한 위 식에서 볼 때, $x$ 에 대한 주변확률분포는 $p(y)$ 를 $y$ 에 대해 적분 또는 합하고 있으므로 합이 1 이 되기 때문에, 각 $p(x\mid y)$ 가 $p(y)$ 로 가중평균되고 있다고 볼 수 있다.
  • 정리하면, Evidence 는 prior 를 가지는 전체 parameter 에 대해, 데이터가 얼마나 잘 설명되는지 그 likelihood 를 평균낸 것이라고 볼 수 있다. 이는 Bayesian 추정에서 더 자세하게 다뤄보자.

Prediction

  • MLE, MAP, Bayesian 으로 parameter 가 추정되면 해당 parameter 를 가진 모델에서 앞으로 어떤 관측치들이 나올지를 예측해볼 수 있다. 여기서 예측이란 학습된 모델이 새로운 관측치($\tilde{\mathcal{x}}$)에 대해 얼마나 높은 확률(또는 밀도)을 부여하는지를 의미한다.

    \[\text{prob}(\tilde{\mathcal{x}} | \mathcal{X}) = \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \Theta) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta\]
  • 위 식은 마치 사후확률처럼 보이는데, 정확히는 사후확률을 기반으로 유도된 posterior predictive distribution 이며, 새로운 데이터를 예측하는 데 사용된다.
  • 이를 풀어보면, evidence $\mathcal{X}$ 가 주어지고 새로운 관측치 $\tilde{\mathcal{x}}$ 가 들어왔을 때 얼마나 가능성 있는지(또는 얼마나 자연스럽게 발생할 수 있는지)를 계산하는 것이다. 따라서 $\text{prob}(\tilde{\mathcal{x}} \mid \mathcal{X})$ 는 evidence 가 새로운 데이터를 어느정도 예측할 수 있는지를 계산하는 것으로 이해할 수 있다.
  • 사후확률 $p(\theta \mid x)$ 에서 $\theta$ 는 unknown parameter 로서 (방법에는 차이가 있지만) MLE, MAP 에서는 단일한 값으로 추정되고, bayesian 에서는 확률 분포로 추정된다.
  • 반면에 posterior predictive distribution 에서 $\theta$ 는 추정된(통합된) parameter 다. 즉 새로운 관측치 $\tilde{x}$ 는 추정된 parameter $\theta$ 에 의해 생성 또는 회귀(예측)된다고 이해할 수 있다. 아래의 식을 보자.

    \[\text{prob}(\tilde{\mathcal{x}} | \mathcal{X}) = \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}}, \Theta | \mathcal{X}) \;d\Theta = \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \Theta, \mathcal{X}) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta \\ \because \tilde{\mathcal{x}} \perp \mathcal{X} \mid \Theta, \quad \text{prob}(\tilde{\mathcal{x}} | \mathcal{X}) = \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \Theta) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta\]
  • 가지고 있는 데이터를 기반으로 parameter 를 추정하고, 이 parameter 를 이용해서 evidence 가 새로운 관측치를 예측한다. 여기서 가지고 있는 데이터와 새로운 관측치는 $\Theta$ 가 주어졌을 때 독립이기 때문에 최종 식이 나오게 된다.
  • 적분의 형태가 취해지는 것은, 새로운 관측값에 대한 예측 분포를 구하기 위해서 우리가 가지고 있는 것은 사후확률분포($\text{prob}(\Theta \mid \mathcal{X})$)이기 때문에, $\tilde{\mathcal{x}}$ 의 확률을 모든 가능한 $\theta$ 에 대해 평균(기댓값)내는 것이다.
    • 물론 MLE 나 MAP 에서는 $\Theta$ 를 하나의 값(점 추정값)으로 고정하므로, posterior predictive distribution 이 아닌 point prediction 을 사용하며, 예측은 단순화된다. 아래에서 다뤄보자.
  • 이는 $\theta$ 에 대해 Marginalization(주변화)을 하는 것이다. 우측 식을 보면 $\text{prob}(\tilde{x} \mid \Theta)$ 를 사후확률분포인 $\text{prob}(\Theta \mid \mathcal{X})$ 에 대해 Marginalization 한 것임을 알 수 있다.
  • 여기서 정리한 것을 기억해두고, 아래의 MLE, MAP, Bayesian 에서 각 추정 방법을 통해 어떻게 예측을 계산할 수 있을지 정리해보자.

MLE

  • MLE (Maximum Likelihood Estimation, 최대우도추정)주어진 데이터 $\mathcal{X}$ 가 가장 많이 설명되는 $\theta$ 를 찾는다. 즉, 주어진 데이터를 가장 잘 설명(예측)하는 parameter $\theta$ 를 선택하는 방식이다.
  • 이 때 사전 정보(예측이나 선입견)를 사용하지 않고, 오직 데이터만 고려한다. 또한 MLE 를 통해 하나의 parameter $\theta$ 값을 얻을 수 있다. 즉 점 추정이다.
  • 우리는 확률 변수나 데이터 포인트들이 서로 독립적이며 동일한 확률 분포를 따른다는 i.i.d. 가정을 사용하고 있으므로 Likelihood function 을 곱 형태의 결합 확률로 나타낼 수 있다.
    • 여기서 i.i.d. 가정은 각 데이터 포인트 $x_i$ 가 서로 독립이고 동일한 분포 $P(x \mid \theta)$ 를 따른다는 의미이므로, 전체 데이터의 Likelihood 는 개별 확률의 곱으로 표현된다.
    \[P(\mathcal{X}|\theta) = \prod_{\mathbb{x}_i \in \mathcal{X}} P(\mathbb{x}_i | \theta)\]
  • MLE 는 말 그대로 위 Likelihood function 의 최대값이 되는 $\theta$ 를 찾는다. 최대값이나 최소값을 찾을 때는 미분하여 0 이 되는 지점을 찾으면 된다.
  • 이 때 $\log$ 를 많이 사용하게 되는데, power 형태의 수식을 미분할 때 $\log$ 를 씌우면 모든 power 행태가 곱셈으로 바뀌고, 곱셈이 더하기로 바뀌기 때문에 계산하기 매우 편리한 형태가 된다.
  • 특히 $\log$ 는 $x_1, x_2, \ldots x_n$ 에 대해서 값이 증가할 때, $\log$ 를 씌운 값도 같이 증가하게 된다. 즉 monotonically increasing 하여 원래 함수의 최대값을 가지는 점과 $\log$ 를 취한 함수의 최댓값을 가지는 점은 똑같은 결과를 갖는다.
  • 따라서 동전 던지기에서 아래의 식을 최대화하는 $\theta$ 를 찾는 것이 MLE 의 목적이 된다.

    \[\begin{aligned} \log P(\mathcal{X} \vert \theta) &= \sum^N_{i=1} \log P(x_i \vert \theta) \\ &= \sum_i \log P(x_i = \text{head}) + \sum_i \log P(x_i = \text{tail}) \\ &= k \cdot \log \theta + (N - k) \cdot \log (1-\theta) \end{aligned}\]
  • 이제 위 식을 $\mathcal{L}$ 이라 두고 $\theta$ 에 대해 미분하여 0 이 되는 지점을 찾으면 아래와 같다.

    \[\frac{\partial \mathcal{L}}{\partial\theta} = \frac{k}{\theta} - \frac{(N-k)}{(1-\theta)} = 0\]
  • 위 식에서의 $\theta$ 는 MLE 의 추정치인 $\theta_{\text{MLE}}$ 혹은 $\hat{\theta}_{\text{MLE}}$ 로 표현되며 아래와 같다.

    \[\hat{\theta}_{\text{MLE}} = \frac{k}{N}\]
  • 즉, MLE 는 단순히 “앞면이 나온 횟수 / 총 시행 횟수” 를 추정치로 사용한다. 예를 들어 총 20 번 던져서 12 번이 앞면이 나왔다면, MLE 는 앞면이 나올 확률이 60% 인 동전이라고 추정한다.

    \[\hat{\theta}_{\text{MLE}} = \frac{12}{20} = \boxed{0.6}\]

Prediction

  • 이제 MLE 의 측면에서 데이터 예측, 즉 주어진 데이터 $\mathcal{X}$ 가 새로운 데이터 $\tilde{\mathcal{x}}$ 를 확률적으로 얼마나 지원하는지 알아보자.

    \[\begin{aligned} \text{prob}(\tilde{\mathcal{x}} | \mathcal{X}) &= \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \Theta) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta \\ &\approx \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \hat{\Theta}_{\text{MLE}}) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta \\ &= \text{prob}({\tilde{\mathcal{x}}} | \hat{\Theta}_{\text{MLE}}) \int_{\Theta} \text{prob}(\Theta |\mathcal{X})\;d\Theta\\ &= \text{prob}(\tilde{\mathcal{x}} | \hat{\Theta}_{\text{MLE}}) \end{aligned}\]
  • 두번째 식으로 넘어가는 부분을 보자. MLE 접근은 parameter 를 확률 변수로 보지 않고, 고정된 최적값으로 보기 때문에, 모든 $\Theta$ 에 대해 동일하게 $\text{prob}({\tilde{\mathcal{x}}} \mid \Theta) \approx \text{prob}({\tilde{\mathcal{x}}} \mid \hat{\Theta}_{\text{MLE}})$ 로 근사할 수 있다.
    • 다르게 말하면 MLE 는 사후확률을 고려하지 않고, $\hat{\Theta}_{\text{MLE}}$ 하나만을 사용하므로 posterior predictive distribution 의 적분은 생략되고, 예측 확률은 단순화되는 것이다.
  • 그리고 세번째 식에서, $\text{prob}({\tilde{\mathcal{x}}} \mid \hat{\Theta}_{\text{MLE}})$ 는 $\Theta$ 에 의존하지 않는 상수이기 때문에 적분 밖으로 빼낼 수 있다. 또한 $\text{prob}(\Theta \mid \mathcal{X})$ 은 확률 분포이므로 적분값이 1 이 된다.
  • 위 식에서 의미하는 것은 새로운 관측치($\tilde{\mathcal{x}}$)에 대한 확률 모델이 evidence $\mathcal{X}$ 를 구성하는 모든 (이전)데이터에서의 확률 모델과 동일하다는 것을 의미한다.
  • 즉 MLE 로 parameter 를 추정한 확률 모델은, 고정된 값 $\hat{\Theta}_{\text{MLE}}$ 를 가지고 Evidence 가 새로운 관측에 대해 얼마나 높은 확률을 부여하는지(예측)를 계산한다.
  • 따라서 위 동전던지기 예시에서 새로운 관측치로 앞면(1)이 나올 확률을 계산해보자.

    \[\text{prob}(\tilde{\mathcal{x}} = 1 | \mathcal{X}) \; \approx \; \text{prob}(\tilde{\mathcal{x}} = 1 | \hat{\theta}_{\text{MLE}}) = \frac{k}{N}\]
  • 우리가 20 번 던져서 앞면이 12 번 나온 관측치(데이터)를 가지고 있다면, 그리고 이 데이터로 확률 모델의 parameter 를 MLE 방식으로 추정했다면, 새로운 관측치에서 앞면이 나올 확률은 0.6 이 된다.

한계점

  • MLE 는 데이터가 적을 경우 극단적인 값이 나올 수 있다. 즉 $N=2$ 의 경우 두 번의 동전이 모두 앞면이 나온다면, MLE 는 아래와 같이 parameter 를 추정한다.

    \[\hat{\theta}_{\text{MLE}} = \frac{2}{2} = 1\]
  • 이는 “앞면만 나오는 동전”이라고 추정하는 것으로 직관적으로 이상하게 느껴진다. 이는 아래 섹션의 MAP 와 비교했을 때, over-fitting 과 관련이 깊다는 것을 알 수 있다.
  • 또한 사전 정보가 반영되지 않는다. 만약 우리가 동전이 공정(앞면과 뒷면이 고루 나온다)할 가능성이 높다고 믿고 있더라도, MLE 는 이를 전혀 반영하지 않는다.

MAP

  • MAP(Maximum A Posterior, 최대사후확률) 는 MLE 와 거의 같지만, 사전 확률(prior) 을 반영한다는 것이 큰 차이점이다. 즉, 데이터를 통해 얻은 Likelihood 뿐만 아니라, 우리가 사전적으로 $\theta$ 에 대해 가지고 있는 믿음을 반영한다.
  • 즉 MLE 가 likelihood 만 사용한 것과 달리, MAP 는 사전확률까지 포함하여 Bayes Rule 의 분자에 해당하는 term 을 사용하여 최적의 $\theta$ 를 찾는다.

    \[\text{prob}(\theta | \mathcal{X}) = \frac{\text{prob}(\mathcal{X} | \theta) \; \cdot \; \text{prob}(\theta)}{\text{prob}(\mathcal{X})}\]
  • MAP 가 최적의 $\theta$ 를 찾을 때는 사전확률과 가능도를 이용하여 사후확률 $P(\theta \mid \mathcal{X})$ 를 최대화하는 $\theta$ 를 찾는다.
  • MLE 와 마찬가지로 단일 값으로 나타나며, $\hat{\theta}_{\text{MAP}}$ 로 표현한다.

    \[\begin{aligned} \hat{\theta}_{\text{MAP}} &= \underset{\theta}{\text{argmax}} \; \text{prob}(\theta | \mathcal{X}) \\ &= \underset{\theta}{\text{argmax}} \; \frac{\text{prob}(\mathcal{X} | \theta)\; \cdot \; \text{prob}(\theta)}{\text{prob}(\mathcal{X})} \\ &= \underset{\theta}{\text{argmax}} \; \text{prob}(\mathcal{X} | \theta)\; \cdot \; \text{prob}(\theta) \\ &= \underset{\theta}{\text{argmax}} \; \prod_{\mathbb{x}_i \in \mathcal{X}} \text{prob}(\mathbb{x}_i | \theta)\; \cdot \; \text{prob}(\theta) \end{aligned}\]
  • MLE 와 마찬가지로 likelihood 를 개별 확률의 곱으로 표현한다. 위 식을 잘 보면, likelihood 에 사전확률 $\text{prob}(\theta)$ 을 곱한 것과 같다.
  • Bayes Rule 의 분모 부분을 날린 이유는, 분모인 Evidence 부분이 사후확률을 최대화한다는 관점에서 함수적 의존도가 없기 때문이다. 따라서 분자 부분만 최대화하면 되기 때문에 가능하다.
  • 그리고 MLE 와 마찬가지로 $\log$ 를 취하면 아래와 같이 MAP 의 식을 취할 수 있다.

    \[\hat{\theta}_{\text{MAP}} = \underset{\theta}{\text{argmax}} \; \left( \sum _{\mathbb{x}_i \in \mathcal{X}} \log \text{prob}(\mathbb{x}_i | \theta) + \log \text{prob}(\theta) \right)\]
  • 이제 동전 던지기 예시를 들어보자. 이 예시를 통해 MLE 와 MAP 의 차이점을 알 수 있다.
  • 동전이 공정할 가능성이 높다고 가정하고, MAP 에서 필요한 $\theta$ 에 대한 사전분포(prior)로는 Beta 분포를 사용해보자. 베타 분포는 동전 던지기와 자연스럽게 결합되는 분포다.
    • 즉 $0 \leq p \leq 1$ 범위 안에서 앞면이 나올 확률 $p$ 에 대한 사전적인 믿음을 표현할 수 있는 분포는 Beta 분포다.
    \[\text{prob}(p) = \frac{1}{B(\alpha, \beta)}p^{\alpha-1}(1-p)^{\beta-1}\]
  • 여기서 $B(\alpha, \beta)$ 는 정규화(normalization) 상수로, 감마 함수로 표현된다.
    • 감마 함수는 factorial 의 일반화된 함수다. 그리고 베타 함수는 감마 함수의 비율로 표현되는 2변량 함수다. 이 때문에 베타 함수는 이항계수의 일반화로 생각할 수 있다.
    • 자세한 내용은 이 블로그에 잘 정리되어 있다.
    \[B(\alpha, \beta) = \int_0^1 p^{\alpha-1}(1-p)^{\beta -1} \; dp = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)}\]
  • 이 때문에 베타 분포인 $\text{prob}(p)$ 는 $Beta(p \mid \alpha, \beta)$ 와 같은 의미로 표현된다.
  • 이제 이 동전은 공정할 가능성이 높지만, 아주 완벽하게 공정하지 않을 수도 있다는 사전 지식을 가지고 있다고 해보자. 즉, $p=0.5$ 근처에서 분포가 가장 높고, 그 주변에서 완만하게 퍼져 있는 형태다.
    • 실제로 베타 분포의 최빈값 수식을 보면 $\alpha = \beta$ 일 때 $p=0.5$ 에서 가장 확률밀도가 커진다. 그리고 $\alpha, \beta$ 의 값이 커질수록 분산, 즉 확률분포의 폭이 작아진다.
  • 이러한 믿음을 반영하기 위해 $\alpha = \beta = 5$ 인 베타 분포를 prior 로 사용하자. 이 때 베타 분포는 $p=0.5$ 에서 peak 를 가지며, 분산은 다음과 같다.

    \[\text{Var}(p) = \frac{\alpha \beta}{(\alpha + \beta)^2(\alpha + \beta + 1)} = \frac{25}{(10)^2 \cdot 11} = 0.025\]
  • 표준편차는 약 0.16 으로, 너무 뾰족하지도 너무 평평하지도 않은 적당한 prior 가 된다.
  • MAP 추정은 다음을 최대화하는 $\theta$ ($p$) 를 구하는 것으로, 앞면이 나온 횟수를 $k$ 라 하고, 전체 시행 횟수를 $N$ 이라 하면, 다음과 같이 쓸 수 있다.

    \[\begin{aligned} \hat{\theta}_{\text{MAP}} &= \underset{\theta}{\text{argmax}} \; \left( \sum _{\mathbb{x}_i \in \mathcal{X}} \log \text{prob}(\mathbb{x}_i | \theta) + \log \text{prob}(\theta) \right) \\ &= \underset{\theta}{\text{argmax}} \; (k \cdot \log \theta + (N - k) \cdot \log (1-\theta) + \log \text{prob}(\theta)) \end{aligned}\]
  • 이제 $\text{prob}(\theta)$ 는 베타 분포로 설정했으므로, 아래와 같이 표현할 수 있다. 여기서 베타 함수 $B(\alpha, \beta)$ 는 상수로 처리했다.

    \[\log \text{prob}(\theta) = (\alpha - 1) \log \theta + (\beta - 1) \log (1-\theta) + \text{const}\]
  • 따라서 이는 베르누이 likelihood 와 베타 prior 의 결합으로, 전체 식은 아래와 같이 된다.

    \[\hat{\theta}_{\text{MAP}} = \underset{\theta}{\text{argmax}} \; ((k + \alpha - 1)\log \theta + (N - k + \beta - 1) \log (1-\theta))\]
  • 이제 MLE 와 마찬가지로 $\theta$ 에 대해 미분하여 0 이 되는 지점을 찾으면 된다.

    \[\frac{(k + \alpha - 1)}{\theta} - \frac{(N - k + \beta - 1)}{1-\theta} = 0\]
  • 그 결과는 아래와 같다. 그리고 베타 분포가 0.5 근처에서 최대값을 가지기 위해 $\alpha = \beta = 5$ 로 설정했으므로 이를 적용한 값을 구할 수 있다.

    \[\hat{\theta}_{\text{MAP}} = \frac{k + \alpha - 1}{N + \alpha + \beta - 2} = \frac{k + 4}{N + 8}\]
  • ​MLE 때와 마찬가지로 총 20 번 던져서 12 번이 앞면이 나왔다면, MLE 는 앞면이 나올 확률이 0.6 인 동전이라고 추정했지만 MAP 는 0.571 정도인 동전이라고 추정한다.

    \[\hat{\theta}_{\text{MAP}} = \frac{12 + 4}{20 + 8} \approx \boxed{0.571}\]
  • 이를 통해 알 수 있는 것은 MAP 추정은 prior 정보 덕분에 좀 더 보수적인 추정을 하게 된다. MLE 는 데이터만을 기반으로 추정하여 극단적인 결과로 이어질 수 있었던 반면, MAP 는 사전적인 믿음(Prior) 을 반영하여 보다 안정적인 추정치를 제공하는 것이다.
    • 베타 분포는 위 예시처럼 likelihood 함수가 베르누이 분포일 때, $\theta$ 에 대한 prior 를 표현하기에 매우 적절하며, $\alpha, \beta$ 값을 조절하여 강도를 조절할 수 있다.
    • 실제로 베타 분포는 베르누이 분포에 대한 켤레사전분포가 된다. 이는 아래 Bayesian 에서 더 자세히 보자.
  • MAP 추정은 추정치를 prior 쪽으로 끌어당긴다. 또한 prior 의 강도를 높일수록 끌림이 커지게 된다. 실제로 $\alpha$ 와 $\beta$ 에 대해 같은 값이면서 더 큰 값을 사용하면 베타 분포의 최대값을 $p=0.5$ 근처로 좁힐 수 있다. 이로 인해 MAP 추정치가 prior 에 더 가까워질 수 있다.
    • 이러한 개념을 이용한 것이 딥러닝에서 Weight Decay(L2 Regularization) 이다. 이 포스트에서 정리했었다.
  • 즉 $\hat{\theta}_{\text{MAP}}$ 에 대해 도출한 표현식에서 $\alpha$ 와 $\beta$ 는 관측치 $k$ 에 대해 “smoothing” 역할을 한다고 볼 수 있다. 극단적인 관측치가 나와도 $\theta$ 가 튀는 정도가 부드러워지기 때문이다.
    • $\theta$ 는 추정할 parameter 이기 때문에, MAP 추정치 계산에서 $\alpha$ 와 $\beta$ 를 hyperparameter 라고 할 수 있다.
  • 정리하면, 사전 분포를 적용하지 않고 데이터만 고려한다면 이는 MLE 와 동일하게 되고, 추정치는 단순히 데이터에 의존하게 된다($\frac{k}{N}$). 즉, MLE ​는 관측된 데이터만 사용하며, 관측치의 양이 적거나 $k=0$ 혹은 $k=N$ 같은 극단적인 상황에서 신뢰할 수 없는 값을 가질 수 있다.
  • 그러나 사전분포(여기서는 베타 분포)는 데이터 $k$ 에 사전 지식을 추가하여 극단적인 상황을 완화하고, 더 안정적인 추정치를 제공할 수 있다. 즉 MAP 추정치에서 데이터 부족이나 극단적인 값으로 인한 불안정성을 줄이는 smoothing 역할을 하는 것이고, 이는 관측 데이터가 적더라도 추정치가 너무 극단적으로 치우치지 않게 만드는 데 중요한 역할을 한다.
  • 추가적으로 점 추정만 하면 되기 때문에 아래 섹션에서 볼 Bayesian 보다 계산이 간단하다. 또한 prior 설계를 통해 도메인 지식울 반영 가능하다는 장점도 있다.

Prediction

  • MAP 또한 MLE 에서 처럼 아래의 posterior predictive distribution 을 구해보자. MLE 와 마찬가지로 예측 확률이 단순화될 수 있다. MAP 의 이름에 사후 확률이 들어가 있지만, MLE 와 마찬가지로 parameter 를 확률 변수로 보지 않고 고정된 최적값을 추정하기 때문이다.

    \[\begin{aligned} \text{prob}(\tilde{\mathcal{x}} | \mathcal{X}) &= \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \Theta) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta \\ &\approx \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \hat{\Theta}_{\text{MAP}}) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta \\ &= \text{prob}({\tilde{\mathcal{x}}} | \hat{\Theta}_{\text{MAP}}) \int_{\Theta} \text{prob}(\Theta |\mathcal{X})\;d\Theta\\ &= \text{prob}(\tilde{\mathcal{x}} | \hat{\Theta}_{\text{MAP}}) \end{aligned}\]
  • 위 식에서 의미하는 것은 MLE 와 마찬가지로, 새로운 관측치($\tilde{\mathcal{x}}$)에 대한 확률 모델이 evidence $\mathcal{X}$ 를 구성하는 모든 (이전)데이터에서의 확률 모델과 동일하다는 것을 의미한다.
  • 즉 MAP 로 parameter 를 추정한 확률 모델은, 고정된 값 $\hat{\Theta}_{\text{MAP}}$ 를 가지고 Evidence 가 새로운 관측에 대해 얼마나 높은 확률을 부여하는지(예측)를 계산한다.
  • 마찬가지로 동전 던지기 예시에서, MAP 관점으로 새로운 관측치가 앞면(1)이 나올 확률을 계산해보자. 먼저 각 위에서 설정한 사전분포확률과 가능도는 아래와 같다.

    \[\begin{aligned} &\text{prior}: &p \sim \text{Beta}(\alpha, \beta) \\ &\text{likelihood}: &\theta^{k}(1-\theta)^{N-k} \end{aligned}\]
  • 이제 새로운 관측치가 앞면(1)이 나올 확률은 아래와 같다.

    \[\text{prob}(\tilde{\mathcal{x}} = 1 | \mathcal{X}) \; \approx \; \text{prob}(\tilde{\mathcal{x}} = 1 | \hat{\theta}_{\text{MAP}}) = \frac{k + \alpha - 1}{N + \alpha + \beta - 2}\]
  • $\alpha=\beta=5$ 이고 20 번 던져서 앞면이 12 번 나온 관측치(데이터)를 가지고 있다면, 그리고 이 데이터로 확률 모델의 parameter 를 MAP 방식으로 추정했다면, 새로운 관측치에서 앞면이 나올 확률은 약 0.571 이 된다.

한계점

  • 지금까지 보면 마치 MLE 보다 MAP 가 훨씬 좋은 것 같지만, MAP 도 한계점이 있다.
  • 먼저 MAP 추정은 prior 분포의 모양과 hyperparameter 설정에 민감하다. 잘못된 prior 를 선택하면, 데이터의 정보가 왜곡되어 오히려 부정확한 추정이 된다. 특히 데이터가 적을수록 prior 의 영향력이 커진다.
    • 예를 들어 위 예시에서 $\alpha = \beta = 100$ 같은 강한 prior 를 쓰면, 데이터가 무슨 값이 관측되더라도 $p \approx 0.5$ 근처로 고정되어 버린다.
  • 또한 Bayesian 과 비교해서 진짜 불확실성을 반영하지 못한다. MAP 는 최댓값 하나만 추정하므로, 이름에 사후 분포라는 말이 들어가 있음에도 불구하고 사후 분포의 형태(불확실성, 분산 등)를 무시한다. 즉 bayesian 추정은 posterior 전체를 유지하지만, MAP 는 “이게 제일 그럴듯해 보이더라” 하고 점 하나만 뽑는 것이다.
    • 예를 들어 사후 분포의 parameter $\theta$ 에 대해 두 개의 peak(최대값) 가 있는 경우, MAP 는 하나만 고르고 나머지 정보는 버린다.
    • 따라서 MAP 는 posterior 를 최대화한다고는 하지만, 완전한 Bayesian 추정은 아니다. posterior 분포 전체를 사용하는 것이 Bayesian 의 본래 의도인데, MAP 는 단순히 posterior 의 최대값만 보기 때문이다.
  • 이 외에 계산이 쉬워 보여도, 항상 쉬운 건 아니다. prior 나 likelihood 가 복잡한 경우, log posterior 를 최적화하는 과정 자체가 어려울 수 있다.

Bayesian

  • MLE 와 MAP 는 단일 $\theta$ 값만 구하지만, Bayesian 접근법은 $\theta$ 의 전체 분포를 유지한다. 즉, 단일한 값이 아니라, $\theta$ 에 대한 확률 분포 $\text{prob}(\theta \mid \mathcal{X})$ 를 유지하는 것이다. 따라서 Bayesian 방식에서는 사후 확률 자체가 $\theta$ 에 대한 예측값이다.
  • 위에서 정리한 MLE, MAP 와 비교하면 더 이해가 쉽다.
    • Evidence $\mathcal{X}$ 가 주어졌을 때, MLE 는 parameter $\Theta$ 를 고정된 상수로 간주하고, 그 상수가 데이터를 가장 잘 설명하는 값을 찾는다. 또한 MLE 는 $\Theta $ 에 대한 사전 분포를 반영하지 않는다.
    • MAP 는 $\Theta$ 가 사전 분포를 따르는 확률 변수라고 보고, $\text{prob}(\Theta \mid \mathcal{X})$ 가 최대가 되는 $\Theta$ 값을 선택한다. 사전 분포를 반영할 수 있다는 점이 MLE 와의 차이다.
    • 이처럼 MLE 와 MAP 는 모두 단일 추정값만을 반환한다.
  • 그러나 Bayesian 추정은 $\text{prob}(\Theta \mid \mathcal{X})$ 라는 전체 사후분포를 계산한다. 확률 분포 자체이기 때문에, 어떤 값을 최종적으로 사용할지는 선택 기준(ex. 평균, 최빈값 등)에 따라 달라질 수 있다.
  • 또한, 사후분포로부터 얻는 분산은 우리가 특정 추정값을 얼마나 신뢰할 수 있는지를 정량화할 수 있게 해준다. 만약 분산이 너무 크다면, “좋은 추정값이 없다”고 판단할 수도 있다.
  • Bayesian 추정의 핵심은, Bayes Rule 의 분모 $\text{prob}(X)$, 즉 evidence 를 무시할 수 없다는 점이다. 이것이 Bayesian 추정을 어렵게 만든다.
  • 이 evidence 는 이 포스트의 처음 부분에서 정리했듯 다음과 같은 적분으로 정의된다. likelhood 를 prior 로 가중평균하는 형태다.

    \[\text{prob}(X) = \int_\Theta \text{prob}(\mathcal{X}|\Theta) \cdot \text{prob}(\Theta) \; d\Theta\]
  • 이 evidence 를 계산해야 하기 때문에, 사전 분포를 어떤 형태로 표현할지를 고민할 때 위 적분을 계산할 수 있는 형태(conjugate prior)로 선택하는 것이 중요하다.
    • 사전분포(Prior distribution)와 사후분포(Posterior distribution)가 동일한 분포족에 속하면 사전분포를 켤레사전분포(conjugate prior)라고 한다.
    • 켤레사전분포를 사용하는 이유는 사후분포의 계산이 편리해지기 때문이다. 실제로 켤레사전분포가 아니라면 계산이 매우 복잡하고 고차원으로 흘러가게 된다.
    • 참고로 모델링 측면에서 Likelihood 는 데이터를 모델링, Prior 는 Parameter 를 모델링한다. 따라서 데이터의 분포를 잘 설명하는 Likelihood 를 결정한 후에, Prior 를 결정하는 편이 더 편리한 순서다.
  • 그러나 실용적으로, 분자만 알면 비례 관계로 사후분포를 다룰 수 있다. 즉, 분모 없이도 충분히 사후분포에서 샘플링하거나 기대값을 계산할 수 있다는 것이다. 필요하면 마지막에 정규화 상수를 구해서 전체 면적이 1이 되게 만들면 된다.
    • 고차원 파라미터 공간에서는 Evidence 를 구하기 위한 적분이 계산적으로 엄청 어렵거나 불가능할 수 있다.
    • 위 식을 잘보면, Evidence 는 분자 전체를 적분한 결과이므로, 사후 분포를 확률분포로 정규화(normalize)시키는 역할을 한다. 그래서 $\text{prob}(\mathcal{X})$ 는 정규화 상수(normalization constant) 라고 불러진다.
    • 다시 말하면, prior 는 우리가 사전에 어떤 $\theta$ 가 더 믿을만하다고 생각하는지를 나타내고, likelihood 는 주어진 데이터 $\mathcal{X}$ 가 각 $\theta$ 하에서 얼마나 잘 설명되는가를 나타내며, evidence 는 각 $\theta$ 에 대해 prior 만큼 신뢰를 주고, 그에 따른 likelihood 들을 평균낸 것이다.
    • 결과적으로 evidence 는 $\text{prob}(\mathcal{X})$ 하나의 수치이지만, 그 안에는 모든 $\theta$ 에 대한 고려가 들어 있다. 그리고 이게 바로 사후확률을 정규화(normalization) 해주는 역할을 한다.
  • 따라서 “Evidence 를 몰라도, 분자를 잘 근사하면 사후확률 분포를 잘 추정할 수 있다”는 것이다. 이 아이디어가 샘플링 기반 방법(ex. MCMC (Markov Chain Monte Carlo), Importance Sampling, Monte Carlo Integration) 등에 핵심적으로 쓰이는 원리다.
  • 여기서는 좀 더 이론적으로 바라보자. 다시 돌아와서, 사후확률분포의 계산이 용이해지는 켤레사전분포(Conjugate Prior)를 이용해서 Bayesian 추정을 해보자.
  • MAP 를 다룰 때 살짝 언급했었던 베타 분포가 동전 던지기와 같은 상황과 자연스럽게 결합되는 분포라는 것은 바로 켤레사전분포임을 뜻하는 것이다. 즉 Bernoulli likelihood 와 Beta prior 의 곱은 여전히 Beta 분포를 따른다.
  • 그렇다면 사전확률분포를 아래와 같이 작성할 수 있다.

    \[\text{prob}(\theta | \alpha, \beta) = \frac{1}{B(\alpha, \beta)}\theta^{\alpha-1}(1-\theta)^{\beta -1}\]
  • 이 사전 분포를 이용해서 Evidence 를 구해보자. 동전 던지기 예시에서의 $N, k$ 와 likelihood 는 베르누이 분포를 따른다는 것을 이용한다.

    \[\begin{aligned} \text{prob}(\mathcal{X}) &= \int ^1_0 \text{prob}(\mathcal{X}|\theta) \cdot \text{prob}(\theta) \; d\theta \\ &= \int_0^1 \left( \prod^{N}_{i=1} \text{prob}(\mathcal{x}_i | \theta) \right) \cdot \text{prob}(\theta) \; d\theta \\ &= \int_0^1 \left ( \theta^k \cdot (1-\theta)^{N-k} \right) \cdot \text{prob}(\theta) \; d\theta \end{aligned}\]
  • 위 식에서 맨 마지막 식을 잘 보면, 베르누이 likelihood 와 베타 prior 의 곱이 형태만 다른 베타 분포가 됨을 확인할 수 있다. 따라서 evidence 를 $\alpha, \beta, k$ 에 따라 값이 변하는 상수 $Z$ 로 생각할 수 있고, 이를 가지고 다시 사후확률분포를 계산해보자.

    \[\begin{aligned} \text{prob}(\theta | \mathcal{X}) &= \frac{\text{prob}(\mathcal{X} | \theta) \cdot \text{prob}(\theta)}{Z} \\ &= \frac{1}{Z}\cdot \text{prob}(\mathcal{X} | \theta) \cdot \text{prob}(\theta) \\ &= \frac{1}{Z}\left( \prod^{N}_{i=1} \text{prob}(\mathcal{x}_i | \theta) \right) \cdot \text{prob}(\theta) \\ &= \frac{1}{Z} \cdot \left( \theta^k \cdot (1-\theta)^{N-k}\right) \cdot \text{prob}(\theta) \\ &= \text{Beta}(\theta | \alpha + k, \beta + N - k) \end{aligned}\]
  • 마지막의 $\text{Beta}$ 는 사전확률분포의 베타 분포를 뜻하는 것이다.
  • 위 식을 보면, prior 도 Beta 이고 likelihood 도 $\theta$ 의 거듭제곱 형태이기 때문에, posterior 도 Beta 분포 되는 것을 확인할 수 있다. 이 성질은 Beta 분포가 Bernoulli/Binomial likelihood 에 대해 conjugate prior 인 이유다.
  • 즉 $\alpha +k$ 와 $\beta + N - k$ 를 hyperparameter 로 가지는 $\theta$ 에 대한 사후확률분포를 얻은 것이다. 만약 $\theta$ 에 대해 하나의 값을 얻길 원한다면, 이 사후확률분포에 기대값을 취해볼 수 있다. 즉 아래와 같이 추정값으로 기대값을 이용해보자.

    \[\hat{\theta}_{\text{Bayesian}} = \mathbb{E}[\theta | \mathcal{X}] = \frac{\alpha + k}{\alpha + \beta + N}\]
  • 위 식은 베타 분포의 기대값 공식을 이용한 것이다. 해당 에서 공식을 확인할 수 있다.
  • 그리고 MLE, MAP 와 마찬가지로 $\alpha = \beta = 5$ 이고, $k=12$, $N=20$ 인 예제로 보면 아래와 같다.

    \[\hat{\theta}_{\text{Bayesian}} = \frac{5 + 12}{5 + 5 + 20} = \frac{17}{30} \approx \boxed{0.567}\]
  • MLE 는 0.6, MAP 는 0.571 인 것과 비교해서 Bayesian 은 0.567 이라는 결과를 얻었다. 여기서 Bayesian 을 사용해서 얻을 수 있는 이점은 위 추정치에 분산을 적용해볼 수 있다는 점이다.
  • Bayesian 추정에 대해 분산을 계산해보자. 이 때도 마찬가지로 베타 분포의 분산을 구하는 공식을 사용한다.

    \[\text{Var}(\theta | \mathcal{X}) = \frac{(\alpha + k)(\beta + N - k)}{(\alpha + \beta + N)^2 (\alpha + \beta + N + 1)} \approx \boxed{0.0079}\]
  • 위 분산은 추정치의 신뢰도(uncertainty) 를 나타낸다. 따라서 이러한 Bayesian 추정은 사후분포 전체를 제공하고 분산을 통해 불확실성까지 표현이 가능하다.
  • 그러나 계산 복잡도가 증가하고 적분 또는 샘플링이 필요할 수 있다.

Prediction

  • Bayesian 에서의 posterior predictive distribution 을 알아보자. MLE, MAP 와 달리 이제는 사후확률분포 $\text{prob}(\Theta \mid \mathcal{X})$ 를 이용한다.

    \[\begin{aligned} \text{prob}(\tilde{\mathcal{x}} | \mathcal{X}) &= \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \Theta) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta \\ &= \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}} | \Theta) \; \cdot \; \frac{\text{prob}(\mathcal{X}|\Theta)\cdot\text{prob}(\Theta)}{\text{prob}(\mathcal{X})}\;d\Theta \end{aligned}\]
  • 우리가 앞에서 Bayesian 에 따른 사후확률분포를 계산했고, 이를 이용해서 새로운 관측치가 앞면(1)이 나올 확률을 예측하면 아래와 같다.

    \[\begin{aligned} \text{prob}(\tilde{\mathcal{x}} = 1 | \mathcal{X}) &= \int_{\Theta}\text{prob}({\tilde{\mathcal{x}}}=1| \Theta) \; \cdot \; \text{prob}(\Theta |\mathcal{X})\;d\Theta \\ &= \int_{\Theta} \Theta \; \cdot \; \text{Beta}(\Theta | \alpha + k, \beta + N - k)\;d\Theta \\ &= \mathbb{E}_{\Theta \sim \text{Beta}(\alpha + k, \beta + N - k)}[\Theta] \\ &= \frac{\alpha + k}{\alpha + \beta + N} \end{aligned}\]
  • 위 식은 기대값 공식을 이용했으며, MLE, MAP 와 마찬가지로, $\alpha=\beta=5$ 20 번 던져서 12 번 앞면을 관측했다면 0.567 라는 확률을 얻을 수 있다.
  • 중요한 것은 Bayesian 은 사전분포 내의 정보와 데이터 내의 정보를 결합하여 사후분포를 추정한다. 그리고 새로운 데이터 포인트들을 관측하면, 이전에 추정했던 사후분포를 사전분포로 취급하고, 새로운 likelihood 를 구해서, 지속적(순차적)으로 정보를 업데이트 한다.
    • 이와 관련한 예제는 저번 코로나 관련 예제로 정리한 포스트가 있다.
  • MAP 는 posterior 분포를 사용은 하지만, 그걸 predictive 과정에 직접 활용하지는 않는다. MAP 에서는 posterior 를 prior 로 교체하거나, 평균내거나 하지 않고 최댓값 하나만으로 모든 추정을 끝내기 때문이다. 따라서 posterior 를 predictive 에 통째로 대입하는 건 Bayesian 추론의 전유물이다.
  • 그리고 MLE 나 MAP 는 $\theta$ 를 추정하면 그게 그대로 다음 확률이 된다. 그러나 Bayesian 은 위처럼 사후분포 전체를 고려하여 기대값으로 예측하기 때문에 불확실성도 반영된다.

차이점 정리

  • MLE 는 오직 데이터만 고려하고 over fitting 되어 극단적인 값이 나올 수 있다.
  • MAP 는 prior(사전 확률)를 반영하여 MLE보다 보수적이며, parameter에 smoothing 효과를 줄 수 있다.
  • Bayesian 은 MLE, MAP 와 달리 parameter 를 확률 변수로 보고 사후분포 전체를 추정한다. 분포의 평균, 분산 등으로 예측할 수 있어 불확실성 추정이 가능하다.
  • 데이터가 많으면 MLE, MAP, Bayesian 방식은 비슷해지지만, 데이터가 적을수록 MAP 와 Bayesian 방식이 더 안정적이다.

    항목 MLE MAP Bayesian
    사전확률 반영
    결과 형태 단일 값 (point estimate) 단일 값 (point estimate) 분포 (distribution)
    추정 방식 가능도 최대화 사후확률 최대화 사후분포 전체 사용 (예: 평균, 샘플링)
    계산 복잡도 낮음 낮음 높음 (적분 또는 샘플링 필요)
    불확실성 추정 제한적 (prior로 smoothing) ✅ (분산 등으로 불확실성 추정 가능)
맨 위로 이동 ↑

댓글 남기기