무직 백수 라이프 살아남기

conjugate prior? wiki example 본문

Bayes Inference

conjugate prior? wiki example

발등에 메테오 떨어짐 2024. 11. 6. 09:50

## 실제 예시: 렌터카 서비스와 사후 예측 분포

**문제 상황:**

도시 내에서 운영되는 렌터카 서비스가 있다고 가정해 봅시다. 운전자는 도시 경계 내 어디에서나 차량을 반납하고 픽업할 수 있으며, 앱을 사용하여 차량을 찾고 대여할 수 있습니다. 이때, 하루 중 언제든지 집 주소에서 가까운 거리에 렌터카를 찾을 수 있는 확률을 알고 싶다고 가정해 보겠습니다.

**데이터 수집:**

3일 동안 앱을 확인한 결과, 집 주소에서 가까운 거리에 있는 차량의 수는 다음과 같습니다.  $\mathbf{x} = [3, 4, 1]$

**포아송 분포 가정:**

데이터가 포아송 분포를 따른다고 가정하면, 모델 매개변수의 최대 가능도 추정값을 계산할 수 있습니다. 이 경우 $\lambda = \frac{3+4+1}{3} \approx 2.67$ 입니다. 이 최대 가능도 추정값을 사용하여 특정일에 최소 한 대의 차량을 이용할 수 있는 확률을 계산할 수 있습니다.

$p(x>0 | \lambda \approx 2.67) = 1 - p(x=0 | \lambda \approx 2.67) = 1-\frac{2.67^0 e^{-2.67}}{0!} \approx 0.93$

**모델 불확실성:**

이는 관측된 데이터 $\mathbf{x}$를 생성했을 가능성이 가장 높은 포아송 분포입니다. 그러나 데이터는 $\lambda = 3$ 또는 $\lambda = 2$ 등 다른 포아송 분포에서 생성되었을 수도 있습니다. 실제로 관측된 데이터를 생성했을 수 있는 포아송 분포는 무한히 많습니다. 데이터 포인트가 상대적으로 적으면 어떤 포아송 분포가 이 데이터를 생성했는지에 대해 상당히 불확실해야 합니다. 직관적으로, 각 포아송 분포에 대해 $p(x>0|\lambda)$ 확률의 가중 평균을 취해야 합니다. 가중치는 관측된 데이터 $\mathbf{x}$가 주어졌을 때 각 분포의 가능성입니다.

**사후 예측 분포:**

일반적으로 이 수량은 사후 예측 분포로 알려져 있습니다.

$p(x|\mathbf{x}) = \int_\theta p(x|\theta)p(\theta|\mathbf{x})d\theta$

여기서 $x$는 새로운 데이터 포인트, $\mathbf{x}$는 관측된 데이터, $\theta$는 모델의 매개변수입니다. 베이즈 정리를 사용하여 $p(\theta|\mathbf{x}) = \frac{p(\mathbf{x}|\theta)p(\theta)}{p(\mathbf{x})}$를 확장할 수 있습니다. 따라서,

$p(x|\mathbf{x}) = \int_\theta p(x|\theta)\frac{p(\mathbf{x}|\theta)p(\theta)}{p(\mathbf{x})}d\theta$

일반적으로 이 적분은 계산하기 어렵습니다. 그러나 공액 사전 분포 $p(\theta)$를 선택하면 폐쇄형 표현식을 도출할 수 있습니다. 이것이 아래 표의 사후 예측 열입니다.

**감마 분포를 사전 분포로 선택:**

이 예시로 돌아가서 포아송 분포의 비율에 대한 사전 분포로 감마 분포를 선택하면 사후 예측은 음이항 분포가 됩니다. 감마 분포는 두 개의 초매개변수 $\alpha$, $\beta$로 매개변수화되며, 이를 선택해야 합니다. 감마 분포의 플롯을 보면 $\alpha = \beta = 2$를 선택하는 것이 합리적인 사전 분포로 보입니다. 사전 초매개변수의 선택은 본질적으로 주관적이며 사전 지식을 기반으로 합니다.

**사후 초매개변수 계산:**

사전 초매개변수 $\alpha$와 $\beta$가 주어지면 사후 초매개변수를 계산할 수 있습니다.

$\alpha' = \alpha + \sum_i x_i = 2 + 3+4+1 = 10$ 
$\beta' = \beta + n = 2+3 = 5$

**사후 예측 계산:**

사후 초매개변수가 주어지면 마침내 사후 예측을 계산할 수 있습니다.

$p(x>0|\mathbf{x}) = 1-p(x=0|\mathbf{x}) = 1 - NB\left(0\, |\, 10, \frac{5}{1+5}\right) \approx 0.84$

이 훨씬 더 보수적인 추정치는 사후 예측이 고려하는 모델 매개변수의 불확실성을 반영합니다.

**계산 과정 상세 설명:**

1. **최대 가능도 추정:** 관측된 데이터를 가장 잘 설명하는 포아송 분포의 매개변수(λ)를 찾습니다. 이는 데이터의 평균값으로 계산됩니다.
2. **감마 분포 선택:** 포아송 분포의 비율(λ)에 대한 사전 분포로 감마 분포를 선택합니다. 감마 분포는 두 개의 초매개변수 (α, β)를 사용하여 모양을 조정합니다.
3. **초매개변수 선택:** 사전 지식이나 경험을 바탕으로 감마 분포의 초매개변수 (α, β)를 선택합니다. 이 값은 주관적일 수 있습니다.
4. **사후 초매개변수 계산:** 관측된 데이터와 사전 초매개변수를 사용하여 사후 감마 분포의 초매개변수 (α', β')를 계산합니다. 
    - α' = α + Σxi (관측된 데이터 값의 합)
    - β' = β + n (관측된 데이터의 개수)
5. **사후 예측 분포 계산:** 사후 감마 분포를 사용하여 사후 예측 분포를 계산합니다. 이 경우, 포아송 분포와 감마 분포는 공액 사전 분포이므로 사후 예측 분포는 음이항 분포가 됩니다.
6. **확률 계산:**  음이항 분포를 사용하여 특정 사건 (예: 하루에 최소 한 대의 차량을 이용할 수 있는 확률)의 확률을 계산합니다.

**결론:**

이 예시는 베이지안 추론을 사용하여 모델 매개변수의 불확실성을 고려하여 사건의 확률을 추정하는 방법을 보여줍니다. 공액 사전 분포를 사용하면 사후 분포와 사후 예측 분포를 폐쇄형으로 계산할 수 있어 복잡한 적분 계산 없이 베이지안 분석을 수행할 수 있습니다.