Monte Carlo Estimator
핵심사항
xxxxxxxxxx
md"""
#### Monte Carlo Estimator
**핵심사항**
```math
\begin{align*}
E[f(X)] = \int f(X)P_X(X)dX \tag{1}\\
\text{ $P_X(X)$ : Probability distribution of random variable $X$} \\ \\
F = \int f(x)dx \\
\langle F^N \rangle = \frac{1}{N}\sum_{i=0}^{N-1} \frac{f(X_i)}{pdf(X_i)} \tag{2}\\
\text{$\langle F^N \rangle$ is an $\bf{approximation}$ of $F$ using $N$ samples} \\ \\
Pr\left(\underset{N\rightarrow\infty}{\lim}\langle F^N \rangle = F \right) = 1 \\ \\
E[f(X)] = F \\
E[\langle F^N \rangle] = E \left[ \frac{1}{N} \sum_{i=0}^{N-1} \frac{f(X_i)}{pdf(X_i)} \right] = F \\
E\left[f(x)\right] = \int_{\Omega}f(x)pdf(x)dx
\end{align*}
```
"""
Q : 균등 분포가 아닌 다른 분포에서 표본을 추출하려는 이유는 뭘까?
A : 샘플을 생성하기 위해 주어진 랜덤 생성기(Random Generator)만 사용할 있고 이 생성기의 PDF가 균일하지 않기 때문
따라서, 만약 그렇다면, 적어도 우리는 여러분이 몬테카를로 적분을 사용할 수 있다는 것 만은 증명했습니다. 여러분이 잊지 않고 나누기만 한다면 말이죠. 하지만 여러분은 이 결과가 다음 장에서 분산 감소를 연구할 때 유용하다는 것을 알게 될 것입니다. 그러니 계속해서 읽으면 이 결과가 왜 중요한지 곧 이해할 수 있을 거예요!
(PDF가 상수가 아닌 경우)
PDF는 확률 변수 X가 어떤 값을 얻을 확률을 제공합니다.
임의의 PDF에서 샘플을 뽑을 때 샘플이 균일하게 분포되지 있지 않습니다.
PDF가 높은 곳에서 더 많은 샘플이 생성되고 반대로 PDF가 낮은 곳에서는 더 적은 샘플이 생성됩니다.
하지만
몬테카를로 적분에서는 샘플이 균일하게 분포 되어 있어야 합니다.
함수의 일부 영역에서 많은 샘플을 뽑는 경우 (이 영역에서 PDF가 높기 때문에)
Monte Carlo 적분의 결과가 명확하게 편향됩니다.
실제로, pdf가 높을 때 (더 많은 샘플이 생성되는 곳이기도 함)
f(x)를 pdf (x)로 나누면 합계에서 이러한 샘플의 "가중치"가 줄어 듭니다.
pdf가 높은 영역에서 뽑은 많은 샘플의 기여도를 높은 pdf로 나눔으로써 기여도를 낮춥니다.
반면 pdf가 낮은 영역에서 뽑은 샘플 수가 적은 것은 낮은 pdf로 나눔으로써 기여도를 높입니다.
xxxxxxxxxx
md"""
* Q : 균등 분포가 아닌 다른 분포에서 표본을 추출하려는 이유는 뭘까? \
* A : 샘플을 생성하기 위해 주어진 랜덤 생성기(Random Generator)만 사용할 있고 이 생성기의 PDF가 균일하지 않기 때문
따라서, 만약 그렇다면, 적어도 우리는 여러분이 몬테카를로 적분을 사용할 수 있다는 것 만은 증명했습니다. 여러분이 잊지 않고 나누기만 한다면 말이죠. 하지만 여러분은 이 결과가 다음 장에서 분산 감소를 연구할 때 유용하다는 것을 알게 될 것입니다. 그러니 계속해서 읽으면 이 결과가 왜 중요한지 곧 이해할 수 있을 거예요!
**(PDF가 상수가 아닌 경우) $f(x)$를 $pdf(x)$로 나누는 것이 필요한 이유를 직감 해 보겠습니다.**
* PDF는 확률 변수 X가 어떤 값을 얻을 확률을 제공합니다.
* 임의의 PDF에서 샘플을 뽑을 때 샘플이 균일하게 분포되지 있지 않습니다.
* PDF가 높은 곳에서 더 많은 샘플이 생성되고 반대로 PDF가 낮은 곳에서는 더 적은 샘플이 생성됩니다.
하지만
**몬테카를로 적분에서는 샘플이 균일하게 분포 되어 있어야 합니다.**
* 함수의 일부 영역에서 많은 샘플을 뽑는 경우 (이 영역에서 PDF가 높기 때문에)
* Monte Carlo 적분의 결과가 명확하게 편향됩니다.
```math
\text{\bf \color{red} $f(x)$를 $pdf(x)$로 나누면이 효과를 상쇄 할 수 있습니다.}
```
* 실제로, pdf가 높을 때 (더 많은 샘플이 생성되는 곳이기도 함)
* f(x)를 pdf (x)로 나누면 합계에서 이러한 샘플의 "가중치"가 줄어 듭니다.
* pdf가 높은 영역에서 뽑은 많은 샘플의 기여도를 높은 pdf로 나눔으로써 기여도를 낮춥니다.
* 반면 pdf가 낮은 영역에서 뽑은 샘플 수가 적은 것은 낮은 pdf로 나눔으로써 기여도를 높입니다.
```math
\text{\bf \color{red} 그것이 본질적으로 $f(x)$를 $pdf(x)$로 나누는 것입니다. }
```
"""
Properties of Monte Carlo Integration
몬테카를로 추정은 표본 크기가 무한에 가까워짐에 따라 함수 f(x) 기대 값으로 수렴됩니다. 짐작할 수 있듯이 이것은 매우 중요한 속성입니다. 표본 평균과 마찬가지로 N이 높을수록 확률 적으로 정답 (F)에 수렴 할 가능성이 더 높습니다.
Monte Carlo 추정기는 편향되지 않고 일관성이 있습니다.
수렴 속도는 함수의 분산에 비례합니다. 추정량의 분산
은 그 자체가 이제 친숙한 공식입니다. 실제로 이는 는 것을 의미합니다.Central Limit Theorem은 추정치의 점근 분포 특성을 정확하게 정의합니다. 즉,
는 정규 분포 입니다.
xxxxxxxxxx
md"""
#### Properties of Monte Carlo Integration
* 몬테카를로 추정은 표본 크기가 무한에 가까워짐에 따라 함수 f(x) 기대 값으로 수렴됩니다. 짐작할 수 있듯이 이것은 매우 중요한 속성입니다. 표본 평균과 마찬가지로 N이 높을수록 확률 적으로 정답 (F)에 수렴 할 가능성이 더 높습니다.
$Pr\left\{ \underset{N\rightarrow\infty}{\lim}\langle F^N \rangle = 1 \right\}$
* Monte Carlo 추정기는 편향되지 않고 일관성이 있습니다.
* 수렴 속도는 함수의 분산에 비례합니다. 추정량의 분산 $\bf\color{red}\sigma^2 / n$ 은 그 자체가 이제 친숙한 공식입니다. 실제로 이는 $\bf\color{red}추정 오류를 절반으로 줄이기 위해 4 배 더 많은 샘플이 필요하다$는 것을 의미합니다.
* $\sigma\left[\langle F^N \rangle\right] \propto \frac{1}{N}$
* Central Limit Theorem은 추정치의 점근 분포 특성을 정확하게 정의합니다. 즉, $\bar{X}_n$는 정규 분포 입니다.
"""