기초
결합확률
결합확률 (joint probability) : 사건 A와 B가동시에 일어날 확률
$$ P(A \cap B)\ or\ P(A,B) $$
주변확률
주변확률 (marginal probability) :개별사건의 확률, 결합확률과 대비되는 개념
$$ P(A),\ P(B) $$
Soccer | Badminton | ||
Male | 0.4 | 0.2 | 0.6 |
Female | 0.1 | 0.3 | 0.4 |
0.5 | 0.5 | 1 |
표로 만들어 보면, 가운데에 있는 확률들(0.4, 0.2, 0.1, 0.3)이 결합확률
표의 여백, 가장자리(margin)에 위치한 확률들(0.6, 0.4, 0.5, 0.5)이 주변확률
조건부확률
조건부확률 (conditional probability) : 특정조건하에 사건이 일어날 확률
사건 B가 일어났을 때, 사건 A가 일어날 확률
$$ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A,B)}{P(B)} $$
베이즈 정리 공식
$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$
- $P(A|B)$ : 사후확률(posterior probability)
- $P(A)$ : 사전확률(prior probability)
- $P(B|A)$ : 가능도, 우도(likelihood)
- $P(B)$ : 정규화 상수(normalizing constant) 또는 증거(evidence)
베이즈 정리의 의미와 의의
결론부터 말하면,
베이즈 정리는 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신(update)해 나가는 방법이다.
즉, 관찰을 통해 새로운 정보를 획득하여 사전확률을 업데이트한 사후확률을 구한다.
베이즈 정리를 이해하기 어려운 이유?
지금까지 배워왔던 확률론에서 확률을 빈도주의적인 관점에서 정의하고 이해해왔다.
→ 전통적인 관점: 빈도주의(frequentism)
하지만 베이즈 이론에서는 확률을 주장에 대한 신뢰도로 생각할 수 있다.
→ 새로운 관점: 베이지안주의(Bayesianism)
만약 동전을 던져서 앞면이 나올 확률이 50%라고 한다면,
→ 빈도주의적 관점: 100번 동전을 던졌을 때 50번은 앞면이 나온다고 해석
→ 베이지안주의적 관점: 동전의 앞면이 나왔다는 주장의 신뢰도가 50%라고 해석
기존의 통계학: 빈도주의(frequentism)
- 연역적 추론
- 엄격한 확률 공간을 정의 (주사위를 던져서 6개의 숫자 각각이 나올 확률 = 1/6)
새로운 통계학: 베이지안주의(Bayesianism)
- 귀납적 추론
- 추가되는 정보를 바탕으로 사전확률을 업데이트한 사후확률을 구함
- 경험에 기반한, 선험적인 혹은 불확실성을 내포하는 수치를 기반으로 함
(어떤 기존의 확률이 나중에 추가되는 새로운 정보로 인해 바뀔 수 있음)
$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$
위에서 언급했던 사후확률과 사전확률을 설명해보자면
사전확률 $P(A)$는 어떤 사건이 발생했다는 주장에 대한 신뢰도
사후확률 $P(A|B)$는 새로운 정보를 받은 후 갱신된 신뢰도 라고 할 수 있다.
즉, 사전확률과 사후확률을 evidence를 관측하여 갱신하기 전 후의 주장에 관한 신뢰도라고 할 수 있다.
그리고 베이즈 정리는 사전확률 $P(A)$와 사후확률 $P(A|B)$간의 관계에 대해 설명하는 정리이다.
위 내용만으로는 직관적으로 이해하기 어려우니 예시를 통해 이해해보자
예시
Q1. 어떤 병의 발병률은 0.1%로 알려져있다. 실제로 병에 걸린 사람에게 병이 있다고 검진(양성 판정)할 확률이 99%, 실제로 병에 걸리지 않은 사람에게 병이 없다고 검진(음성 판정)할 확률이 98%라고 한다. 만약 어떤 사람이 병에 걸렸다고 검진(양성 판정)받았을 때, 이 사람이 실제로 병에 걸렸을 확률을 구하시오.
A1. 다음과 같이 정의해보자
$A$ : 실제로 병에 걸림
$B$ : 검진 결과 병에 걸렸다고(양성) 판단됨
구해야 할 것을 수학적으로 표현해보면 $P(A|B)$
$$ P(A|B)=\frac{P(B|A)P(A)}{P(B)} $$
우항의 값들을 구해보자면,
병의 발병률은 0.1% → $P(A)=0.001$
실제로 병에 걸린 사람에게 병이 있다고 검진할 확률이 99% → $P(B|A)=0.99$
$P(B)$는 실제로 병에 걸렸는데 병이 있다고 검진할 확률 + 실제로 병에 걸리지 않았는데 병이 있다고 검진할 확률 로 표현할 수 있다 → $P(B)\ =\ P(B \cap A) + P(B \cap A^{c})\ =\ P(B|A)P(A) + P(B|A^{c})P(A^{c})$
실제로 병에 걸리지 않은 사람에게 병이 없다고 검진할 확률이 98% → $P(B^{c}|A^{c})=0.98$
그렇다면, 실제로 병에 걸리지 않은 사람에게 병이 있다고 검진할 확률은 2% → $P(B|A^{c})=0.02$
$$ P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^{c})P(A^{c})} = \frac{0.99 \times 0.001}{(0.99 \times 0.001) + (0.02 \times 0.999)} = 0.047 $$
새로운 정보를 기반으로 업데이트한, 주장에 대한 신뢰도는 $4.7\%$이다
Q2. 위의 예시에서 한 번 양성 판정을 받았던 사람이 두번째 검진을 받고 또 양성 판정을 받았을 때, 이 사람이 실제로 병에 걸렸을 확률을 구하시오.
A2. 위에서 계산된 사후확률을 다시 사전확률로 이용하면 된다!
$$ P(A|B) = \frac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^{c})P(A^{c})} = \frac{0.99 \times 0.047}{(0.99 \times 0.047) + (0.02 \times 0.953)} = 0.709 $$
새로운 정보를 기반으로 업데이트한, 주장에 대한 신뢰도는 $70.9\%$이다
즉, 약 $71\%$의 신뢰도로 이 사람은 병에 걸렸다고 말할 수 있을 것이다
출처 :
Youtube, 공돌이의 수학정리노트 - 베이즈 정리의 의미
https://angeloyeo.github.io/2020/01/09/Bayes_rule.html
http://solarisailab.com/archives/2614
'Math & Statistics' 카테고리의 다른 글
매크로 평균(Macro-Average)과 마이크로 평균(Micro-Average) (0) | 2023.01.03 |
---|---|
코사인 유사도 (Cosine Similarity) (0) | 2022.06.24 |
Markov Chains, 마르코프 체인 (0) | 2022.05.21 |
Taylor series, 테일러 급수 (0) | 2022.05.13 |
확률과 통계 개념정리 (0) | 2022.03.12 |