본문 바로가기

인공지능/확률과 통계

[확률과 통계] 베이즈 정리

베이즈 정리

베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리로 사전 확률로부터 사후 확률을 구할 수 있는 방법을 제시한다.

  P(A) - 사전 확률: 결과가 나타나기 이전에 정해져 있는 사건 A의 확률(원인)

  P(B|A) - 우도 확률: 사건 A가 발생했다는 전제 하에 사건 B가 발생할 확률

  P(A|B) - 사후 확률: 사건 B가 발생했다는 전제 하에 사건 A가 발생했을 확률

 

결국 베이즈 정리는 조건부 확률(사후 확률)을 구하기 위한 정리로 이미 발생한 사건의 확률을 이용해 앞으로 발생하게 될 사건의 가능성을 구할 수 있다.

 

베이즈 정리 역확률 문제

본래 베이즈 정리는 역확률 문제를 해경하기 위한 방법이었다. 조건부 확률을 알고 있을때, 사전 확률을 이용하여 조건부 확률(우도 확률)을 알아내는 방법인 것이다. 자세한 설명은 아래 링크의 예시를 읽어 보면 이해가 쉽다.

https://namu.wiki/w/%EB%B2%A0%EC%9D%B4%EC%A6%88%20%EC%A0%95%EB%A6%AC#s-2.1

 

간단하게 계산을 해보면은 어떻게 베이즈 정리가 쓰이는지 이해가 될 것이다. 이 시국에 맞게 코로나를 예를 들어 계산을 해보자.

 

Q) A씨가 코로나 진단 키트를 이용한 결과 양성으로 판정 받았을 때,

    A씨가 실제로 코로나에 걸렸을 확률은 몇 %인가?

    단, 코로나 진단 키트의 정확도는 90%이고, 코로나에 걸릴 확률은 5%이다.

 

코로나에 걸릴 확률 P(코로나) = 0.05, 코로나가 아닐 확률 P(no코로나) = 0.95이고 진단 키트 결과 양성일 때 코로나 확률 P(양성|코로나) = 0.9, 양성이라고 진단 받았지만 실제 코로나가 아닐 확률 P(양성|no코로나) = 0.1 이렇게 표현이 가능할 것이다.

 

그렇다면 이를 이용하여 진단 키트 결과가 양성일 때 실제 코로나에 걸렸을 확률을 계산해 보자

P(코로나|양성) = P(양성|코로나) x P(코로나) / P(양성)

P(양성) = 코로나일 때 양성일 확률 + 코로나가 아닐 때 양성일 확률

          = P(양성|코로나) x P(코로나) + P(양성|no코로나) x P(no코로나)

          = 0.9 x 0.05 + 0.1 x 0.95

          = 0.14

 

∴ P(코로나|양성) = 0.9 x 0.05 / 0.14 ≒ 0.32

 

이와 같이 계산 되므로 A씨가 코로나 진단 키트 결과 양성일때, 실제 코로나일 확률은 32%인 것이다. 코로나에 걸릴 확률 자체가 5%로 상당히 낮기 때문에,  코로나 진단 키트 결과가 양성이어도 실제 코로나일 확률은 32%로 상당히 낮은 것을 볼 수 있다.

 

이처럼 실제 코로나일 확률이 낮은 경우에는 음성이라고 판단하는 정확도가 양성이라고 판정하는 정확도보다 중요하다고 할 수 있다.