Computer/Statistics

[기초통계학] 확률 / 조건부 확률

SenJ 2021. 11. 19. 10:42

확률이란 어떤 일이 일어날 가능성의 정도를 수치로 나타낸 것을 의미한다. 

확률은 표본을 바탕으로 모집단에 대한 결론을 이끌어내는 데 논리적인 근거가 된다. 

 

실험이란 두 가지로 나눌 수 있다.

1) 결정적 시험: 실험 조건이 똑같으면 항상 같은 결과가 나오는 실험

2) 확률적 실험: 실험 조건을 똑같이 하여도 매번 결과가 달라지는 실험 -> 여기서 얻어지는 각 결과들에 대한 가능성을 확률을 통해 설명

 

확률에서 중요 용어

-표본공간(S): 확률실험에 의하여 나타날 수 있는 모든 결과들의 집합, 개개의 결과들을 표본 공간의 기본 결과  또는 원소라고 한다.

ex) 주사위를 던져셔 나올 수 있는 수의 표본공간 S={1,2,3,4,5,6}

-사건: 특정한 성질을 지닌 기본결과들로 이루어진 모임으로 서 표본공간의 부분집합에 해당된다

ex)사건 A는 주사위를 던져서 나오는 수가 짝수, A={2,4,6}

-상호배반: 서로 다른 사건 A, B의 교사건이 A∩B=0 인 경우 두 사건 A와 B는 상호배반인 사건이라고 한다.

    ex) 사건 B는 주사위를 던져서 나오는 수가 홀수, 이 때 사건 A와 B는 상호배반

 

확률의 정의

1) 고전적 정의: 표본공간에 속하는 모든 기본결과들의 발생 가능성이 동일한 경우 사건 A가 발생할 확률 P(A)

P(A)=사건 A에 속하는 기본결과들의 수 / 표본공간 S에 속하는 기본결과들의 수

ex) P(A) = 3/6 = 1/2

- 균일하지 않은 표본공간, 원소의 개수가 무한한 표본공간에서는 확률을 고전적 정의로 정의할 수 없다.

 

2) 경험적 확률: 윷놀이와 같이 기본결과들의 발생 가능성이 동일하지 않은 경우 실험을 직접 여러번 반복해서 실행한 후, 그 중에 그 사건이 발생하는 횟수를 관측한다.

N을 실험을 시행한 횟수라고 하고, N(A)는 N번의 시행에서 사건 A가 일어난 횟수라고 하면 P(A)= N(A)/N

이는 N이 증가함에 따라 처음에는 들쑥날쑥하게 변하지만, N이 증가하면 점점 안정되어 어떤 값에 수렴하게 된다.

-그러나 동일한 극한값으로 수렴할 수 있는지에 대한 의문을 증명할 수는 없다.

 

3) 공리적 확률:P(A)는 다음 세 가지 공리를 만족하는 실수 값이다. 

1. 0<P(A)<1

2.표본공간 S의 확률 P(S) =1

3.상호배반 사건들의 합은 그들 확률의 합과 동일하다.

 

조건부 확률이란 관련된 다른 사건이 이미 발생했다는 정보가 주어지면 기존 사건의 발생확률을 재조정해야하는 경우를 의미한다.

사건 B가 주어졌을 때, 사건 A가 일어날 확률은 다음과 같이 정의한다.

 

조건을 분모로 두고 조건과 구하고자하는 사건의 확률의 교집합을 분모로하여 계산한다.

 

이때 조건부확률을 쉽게 구할 수 있고, A와 B의 교집합이 궁금할 때는 확률의 곱셈법칙을 이용하여 쉽게 계산할 수 있다.

, P(B)>0

B를 조건으로 사건 A가 일어날 확률뿐 아니라, A를 조건으로 사건 B가 일어날 확률을 활용한다면 A의 확률로도 접근할 수 있다.

, P(A)>0 

 

조건부 확률에 반하는 독립 사건도 존재한다.

독립사건이란 사건 A의 발생이 사건 B가 일어날 확률에 아무런 영향을 미치지 않을 때, 두 사건을 서로 독립이라고 한다.

다시 말해서 사건 A가 일어났을 때에도, 사건 B의 확률은 변화가 없다는 것을 의미한다.

 

 

 

위 공식을 조건부확률 공식과 함께 활용하면, 사건 A와 B가 독립일 때는 

 

이 성립한다. 

 

조건부확률을 반대로 적용하여 B가 주어질 때 A의 확률을 활용하여 다음과 같이 A가 주어질 때 B의 확률로 정리할 수 있다.

 

 

 

마지막으로 총확률의 법칙은 사건 A가 발생할 확률을 상호배반인 두 개의 사건인 B와 B의 여집합의 부분으로 구별하여 각각의 확률을 구한 뒤 더해서 총 확률을 구하는 것이다.

예를 들어, 우리나라 사람 인구의 1%가 병에 걸린 경우, 병에 걸린사람을 정확히 진단할 확률 98%, 병에 걸리지 않은 사람을 정확히 진단할 확률이 70%라고 가정했을 때, 인구 중 한명을 검사했을 때 병에 걸렸다고 진단할 확률은

으로 나누어서 계산할 수 있다.

 

이를 일반화 하면

사건 B1, B2...Bn이 상호 배반이고 모두 더했을 때 표본공간 S로 나타낼 수 있을 때,

 

로 계산할 수 있다.

 

 

이 식을 활용했을 때 베이즈의 법칙을 적용할 수 있다. 

위 예에서 병에 걸렸다고 진단한 사람이 실제로 병에 걸린 인구인 확률은

위 식에서 계산된 확률을 분모로 두고, 병에 걸린 인구 x 병 걸린 인구를 정확히 진단할 확률을 분자로 계산하면 된다.