Computer/Statistics

[기초통계학] 기본개념

SenJ 2021. 11. 11. 17:15

통계학이란 주어진 문제에 대하여 합리적인 답을 줄 수 있도록 자료를 수집하고 정리하며, 

이를 통계적 분석이론 및 방법을 통해 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 과학의 한 분야이다.

 

따라서 주요 이슈는 다음과 같다.

1) 자료를 수집하는 방법

2) 자료를 분석하는 방법

3) 내린 결론에 대한 객관성을 보장하는 방법

 

통계학은 조사하고자하는 전체를 관측할 수 없기 때문에 생긴 학문이라고 할 수 있다.

여론조사, 경제, 경영, 의학, 공학 등 분야를 막론하고 통계학은 일상생활에서부터 과학적 연구까지 폭 넓게 사용된다.

 

신뢰도가 높은 결과를 도출 또는 예측하기 위한 도구로써 통계학이 활용되기 때문에 올바른 자료를 얻는 것이 매우 중요하다.

이러한 자료는 실험을 통해서 얻거나, 조사를 통해 얻을 수 있기 때문에, 실험계획법과 표본추출법은 통계학의 매우 중요한 분야이다.

 

자료가 얻어지고 나면 이들 자료로부터 정보를 추출하고 판정을 하는 일을 하게 된다.

이 때 자료의 특성과 통계량을 표, 또는 막대그림과 같은 그림을 그려 자료의 특징을 쉽게 파악할 수 있도록 정리 요약하는 기술평가의 단계를 기술통계학으로 부른다. 자료를 어떻게 정리하고 표현하는가에 대한 부분은 통계학에서 빼놓을 수 없이 중요한 부분이지만 통계학의 일부라고 할 수 있다. 이러한 기술통계학은 통계학의 기초를 배우고 시각화에 대한 노하우가 생긴다면 어렵지 않게 할 수 있다.

 

위 기술통계 단계를 거친 정보들은 확률을 바탕으로 객관화 과정을 객관화과정을 지나친다. 어러한 정보를 통하여 모집단의 특성을 추론하는 분야를 추정통계라고 하고 이 부분이 통계학의 핵심이며 목적이라고 할 수 있다. 

 

이제 통계학의 핵심용어를 살펴보자.

 

모집단은 관심의 대상이 되는 모든 추출단위의 특성값을 모아 놓은 것이다. 

예를 들어, 우리나라 성인 남자들의 커피소비량에 대해서 조사를 하고 싶을 때 모집단은 우리나라 모든 성인 남성이 대상이 된다.

모집단을 모두 조사하면 완벽한 자료를 얻을 수는 있지만 이는 불가능하거나 비현실적인 경우가 대부분이다.

 

모집단은 크게 유한모집단 무한모집단으로 나눌 수 있다.

단어 그대로 유한개의 표본단위로 구성된 모집단과, 무한개로 구성된 모집단을 구분한 것이다.

이렇게 구분 짓는 이유는 표본을 추출했을 때 어떤 특성을 보이느냐 차이가 있기 때문이다.

고등학교 수학시간 때 한번 쯤 들어봤을 법한 복원추출과 비복원추출의 특성으로 나뉜다.

유한 모집단은 당연히 비복원추출, 무한 모집단은 복원추출의 특성을 보일 것이다.

그러나 매우 큰 수의 유한모집단의 경우에는 복원추출과 비슷한 특성값을 나타낼 것이다.

 

우리나라 성인 남성의 평균키에 대해서 조사하는 것은 국방부에 문의하면 되기 때문에 예외가 있을 수 있지만, 대부분의 경우는 어렵다. 이러한 경우에 모집단의 일부분을 조사하여 얻은 자료를 분석해 사실에 대해 추측하게 된다. 

이 때 조사한 모집단의 일부분을 표본이라고 하며, 표본은 표본단위로 구성되어 있다. 

다시말해, 표본단위는 조사나 실험에서 자료를 얻기 위한 측정의 대상, 개체의 단위를 뜻한다.

 

당연하게도 우리가 통계를 사용하며 궁금한 것은 모집단에 있지만, 가지고 있는 자료는 표본에 있을 것이다.

따라서 모집단을 잘 반영할 수 있도록 표본추출을 하는 것이 필요하다.

 

결국 다시말해 통계학의 목적은

표본의 정보를 분석하여 모집단에 대한 결론을 내리고, 객관적인 결론을 내릴 수 있는 표본추출 방법을 제시하는 것이다.