Computer/Statistics

[기초통계학] 자료의 요약 방법

SenJ 2021. 11. 12. 16:34

수집된 자료로부터 새로운 사실이 있는지 첫 번째 단계는 자료를 요약하고 정리하는 것이다.

 

자료의 종류는 아래와 같이 나눌 수 있다.

범주형 자료: 대상의 범주적 특성을 조사한 값이다. 관측 결과가 몇 개의 범주 또는 항목의 형태로 나타난다.

1) 명목자료: 순위의 개념이 없는 범주형 자료이다. 혈액형이나 성별, 결혼 상태 등이 이에 해당한다.

2) 순서자료: 순위의 개념을 갖는 범주형 자료이다. 학점, 선호도 등이 이에 해당한다.

수치형 자료: 자료 자체가 숫자로 표현되며 숫자 자체가 자료의 속성을 반영한다. 

1) 연속형 자료: 연속적인 숫자로 표현되는 자료로 키, 몸무게, 거리 등이 이에 해당한다. 

2) 이산형 자료: 이산적인 값으로 표현되는 자료로 교통사고 건수, 결석 횟수 등이 이에 해당한다.

 

 

자료의 형태에 따라 표현방법이 다르다.

1.범주형 자료

-도수분포표: 서로 다른 특성값에 대한 도수나 상대도수를 구하여 특성값과 함께 나열한 표

상대도수는 해당 범주의 도수와 총자료수의 비를 나타낸다.(해당 범주의 도수/총 자료 수)

 

-막대그래프: 수평 축에 서로 다른 특성값을 배열하고, 막대 노이가 상대도수나 도수에 비례하도록 막대를 그린 그래프


-원형그래프: 부채꼴의 중심각의 크기나 넓이가 상대도수에 비례하도록 그린 그래프

 

 

2. 수치형자료

  1) 이산형 자료: 범주형과 마찬가지로 도수분포표를 그린다. 이 도수분포표를 바탕으로 직선그림이나 히스토그램을 그린다.

직선 그림은 각 값에 대한 직선의 길이로, 히스토그램에서는 사각기둥의 넓이로 상대도수를 나타낸다.

따라서 직선길이에서 직선의 길이의 합과, 히스토그램에서 사각기둥 넓이의 합은 1이 되도록 그린다.

 

 

 

  2)연속형 자료: 전체 표본자료의 범위를 몇 개의 적당한 계급으로 나누고 각 계급의 도수나 상대도수를 구하여 계급과 함께 나열한다.

예시: 범위 구하기(최댓값-최솟값) --> 계급의 개수를 정하여 나누고 자료값의 최소단위로 맞추기 --> 구간도수와 상대도수 구하기

**첫 계급의 시작점은 최솟값에서 자료값의 최소단위의 1/2를 빼서 중복되거나 빠지는 자료가 없도록 설정한다.

정리된 자료는 도수분포표, 히스토그램, 점도표 등으로 나타낼 수 있다.



계급을 나누어 히스토그램으로 표현하면 같은 계급안의 모든 자료들이 하나의 계급으로 표현되기 때문에 자료의 손실이 있을 수 있다.

예를 들어, 위 도수분포표에서는 58과 64는 하나의 계급으로 표현되기 때문에 6의 차이를 나타낼 수 없다.

 

따라서 또 다른 표현 방법은 줄기 잎 그림으로, 자료의 값이 두 자리 수의 값일 때 유용하다. 

줄기 잎 그림은 자료의 손실이 거의 없이 모든 자료를 볼 수있다는 장점이 있다.

또한 자료 형태 파악이 쉽고, 이상점 자료에 대한 정보를 얻기 쉽다.