수집된 자료로부터 새로운 사실이 있는지 첫 번째 단계는 자료를 요약하고 정리하는 것이다.
자료의 종류는 아래와 같이 나눌 수 있다.
범주형 자료: 대상의 범주적 특성을 조사한 값이다. 관측 결과가 몇 개의 범주 또는 항목의 형태로 나타난다.
1) 명목자료: 순위의 개념이 없는 범주형 자료이다. 혈액형이나 성별, 결혼 상태 등이 이에 해당한다.
2) 순서자료: 순위의 개념을 갖는 범주형 자료이다. 학점, 선호도 등이 이에 해당한다.
수치형 자료: 자료 자체가 숫자로 표현되며 숫자 자체가 자료의 속성을 반영한다.
1) 연속형 자료: 연속적인 숫자로 표현되는 자료로 키, 몸무게, 거리 등이 이에 해당한다.
2) 이산형 자료: 이산적인 값으로 표현되는 자료로 교통사고 건수, 결석 횟수 등이 이에 해당한다.
자료의 형태에 따라 표현방법이 다르다.
1.범주형 자료
-도수분포표: 서로 다른 특성값에 대한 도수나 상대도수를 구하여 특성값과 함께 나열한 표
상대도수는 해당 범주의 도수와 총자료수의 비를 나타낸다.(해당 범주의 도수/총 자료 수)
-막대그래프: 수평 축에 서로 다른 특성값을 배열하고, 막대 노이가 상대도수나 도수에 비례하도록 막대를 그린 그래프
-원형그래프: 부채꼴의 중심각의 크기나 넓이가 상대도수에 비례하도록 그린 그래프
2. 수치형자료
1) 이산형 자료: 범주형과 마찬가지로 도수분포표를 그린다. 이 도수분포표를 바탕으로 직선그림이나 히스토그램을 그린다.
직선 그림은 각 값에 대한 직선의 길이로, 히스토그램에서는 사각기둥의 넓이로 상대도수를 나타낸다.
따라서 직선길이에서 직선의 길이의 합과, 히스토그램에서 사각기둥 넓이의 합은 1이 되도록 그린다.
2)연속형 자료: 전체 표본자료의 범위를 몇 개의 적당한 계급으로 나누고 각 계급의 도수나 상대도수를 구하여 계급과 함께 나열한다.
예시: 범위 구하기(최댓값-최솟값) --> 계급의 개수를 정하여 나누고 자료값의 최소단위로 맞추기 --> 구간도수와 상대도수 구하기
**첫 계급의 시작점은 최솟값에서 자료값의 최소단위의 1/2를 빼서 중복되거나 빠지는 자료가 없도록 설정한다.
정리된 자료는 도수분포표, 히스토그램, 점도표 등으로 나타낼 수 있다.
계급을 나누어 히스토그램으로 표현하면 같은 계급안의 모든 자료들이 하나의 계급으로 표현되기 때문에 자료의 손실이 있을 수 있다.
예를 들어, 위 도수분포표에서는 58과 64는 하나의 계급으로 표현되기 때문에 6의 차이를 나타낼 수 없다.
따라서 또 다른 표현 방법은 줄기 잎 그림으로, 자료의 값이 두 자리 수의 값일 때 유용하다.
줄기 잎 그림은 자료의 손실이 거의 없이 모든 자료를 볼 수있다는 장점이 있다.
또한 자료 형태 파악이 쉽고, 이상점 자료에 대한 정보를 얻기 쉽다.
'Computer > Statistics' 카테고리의 다른 글
[기초통계학] 확률변수 (0) | 2021.12.01 |
---|---|
[기초통계학] 확률 / 조건부 확률 (0) | 2021.11.19 |
[기초통계학] 중심측도, 변이측도 (표본 / 분산 / 편차 ) (0) | 2021.11.18 |
[기초통계학] 기본개념 (0) | 2021.11.11 |