Computer/Statistics

[기초통계학] 중심측도, 변이측도 (표본 / 분산 / 편차 )

SenJ 2021. 11. 18. 16:40

시각화에서 파악된 특징을 특징을 수치로 나타내는 것도 필요하다.

자료의 중심측도는 자료의 중심위치를 나타내는 값이다. 반대로 자료의 변이측도는 자료의 흩어짐을 나타내는 값이다.

 

1. 중심측도

  1) 표본평균 : 측정값을 모두 더하여 자료의 개수로 나누어 얻는다. 평균은 자료의 무게중심을 의미한다.

    

  

  2)표본 중앙값: 자료를 크기 순서로 정리했을 때 가운데 위치하는 관측값이다. 이는 극단값으로 인한 영향이 없다는 특징이 있다.

  자료의 개수가 홀수인 경우 중앙 값이 한 개인 반면, 짝수인 경우에는 두 개가 된다. 이 때는 이들의 평균이 된다.

  ex) 1 2 3 4 5 6 --> 중앙값은 3.5

  3)최빈값: 자료들 중에서 가장 출현 빈도가 많은 값

 

그래프에서 오른쪽으로 꼬리가 긴 경우 최빈값 < 중앙값< 평균 으로 나타나며

반대로 왼쪽으로 꼬리가 긴 경우 최빈값>중앙값>평균 의 값을 보인다.

 

  4)표본의 제 p백분위수: 표본을 크기 순서로 나열했을 때 자료 갯수의 p%가 그 값보다 작고, (100-p)%가 그 값보다 크게 도는 값이다.

    

로 계산하며 결과 값이

 

정수인 경우

, 소수인 경우 

 로 최종 값을 계산한다.

  

  5)표본의 사분위수: 표본의 1사분위수는 표본의 제 25백분위수, 2사분위수는 제 50백분위수, 3사분위수는 75백분위수를 뜻한다.

 

2. 변이측도: 두 자료의 중심측도가 같더라도 흩어짐의 정도는 다를 수 있다.

  1) 분산: 모든 표본자료에서 평균을 뺀 값의 제곱의 총합을 1/n-1 로 나눈 값을 뜻한다.

  2) 표준편차: 표준편차는 분산의 양의 제곱근을 뜻한다. 분산에 루트를 씌워준 값이다.

- 자료의 경험적 규칙: 자료가 충분히 많을 때는 근사적으로

자료의 68%가 (평균-표준편차, 평균+표준편차) 안에 있다.

자료의 95%가 (평균-2*표준편차, 평균+2*표준편차) 안에 있다.

자료의 99%가 (평균-3*표준편차, 평균+3*표준편차) 안에 있다.

  3) 표본범위: 최댓값 - 최솟값

  4) 표본사분위수: 표본의 3사분위수 - 1사분위수

 

변이측도는 상자그림(box plot) 을 통해 직관적으로 판단할 수 있다.

이상점 파악은 대략 울타리로 파악할 수 있다

-안울타리: 1사분위-1.5*표본사분위수범위 or 1사분위+1.5*표본사분위수범위

-바깥울타리: 1사분위-3*표본사분위수범위 or 1사분위+3*표본사분위수범위

로 가정했을 때 보통이상점은 안울타리와 바깥울타리 사이, 극단이상점은 바깥울타리 밖의 자료라고 할 수 있다.

 

마지막으로 이변량 자료의 개념을 정리하면

주어진 표본단위에 대해 두 가지 특징값을 기록하여 얻은 자료를 뜻하며, 이 두 가지 특성값의 관계 정도가 중요하다.

이는 두 특성값을 양 축으로 산점도를 그려보면 직관적으로 파악할 수 있다.

점들의 모양은 다양하게 나타나는데 이러한 점들이 직선에 밀집한 정도를 수치로 나타낸 것이 표본상관계수라고 한다.

표본상관계수 r은 -1과 1 사이에 다양하게 나타나며, r의 절댓값은 선형관계의 강도를 나타내고, 부호는 방향을 나타낸다.

또한 r=0 인 경우는 상관성이 없고 r=1 또는 r=-1인 경우 완전 선형을 이룬다.

 

 

 

주의 해야할 점은 

표본 상관계수가 1에 가까운 값이더라도 두 변수 사이에 강한 관계가 있다고 말할 수 없는 경우도 있다. 

(다른 집단에서 뽑아낸 표본을 같이 검사하는 오류)

또한 표본 상관계수가 높다고 하더라도 두 변수 사이에 인과관계가 있는 것으로 해석해서는 안된다. 

변수사이에 잠복성 변수가 영향을 끼칠 수 있기 때문에 원인과 결과관계가 맞는지 파악을 잘 해야한다.

***상관관계는 인과관계를 뜻하지 않는다.

'Computer > Statistics' 카테고리의 다른 글

[기초통계학] 확률변수  (0) 2021.12.01
[기초통계학] 확률 / 조건부 확률  (0) 2021.11.19
[기초통계학] 자료의 요약 방법  (0) 2021.11.12
[기초통계학] 기본개념  (0) 2021.11.11