본문 바로가기
AI 이론과 개발의 혼재/Theory

기술통계량 훑어보기 for EDA

by ministar 2019. 7. 16.

기술 통계량에서 흔히 다루는 개념들에 대해서 알아보자.

  • 평균 : 중심 = 대표값
  • 표준편차 : 퍼짐을 나타내는 정도 = 산포 = 다름
  • 분산 : 다름의 평균 값

samples : 1, 2, 8, 9
평균 : (1+2+8+9)/4 = 5
분산 : ((1-5)^2 + (2-5)^2 + (8-5)^2 + (9-5)^2 ) / (n-1) 
표준편차(s) : root (분산)   => 평균과 평균적으로 이정도의 편차를 보이고 있다라고 해석한다. 

이상치가 있을 경우에 위의 방식대로 표본의 특징을 나타내는 것은 매우 위험하다.

분산이나 표준편차를 구할때, 편차들의 합에 자유도 만큼으로 나눠준다.
자유도(df : degree of freedom)는 데이터의 갯수(n)일 수도 있고, n-1일 수도 있음 

자유도란? (Degree of Freedom)

예를 들어, 건물에 주차장 구역이 4군데가 있다.
나에게 주어진 주차의 자유도는? 4

만약! 건물의 주차장 구역 4군데 중 1군데는 센터장자리일 경우에는?
나에게 주어진 자유도는? 3

만약! 또 다른 1군데는 부센터장의 자리일 경우에는?
나에게 주어진 자유도는?  2 ㅠ.ㅠ

주차구역 1(센터장) 주차구역 2(부센터장) 주차구역 3 주차구역 4

이런것처럼 표준 편차를 구하는 공식에서 평균으로 인해, 하나의 값에 대한 자유도를 잃게 됨

공식으로 좀 더 풀어서 얘기해보자.

우리가 아는 분산을 구하는 공식에 보면, 데이터수(N)으로 나눌때도 있고, n-1로 나눌때도 있다.
이 나누는 값을 "자유도"라고 표현을 하게 되는데.. 

평균이 주어진 상태 (mean(x) = 5) 에서, 분산을 구한다고 할 때 1,2,3번째 값은 어떠한 값을 가져도 상관없는 자유도를 갖으나, 마지막 숫자에 대해서는 자유도를 갖지 못한다.. 그래서 자유도가 n-1이 되는것이다. 

 

중위수 절대편차 구하는 방법 : 

1) 중위수를 구한다.
2) 중위수와 주어진 수와의 편차를 계산한다.
3) 편차의 절대값을 계산한다.
4) 3)과정에서 나온 수를 정렬한다.
5) 정렬 후, 중위수를 계산하면 그 값이 중위수 절대편차가 됨.

"중위수 절대편차"의 경우, 표준편차에 비해 outlier에 비교적 강인하기 때문에
표본의 데이터의 특징을 잘 알기 위해서는 평균, 표준편차 외에도 중위수(median)와, 중위수 절대편차의 값도 봐야한다.

 

분포의 모양을 표현하는 방법은 아래가 있다.  (왜도와 첨도)

왜도 (Skewness) : 대칭 여부
왜도가 0에 가까울 수록 대칭을 의미함.
왜도가 0보다 작으면 작을수록 왼쪽에 이상치가 있을 가능성이 높으며,
0보다 크면 클수록 오른쪽에 이상치가 있을 가능성이 높음.

 

첨도 (Kurtosis) : 중심이 얼마나 뾰족한가?
중심에 얼마나 데이터가 몰려있는가를 나타내는 지표

첨도 K = 0 일때, 우리는 정규분포라고 부른다.

 

 

표준오차 (Standard Error) :
현재 뽑힌 표본 외에, 다른 표본을 뽑았을 때 분명 이 모집단에 대한 표본의 평균과 표준편차가 바뀔 수 있는데, 이때 나올 수 있는 오차 범위가 어느정도 되는지를 나타내는 지표

만약 표준 오차가 클 경우에는 sampling이 모집단을 대표한다고 확신할 수가 없음

n = 샘플의 데이터 수
s = 샘플의 표준편차 

 

댓글