기술 통계량에서 흔히 다루는 개념들에 대해서 알아보자.
- 평균 : 중심 = 대표값
- 표준편차 : 퍼짐을 나타내는 정도 = 산포 = 다름
- 분산 : 다름의 평균 값
samples : 1, 2, 8, 9
평균 : (1+2+8+9)/4 = 5
분산 : ((1-5)^2 + (2-5)^2 + (8-5)^2 + (9-5)^2 ) / (n-1)
표준편차(s) : root (분산) => 평균과 평균적으로 이정도의 편차를 보이고 있다라고 해석한다.
이상치가 있을 경우에 위의 방식대로 표본의 특징을 나타내는 것은 매우 위험하다.
분산이나 표준편차를 구할때, 편차들의 합에 자유도 만큼으로 나눠준다.
자유도(df : degree of freedom)는 데이터의 갯수(n)일 수도 있고, n-1일 수도 있음
자유도란? (Degree of Freedom)
예를 들어, 건물에 주차장 구역이 4군데가 있다.
나에게 주어진 주차의 자유도는? 4
만약! 건물의 주차장 구역 4군데 중 1군데는 센터장자리일 경우에는?
나에게 주어진 자유도는? 3
만약! 또 다른 1군데는 부센터장의 자리일 경우에는?
나에게 주어진 자유도는? 2 ㅠ.ㅠ
주차구역 1(센터장) | 주차구역 2(부센터장) | 주차구역 3 | 주차구역 4 |
이런것처럼 표준 편차를 구하는 공식에서 평균으로 인해, 하나의 값에 대한 자유도를 잃게 됨
공식으로 좀 더 풀어서 얘기해보자.
우리가 아는 분산을 구하는 공식에 보면, 데이터수(N)으로 나눌때도 있고, n-1로 나눌때도 있다.
이 나누는 값을 "자유도"라고 표현을 하게 되는데..
평균이 주어진 상태 (mean(x) = 5) 에서, 분산을 구한다고 할 때 1,2,3번째 값은 어떠한 값을 가져도 상관없는 자유도를 갖으나, 마지막 숫자에 대해서는 자유도를 갖지 못한다.. 그래서 자유도가 n-1이 되는것이다.
중위수 절대편차 구하는 방법 :
1) 중위수를 구한다.
2) 중위수와 주어진 수와의 편차를 계산한다.
3) 편차의 절대값을 계산한다.
4) 3)과정에서 나온 수를 정렬한다.
5) 정렬 후, 중위수를 계산하면 그 값이 중위수 절대편차가 됨.
"중위수 절대편차"의 경우, 표준편차에 비해 outlier에 비교적 강인하기 때문에
표본의 데이터의 특징을 잘 알기 위해서는 평균, 표준편차 외에도 중위수(median)와, 중위수 절대편차의 값도 봐야한다.
분포의 모양을 표현하는 방법은 아래가 있다. (왜도와 첨도)
왜도 (Skewness) : 대칭 여부
왜도가 0에 가까울 수록 대칭을 의미함.
왜도가 0보다 작으면 작을수록 왼쪽에 이상치가 있을 가능성이 높으며,
0보다 크면 클수록 오른쪽에 이상치가 있을 가능성이 높음.
첨도 (Kurtosis) : 중심이 얼마나 뾰족한가?
중심에 얼마나 데이터가 몰려있는가를 나타내는 지표
첨도 K = 0 일때, 우리는 정규분포라고 부른다.
표준오차 (Standard Error) :
현재 뽑힌 표본 외에, 다른 표본을 뽑았을 때 분명 이 모집단에 대한 표본의 평균과 표준편차가 바뀔 수 있는데, 이때 나올 수 있는 오차 범위가 어느정도 되는지를 나타내는 지표
만약 표준 오차가 클 경우에는 sampling이 모집단을 대표한다고 확신할 수가 없음
n = 샘플의 데이터 수
s = 샘플의 표준편차
'AI 이론과 개발의 혼재 > Theory' 카테고리의 다른 글
선형회귀분석 (Linear Regression) (0) | 2020.06.22 |
---|---|
k-means Clustering - 군집화 알고리즘 (0) | 2020.04.23 |
Neural Network - 인공신경망 (0) | 2019.05.01 |
Reinforcement Learning(강화학습) 개념 이해하기 (2) MDPs (0) | 2019.01.09 |
Reinforcement Learning(강화학습) 개념 이해하기 (1) (0) | 2019.01.09 |
댓글