회귀분석에 대한 이론을 아직 포스팅 하지는 않았지만,,
엑셀로 간단하게 해보고, 해석해보는 방법에 대해서 한 번 알아보도록 하겠습니다.
간단하게 회귀분석은 왜하는 거야? 라는 질문에 답변을 드리자면,,
예를 들어, 직장인의 회사생활 만족도에 대한 설문조사를 해보았다고 생각해볼게요.
"현재 당신의 회사생활 만족도는 몇 점인가요?"
저라면,, 점수를 주기 전에
연봉도 생각해보고 나의 동료/상사, 출퇴근 거리 등등을 고려해서 최종 나의 회사생활 만족도 점수를 결정할 것 같아요.
그럼, 추가로 질문 하나 더 !
"우리 회사 직원들의 회사생활 만족도는 어떻게 높일 수 있을까요?"
가장 회사생활 만족도와 연관이 높은 요인을 찾아서, 그 요인을 개선하는게 제일 효과적이지 않을까요?
다중회귀분석은 회사생활만족도(Y)와 인간관계, 출퇴근거리 등과 같은 여러 요인(X)들과의 관계를 분석할 때 사용할 수 있어요.
여러가지로 할 수 있지만, 저는 지금 엑셀로 후다닥 해야하니까 엑셀에서 한번 해볼께요!
[ 준비 과정 ]
1. 엑셀에서 '파일' > '옵션' > '추가기능' 에서 '이동'을 클릭해주세요.
2. '분석 도구'를 체크하고 확인을 눌러주면 기능을 사용할 준비가 된거예요. :)
엑셀 '데이터' 탭에 '데이터 분석' 이 생긴걸 보실 수 있답니다.
[다중회귀분석 시작해보기]
1. 준비
데이터는 알고자 하는 값 Y와, 그 Y에 영향을 주고 있는 여러 변수들 X 데이터를 준비해주시구요
'데이터분석'에서 '회귀분석'을 선택하고, 확인을 눌러주세요.
2. 데이터 입력
창이 켜지면, Y축 입력 범위와, X 축 입력 범위를 적는 창이 나와요 :)
저는 Y축에는 '회사생활 만족도'를 그리고 X 축 범위에는 '동료', '회의시간' 등등 회사생활에 영향을 미치는 변수들을 넣어볼께요.
워,,! 엑셀은 총 16개의 X변수만 입력 받을 수 있네요? ㅠㅠ 젠장,, ㅂㄷㅂㄷ;;
저는 변수가 더 많았지만,, 조금 줄여서 ㅜ_ㅜ 생성해보도록 하겠습니다.
3. 결과 확인
'확인'을 누르면 새로운 시트에 이런 결과가 나와요!
4. 해석
이제부터 해석을 한번 해보도록 하겠습니다.
* 결정계수 = R Square, 조정된 결정계수 = Adjusted R Square
- 실 세계에서는 Adjusted R^2가 좀 더 가깝다고는 하는데, 통계학자들마다 해석방법이 조금씩 다른것 같아요.
- 보통, 단일 회귀분석에서는 R^2, 다변량 회귀분석에서는 Adjusted R^2가 더 잘 맞는 경향이 있다고 합니다.
- 0.6 (60%) 이상의 값을 가질 때 유의미하다고 봅니다.
- 해석방법은, 본 회귀분석은 이 데이터를 설명하는 설명력이 약 9%정도 반영된 것이라고 보면 됩니다.
* 유의한 F = Significance F
- 0.05보다 클 경우, P-value가 높은 X 변수를 삭제하면서 0.05 미만 값을 충족할 때 까지 회귀분석을 다시 해야해요.
- 해당 값이 0.05보다 작을 경우 대립가설을 채택합니다.
- 대립가설을 채택한다는 말은 -> 회귀계수가 0이 아니다.
-> 독립변수들 중 적어도 하나의 이상의 변수가 종속변수(Y)를 설명하는데 유의하다. 는 뜻입니다.
* P-값 = P-value
- 어떤 독립변수가 종속변수 (Y)를 잘 설명하는지를 나타내요
- p-value > 0.05 일 경우, 귀무가설을 채택합니다. --> 즉, 이 독립변수는 종속변수에 영향을 미치지 않는다.
- p-value < 0.05 일 경우, 대립가설 채택 --> 이 독립변수는 종속변수에 영향을 미친다.
'AI 이론과 개발의 혼재 > Implementation' 카테고리의 다른 글
딥러닝실습을 위한 간단 개발환경 설정 (Git, Python) for Window (0) | 2019.01.09 |
---|---|
AdamOptimizer Save and Restore for Retraining - 딥러닝 재학습 (4) | 2018.08.30 |
Tensorflow, Input pipeline 예제 코드 (string_input_producer) (0) | 2018.08.28 |
댓글