본문 바로가기
AI 이론과 개발의 혼재/Implementation

엑셀로 쉽게 해보는 다중회귀분석 (해석방법포함)

by ministar 2020. 6. 1.

 

회귀분석에 대한 이론을 아직 포스팅 하지는 않았지만,,

엑셀로 간단하게 해보고, 해석해보는 방법에 대해서 한 번 알아보도록 하겠습니다.

 

간단하게 회귀분석은 왜하는 거야? 라는 질문에 답변을 드리자면,,

예를 들어, 직장인의 회사생활 만족도에 대한 설문조사를 해보았다고 생각해볼게요.

 

"현재 당신의 회사생활 만족도는 몇 점인가요?"

 

저라면,, 점수를 주기 전에

연봉도 생각해보고 나의 동료/상사, 출퇴근 거리 등등을 고려해서 최종 나의 회사생활 만족도 점수를 결정할 것 같아요. 

 

그럼, 추가로 질문 하나 더 !

"우리 회사 직원들의 회사생활 만족도는 어떻게 높일 수 있을까요?"

 

가장 회사생활 만족도와 연관이 높은 요인을 찾아서, 그 요인을 개선하는게 제일 효과적이지 않을까요?

다중회귀분석은 회사생활만족도(Y)와 인간관계, 출퇴근거리 등과 같은 여러 요인(X)들과의 관계를 분석할 때 사용할 수 있어요.

 

여러가지로 할 수 있지만, 저는 지금 엑셀로 후다닥 해야하니까 엑셀에서 한번 해볼께요!

 

[ 준비 과정 ] 

1. 엑셀에서 '파일' > '옵션' > '추가기능' 에서 '이동'을 클릭해주세요.

 

2. '분석 도구'를 체크하고 확인을 눌러주면 기능을 사용할 준비가 된거예요. :) 

 

엑셀 '데이터' 탭에 '데이터 분석' 이 생긴걸 보실 수 있답니다. 

 

 

[다중회귀분석 시작해보기]

1. 준비 

데이터는 알고자 하는 값 Y와, 그 Y에 영향을 주고 있는 여러 변수들 X 데이터를 준비해주시구요

'데이터분석'에서 '회귀분석'을 선택하고, 확인을 눌러주세요.

 

2. 데이터 입력

창이 켜지면, Y축 입력 범위와, X 축 입력 범위를 적는 창이 나와요 :) 

저는 Y축에는 '회사생활 만족도'를 그리고 X 축 범위에는 '동료', '회의시간' 등등 회사생활에 영향을 미치는 변수들을 넣어볼께요.

워,,! 엑셀은 총 16개의 X변수만 입력 받을 수 있네요? ㅠㅠ 젠장,, ㅂㄷㅂㄷ;; 

 

저는 변수가 더 많았지만,, 조금 줄여서 ㅜ_ㅜ 생성해보도록 하겠습니다.

 

3. 결과 확인

'확인'을 누르면 새로운 시트에 이런 결과가 나와요!

 

 

4. 해석

이제부터 해석을 한번 해보도록 하겠습니다. 

 

* 결정계수 = R Square, 조정된 결정계수 = Adjusted R Square

- 실 세계에서는 Adjusted R^2가 좀 더 가깝다고는 하는데, 통계학자들마다 해석방법이 조금씩 다른것 같아요.   

- 보통, 단일 회귀분석에서는 R^2, 다변량 회귀분석에서는 Adjusted R^2가 더 잘 맞는 경향이 있다고 합니다.  

- 0.6 (60%) 이상의 값을 가질 때 유의미하다고 봅니다.  

- 해석방법은, 본 회귀분석은 이 데이터를 설명하는 설명력이 약 9%정도 반영된 것이라고 보면 됩니다.

 

 

* 유의한 F = Significance F 

 - 0.05보다 클 경우, P-value가 높은 X 변수를 삭제하면서 0.05 미만 값을 충족할 때 까지 회귀분석을 다시 해야해요.

 - 해당 값이 0.05보다 작을 경우 대립가설을 채택합니다. 

 - 대립가설을 채택한다는 말은 -> 회귀계수가 0이 아니다.

    -> 독립변수들 중 적어도 하나의 이상의 변수가 종속변수(Y)를 설명하는데 유의하다. 는 뜻입니다.

 

 

* P-값 = P-value

 - 어떤 독립변수가 종속변수 (Y)를 잘 설명하는지를 나타내요

 - p-value > 0.05 일 경우, 귀무가설을 채택합니다. --> 즉, 이 독립변수는 종속변수에 영향을 미치지 않는다.

 - p-value < 0.05 일 경우, 대립가설 채택 --> 이 독립변수는 종속변수에 영향을 미친다. 

댓글