본문 바로가기

AI 이론과 개발의 혼재23

선형회귀분석 (Linear Regression) 회귀분석은 실 업무에서 정말 많이 쓰이는 분석 방법론 중 하나인 것 같습니다. 선형회귀분석이라는 것을 한마디로 표현하자고 한다면, '주어진 데이터를 가장 잘 표현하는 직선 방정식'을 구하는 문제라고 말할 수 있을 것 같아요. 먼저 1차원 data를 보고 설명해볼께요. 예를 들어, 좌표 상에 이렇게 뿌려진 데이터가 있다고 했을 때 (좌측 그림), 우측의 빨간색 직선과 같이 이 데이터를 가장 잘 표현하는 직선의 방정식을 구하는 문제예요. 직선의 방정식이 아래와 같이 있다고 가정 했을 때, $$y=ax+b$$ - a: 기울기(Gradient), 회귀 계수라고도 불리움 - b: 절편 (intercept), bias 라고도 불리움 주어진 데이터를 가장 잘 표현한 직선은 과연 무엇일까요? 아마, 직선의 방정식에 주.. 2020. 6. 22.
데이터 분석시 알아두면 좋은 기본 꿀 Tips (데이터 전처리) 데이터 전처리 편 - GitHub에서 원하는 데이터 다운로드 받기 원하는 파일을 열어본다 하단 "raw" 버튼 클릭한다 "raw"버튼 클릭한 페이지의 주소를 복사한다. 노트북페이지에 아래 명령어를 입력한다. 더보기 !wget -O tips.csv https://raw.githubusercontent.com/~~~/[데이터파일명] [설명] !wget 다운로드 명령어 -O tips.csv 저장할 파일명 https.... 가져올 파일의 웹주소 - 데이터 읽어들이기 import pandas as pd df = read_csv('[파일주소.csv]') df_x = read_excel('[파일주소.xlsx]') - 데이터 미리 보기 df.head() df.head(5) #처음 다섯줄만 - 데이터 결측치(이상치) 처.. 2020. 6. 11.
Python 에러잡기 : [SSL: CERTIFICATE_VERIFY_FAILED] pip로 무언가를 설치하려고 할때 SSL certificate verify failed 에러로 인해.. 골머리 앓지 않는 방법 적어둡니다. 1) 본인의 python 경로에서.. 아래 위치로 이동 ~~~\Python36\Lib\site-packages\pip\_vendor\requests 2) sessions.py 파일에서 self.verify = False로 설정 2) pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org 2020. 6. 2.
엑셀로 쉽게 해보는 다중회귀분석 (해석방법포함) 회귀분석에 대한 이론을 아직 포스팅 하지는 않았지만,, 엑셀로 간단하게 해보고, 해석해보는 방법에 대해서 한 번 알아보도록 하겠습니다. 간단하게 회귀분석은 왜하는 거야? 라는 질문에 답변을 드리자면,, 예를 들어, 직장인의 회사생활 만족도에 대한 설문조사를 해보았다고 생각해볼게요. "현재 당신의 회사생활 만족도는 몇 점인가요?" 저라면,, 점수를 주기 전에 연봉도 생각해보고 나의 동료/상사, 출퇴근 거리 등등을 고려해서 최종 나의 회사생활 만족도 점수를 결정할 것 같아요. 그럼, 추가로 질문 하나 더 ! "우리 회사 직원들의 회사생활 만족도는 어떻게 높일 수 있을까요?" 가장 회사생활 만족도와 연관이 높은 요인을 찾아서, 그 요인을 개선하는게 제일 효과적이지 않을까요? 다중회귀분석은 회사생활만족도(Y)와.. 2020. 6. 1.