AI 이론과 개발의 혼재/Theory7 선형회귀분석 (Linear Regression) 회귀분석은 실 업무에서 정말 많이 쓰이는 분석 방법론 중 하나인 것 같습니다. 선형회귀분석이라는 것을 한마디로 표현하자고 한다면, '주어진 데이터를 가장 잘 표현하는 직선 방정식'을 구하는 문제라고 말할 수 있을 것 같아요. 먼저 1차원 data를 보고 설명해볼께요. 예를 들어, 좌표 상에 이렇게 뿌려진 데이터가 있다고 했을 때 (좌측 그림), 우측의 빨간색 직선과 같이 이 데이터를 가장 잘 표현하는 직선의 방정식을 구하는 문제예요. 직선의 방정식이 아래와 같이 있다고 가정 했을 때, $$y=ax+b$$ - a: 기울기(Gradient), 회귀 계수라고도 불리움 - b: 절편 (intercept), bias 라고도 불리움 주어진 데이터를 가장 잘 표현한 직선은 과연 무엇일까요? 아마, 직선의 방정식에 주.. 2020. 6. 22. k-means Clustering - 군집화 알고리즘 Machine Learning 알고리즘 중에서도 매우 기본 중에 기본인 k-means clustering에 대해서 알아볼께요. k-means 군집 알고리즘은, 어떤 데이터들이 있을 때, 유사한 데이터들끼리 자동으로 그룹핑을 해주는 알고리즘 입니다. 기본 로직은 아래와 같습니다. 모든 ML 알고리즘은 반복적인 과정을 통해 최적화를 해나가는 특징이 있습니다. 마찬가지로 k-means 알고리즘도 n번의 iteration 과정을 거쳐 최종 군집 결과를 보여주게 됩니다. 기본 로직을 단계별로 한번 살펴볼께요 ! (1) Choose random k points and set as cluster centers. A. raw data 말 그대로, 날 것의 data 그 자체예요. 데이터가 이렇게 있다고 했을 때, 몇 개.. 2020. 4. 23. 기술통계량 훑어보기 for EDA 기술 통계량에서 흔히 다루는 개념들에 대해서 알아보자. 평균 : 중심 = 대표값 표준편차 : 퍼짐을 나타내는 정도 = 산포 = 다름 분산 : 다름의 평균 값 samples : 1, 2, 8, 9 평균 : (1+2+8+9)/4 = 5 분산 : ((1-5)^2 + (2-5)^2 + (8-5)^2 + (9-5)^2 ) / (n-1) 표준편차(s) : root (분산) => 평균과 평균적으로 이정도의 편차를 보이고 있다라고 해석한다. 이상치가 있을 경우에 위의 방식대로 표본의 특징을 나타내는 것은 매우 위험하다. 분산이나 표준편차를 구할때, 편차들의 합에 자유도 만큼으로 나눠준다. 자유도(df : degree of freedom)는 데이터의 갯수(n)일 수도 있고, n-1일 수도 있음 자유도란? (Degree .. 2019. 7. 16. Neural Network - 인공신경망 사실, 코드 넣기가 너무 복잡해서 티스토리를 계속 할까 말까 고민하다가 이게 웬일인가요!! ㅎ_ㅎ 코드도 추가할 수 있게 되었네요. 오호호..!!!! 그렇다면.. 힘내서 다시 이 블로그에 잘 정리해볼까 합니다. 슉슉 고우고우! 오늘은 Neural Network에 대해서 아주 간단하게 정리를 해볼까 해요. 중요한 것만 짚고 넘어갈까 합니다. Neural Network, 인공신경망 인공지능이라는 것이 우리의 뇌를 표방하여 만든 건데요.. 이름만 들어도 짐작 할 수 있겠다 싶이, Neuron 이라는 우리의 신경세포를 모티브로 만들어지게 된 알고리즘입니다. 그래서 그런지 생김새도 우리의 뉴런과 굉장히 유사해요. Perceptron 좌측이 우리 뇌의 신경세포이고, 우측이 그를 본 따 만든 인공신경이라고 생각하면 .. 2019. 5. 1. 이전 1 2 다음