Regression
Table of contents
회귀
회귀란?
클래스를 사용하는 대신 데이터를 연속적인 실수 값으로 구별하는 모델 또는 함수를 찾는 프로세스
레이블 대신 숫자 데이터를 예측하는 데 사용되는 통계 모델
회귀의 특징
- 정렬 된 데이터를 예측
- 평균 제곱 오차를 이용하여 평가
장점
- 실제성과 친밀성
- 예측 문제 해결에 있어서 가장 많이 사용되고 있는 방법론으로써 분석 및 해석방법 다수 존재
- 해석 및 설명력
- 결과에 대한 근거, 이유, 활용방안 등의 유용한 정보 얻는 데 용이
- 적절한 변수 선택
- 목표변수와 관련 있는 설명변수(i.e., 영향인자) 선택 방법 존재
단점
- 기본 가정이 어긋나면 회귀분석 사용 불가
- 비선형성 확인을 위한 적절한 방법론이 없어 반복적인 검토 필요
- 결측치는 반드시 분석에서 제외되기 때문에 분석결과의 신뢰성 문제될 수 있음
회귀 분석의 기본 가정
회귀분석을 수행하기 위해서는 반드시 아래 기본 가정이 성립하는지 확인해야 함
- 잔차(εi)의 정규성
- 잔차의 평균 E(εi)=0
- 잔차의 등분산성 V(εi)=σ2 : 모든 학습 데이터 값에 대해 동일한 분산을 가짐
- 학습 데이터 간 독립성
- 예측 결과와 학습 데이터 간 선형관계가 존재(선형회귀분석)
- 잔차 vs 오차?
- 잔차: 표본집단의 실젯값(=관측값)에서 예측값을 뺀 값
- 오차: 모집단에서의 실젯값(=관측값)에서 예측값을 뺀 값
회귀 분석의 종류
선형 회귀 분석
종속변수 Y와 한 개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법
구분 | 내용 |
---|---|
목표변수 | 연속형 |
분석 목적 | 예측 |
분석 방법 | 선형방정식에 의한 함수식 표현 |
모델 탐색방법 | 최소 제곱법, 가중 최소 제곱법, 경사 하강법 |
모델 검정 | F 검정, t 검정 등 |
로지스틱 회귀 분석
데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘
구분 | 내용 |
---|---|
목표변수 | 이진(binary), 순서(ordinal), 명목(nominal) |
분석 목적 | 분류(Classification)/사후 확률(Posterior Probability) 예측(i.e., 조건부 확률) |
분석 방법 | 연결함수(Logit, Probit 등)를 이용한 관계 표현 |
모델 탐색방법 | 최대 우도법, 시그모이드 함수, 소프트맥스 함수 |
모델 검정 | 카이제곱 검정 등 |