Regression

Table of contents


회귀

회귀란?

클래스를 사용하는 대신 데이터를 연속적인 실수 값으로 구별하는 모델 또는 함수를 찾는 프로세스

레이블 대신 숫자 데이터를 예측하는 데 사용되는 통계 모델

회귀의 특징

  • 정렬 된 데이터를 예측
  • 평균 제곱 오차를 이용하여 평가

장점

  • 실제성과 친밀성
    • 예측 문제 해결에 있어서 가장 많이 사용되고 있는 방법론으로써 분석 및 해석방법 다수 존재
  • 해석 및 설명력
    • 결과에 대한 근거, 이유, 활용방안 등의 유용한 정보 얻는 데 용이
  • 적절한 변수 선택
    • 목표변수와 관련 있는 설명변수(i.e., 영향인자) 선택 방법 존재

단점

  • 기본 가정이 어긋나면 회귀분석 사용 불가
  • 비선형성 확인을 위한 적절한 방법론이 없어 반복적인 검토 필요
  • 결측치는 반드시 분석에서 제외되기 때문에 분석결과의 신뢰성 문제될 수 있음

회귀 분석의 기본 가정

회귀분석을 수행하기 위해서는 반드시 아래 기본 가정이 성립하는지 확인해야 함

  • 잔차(εi)의 정규성
  • 잔차의 평균 E(εi)=0
  • 잔차의 등분산성 V(εi)=σ2 : 모든 학습 데이터 값에 대해 동일한 분산을 가짐
  • 학습 데이터 간 독립성
  • 예측 결과와 학습 데이터 간 선형관계가 존재(선형회귀분석)
  • 잔차 vs 오차?
    • 잔차: 표본집단의 실젯값(=관측값)에서 예측값을 뺀 값
    • 오차: 모집단에서의 실젯값(=관측값)에서 예측값을 뺀 값

회귀 분석의 종류

선형 회귀 분석

종속변수 Y와 한 개 이상의 독립변수 X와의 선형 상관관계를 모델링하는 회귀분석 기법

구분 내용
목표변수 연속형
분석 목적 예측
분석 방법 선형방정식에 의한 함수식 표현
모델 탐색방법 최소 제곱법, 가중 최소 제곱법, 경사 하강법
모델 검정 F 검정, t 검정 등

로지스틱 회귀 분석

데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘

구분 내용
목표변수 이진(binary), 순서(ordinal), 명목(nominal)
분석 목적 분류(Classification)/사후 확률(Posterior Probability) 예측(i.e., 조건부 확률)
분석 방법 연결함수(Logit, Probit 등)를 이용한 관계 표현
모델 탐색방법 최대 우도법, 시그모이드 함수, 소프트맥스 함수
모델 검정 카이제곱 검정 등