Linear_regression

Linear regression

Linear regression

선형 회귀란?

데이터의 분포를 분석하였을 때, y=a1+a2x와 같은 선형 그래프 형태로 정의될 수 있는 문제
- 결과값을 결정할 것이라고 추정되는 입력값 (input value)과 결과 값의 연관관계를 찾는 것

선형 회귀의 장단점

선형 회귀의 장점

다른 알고리즘들에 비해 비교적 간단하고 성능이 뛰어남
학습 속도가 빠르고 예측도 빠름
매우 큰 데이터셋과 희소한 데이터셋에도 잘 작동
예측이 어떻게 만들어지는지 수식을 통해 비교적 쉽게 이해 가능

선형 회귀의 단점

음수값이 나오면 안되는 상황에서 단순 선형 회귀 사용 불가능
선형관계로만 제한됨
- 실제 모델이 선형적이지 않을 경우 결과 모델이 좋지 않음
이상치에 민감
회귀 분석에서는 사용될 수 있지만 분류에서는 실패하는 경우가 발생

선형 회귀의 종류

선형모델 종류	특징
선형 회귀(Linear regression)	- 변수들이 서로 선형적으로 연결되어 있는 경우 사용 - 머신러닝에서 가장 일반적인 회귀 분석 유형 - 최적적합선을 사용
로지스틱 회귀(Logistic regression)	- 종속 변수에 이산 값이 있는 경우 사용 - S자형 곡선을 사용하여 대상 변수와 독립 변수 사이의 관계를 표시
릿지 회귀(Ridge regression)	- 특성이 많을 때, 특성의 중요도가 전체적으로 비슷할 때 라쏘보다 성능이 좋음 - 독립 변수들 사이에 높은 상관 관계가 있는 경우 사용 - 모델의 복잡성을 줄여주는 정규화 기법 - 리지 회귀 패널티라는 편향을 사용하여 모델이 과대적합(overfitting)에 강하게 함
라쏘 회귀(Lasso regression)	- 특성이 많을 때, 그중 일부분만 중요할 때 릿지보다 성능이 좋음 - 모델의 복잡성을 줄여주는 정규화 기법 - 회귀 계수의 절대 사이즈를 금지함으로써 복잡성 감소 - 데이터 집합에서 필요한 요소들만 사용하고 나머지를 0으로 설정함으로써 과대적합을 방지 가능
다항 회귀(Polynomial regression)	- 데이터가 비선형 방식으로 존재할 때 사용 - 선형 모델을 사용하여 비선형 데이터 집합을 모델링 - 비선형 곡선을 사용

코드 예제

아들 키 예측

데이터 로드

import pandas as pd
from sklearn.linear_model import LinearRegression
import numpy as np

train_df = pd.read_excel('https://github.com/cranberryai/todak_todak_python/blob/master/machine_learning/regression/%E1%84%8B%E1%85%A1%E1%84%87%E1%85%A5%E1%84%8C%E1%85%B5%E1%84%8B%E1%85%A1%E1%84%83%E1%85%B3%E1%86%AF%E1%84%8F%E1%85%B5.xlsx?raw=true', sheet_name='train')
test_df = pd.read_excel('https://github.com/cranberryai/todak_todak_python/blob/master/machine_learning/regression/%E1%84%8B%E1%85%A1%E1%84%87%E1%85%A5%E1%84%8C%E1%85%B5%E1%84%8B%E1%85%A1%E1%84%83%E1%85%B3%E1%86%AF%E1%84%8F%E1%85%B5.xlsx?raw=true', sheet_name='test')

데이터 전처리

## 학습 데이터와 평가 데이터 나눔 (데이터 / 정답으로도 나눔)
x_train = train_df.drop(['Son'], axis=1)
x_test = test_df.drop(['Son'], axis=1)
y_train = train_df['Son']
y_test = test_df['Son']

#학습 데이터 출력 (잘 적용 됐는지 확인)
print(x_train.head())
'''
    Father
0  160.782
1  166.116
2  165.608
3  169.672
4  176.530
'''
#DataFrame을 numpy 배열 형식으로 변환
x_train = x_train.to_numpy()
x_test = x_test.to_numpy()

모델 생성

#선형 회귀 모델 생성
model = LinearRegression()

모델 학습

#x_train과 y_train로 학습
model.fit(x_train, y_train)

모델 검증

#모델에 train 데이터를 넣었을 때 정확도
print(model.score(x_train, y_train)) #0.24967004992776765
#모델에 test 데이터를 넣었을 때 정확도
print(model.score(x_test, y_test)) #0.25199779058466176

모델 예측

#예측할 데이터 입력
x_test = np.array([
    [164.338]
])

y_predict = model.predict(x_test) #예측된 값 저장

print(y_predict[0]) #170.46931035654347

Linear_regression

Table of contents

Linear regression

선형 회귀란?

선형 회귀의 장단점

선형 회귀의 장점

선형 회귀의 단점

선형 회귀의 종류

코드 예제

데이터 로드

데이터 전처리

모델 생성

모델 학습

모델 검증

모델 예측