Skip to main content Dimensionality_reduction
Table of contents
Dimensionality reduction
차원축소란?
- 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것
- 단순히 데이터를 압축X, 데이터를 잘 설명할 수 있는 잠재적인 요소 추출과적합을 방지
차원축소의 목적
- Curse of Dimensionality 차원의 저주 해결
- 많은 차원의 데이터를 다루는 것은 효율성과 정확도가 감소함
- 실제 데이터에 영향을 미치는 고유차원은 작기 때문에 실제 영향을 미치는 차원만 추출하기 위해 사용
- 과적합을 방지하기 위해
차원축소의 장단점
차원축소의 장점
- 학습 데이터 크기를 줄여서 학습 시간 절약
- 불필요한 Feature 제거로 모델 성능 향상 기여 (주로 이미지 데이터)
- 다차원 데이터를 3차원 이하의 데이터로 줄이면 시각화에 유용
- 추천 엔진, 이미지 분류 및 변환, 문서 토픽 모델링에서 유용
차원축소의 단점
- 정보 손실 발생
- 차원 축소 후 데이터를 해석하는데 어려움
- 데이터가 변환되어 데이터 파이프 라인 복잡
차원축소의 종류
변수 선택
- 분석 목적에 부합하는 소수의 예측 변수만을 선택하는 것
- 특정 변수에 종속성이 강한 불필요한 변수는 아예 제거
- 장점
- 단점
변수 추출
- 예측변수의 변환을 통해 새로운 변수 추출
- 기존 변수를 저차원의 중요 변수로 압축해서 추출
- 장점
- 변수간 상관관계 고려
- 변수의 개수를 많이 줄일 수 O
- 단점