Notice

Recent Posts

Tags more

Archives

관리 메뉴

BraveTiger

CH5. 머신러닝_Feature Selection/Feature importance 본문

취업 준비/AIVLE SCHOOL

BraveTiger 2023. 3. 27. 23:46

모델을 구성하는 주요 피처들을 선택

RFE(Recursive Feature Elimination)
- 모델 최초 학습 후 Feature 중요도 산정
- feature 중요도가 낮은 속성들을 차례로 제거해 나가면서 반복적으로 학습/평가를 수행하여 최적의 feature 추출
- 수행시간이 오래 걸리고, 중요도가 낮은 feature를 제거하는 매커니즘이 정확한 feature selection을 찾는 목표에 부합하지 않을 수 있음
SelectFromModel
- 모델 최초 학습 후 선정된 feature 중요도에 따라 평균/중앙값의 특정 비율 이상인 feature들을 선택

feature importance는 최적 tree 구조를 만들기 위해 feature들의 impurity(불순도)가 중요 기준임 즉, 정보 이득 관점
- 결정값과 관련이 없어도 feature importance가 높아질 수 있다.
feature importance는 학습 데이터를 기반으로 생성되므로 테스트 데이터에서 달라질 수 있다.
feature importance는 수치형의 높은 cardinality feature에 편향되어 있다.

특정 feature 값을 완전히 변조했을 때 모델 성능이 얼마나 저하되는지를 기준으로 해당 피처의 중요도를 산정

기준 평가 성능을 0.9라고 가정한다.
총 10번 반복했을 때 성능이 [0.7, 0.6, 0.8, 0.5, 0.7, 0.7, 0.8, 0.8, 0.4, 0.7]이 나왔다고 가정했을 때 이 값들의 평균은 0.67 이다.
0.9 - 0.67 = 0.23 즉 해당 feature는 0.23만큼의 feautre importance를 갖고 있다. 기준 평가 성능을 많이 떨어뜨리는 feature라면 중요도가 높지 않은 것.

(기준 평가 성능이 감소한다면 중요 feature 그대로이거나 좋아지면 중요하지 않은 feature)

Google Colaboratory Notebook

Run, share, and edit Python notebooks

colab.research.google.com

CH5. 머신러닝_Ensemble(2) - Boosting (0)	2023.03.28
CH5. 머신러닝_Ensemble(1) - Voting/Bagging (0)	2023.03.27
CH5. 머신러닝_회귀(3) (0)	2023.03.27
CH5. 머신러닝_DecisionTreeClassifier (0)	2023.03.27
CH5. 머신러닝_LogisticRegression (0)	2023.03.27