BraveTiger
CH5. 머신러닝_회귀(1) 본문
선형회귀
다변량 데이터는 변수가 2개 이상인 데이터를 말하는데 원인이 되는 X데이터, 결과가 되는 Y데이터로 구성되어 있다.
종속변수 Y가 수치형 데이터인 경우, 수치예측이 가능하다.
수치예측의 경우 X, Y가 주어졌을 때 이 두 변수의 관계를 잘 설명하는 함수식 f(X)를 찾고
미래에 Y값이 없는 X값이 주어졌을 때 Y값을 예측하는데 활용한다.
※변수 사이의 관계
- 확정적 관계
- 확률적 관계
1) 확정정 관계: X변수만으로 Y를100% 표현(오차항이 없음) y = f(x)
- 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간)
2) 확률적 관계: X변수와 오차항이 Y를 표현(오차항이 있음) y = f(x) + ϵ
- 위조카드 여부 = f(사용시간, 사용액, 사용장소,,+) + ϵ
=> 현실의 문제 (X와 Y의 관계)는 확률적 관계가 더 많다.
선형회귀 모델이란?
: 출력변수 Y를 입력변수 X들의 선형결합으로 표현한 모델
▶ 선형결합: 변수들을 상수 배, 더하기, 빼기 등을 통해 결합한 것
$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + .....\beta_nX_n$
선형회귀 모델의 목적
- X변수와 Y변수 사이의 관계를 수치로 설명
- 미래의 반응변수 Y값을 예측
선형회귀 모델의 Y
Y = X로 설명되는 부분 ($f(x) =\beta_0 + \beta_1X1$) + 그렇지 않은 부분($\epsilon$)
[수식]
$Y = \beta_0 + \beta_1x + \epsilon$
$f(x) =\beta_0 + \beta_1X1$
선형회귀 모델의 확률오차에 대한 가정
ϵi = 확률오차(random error)
- 오차항은 정규분포를 따른다.
- 오차항들의 평균은 0 오차항의 분산은 σ2을 따른다.
※오차항이 특정한 확률분포를 따르기 때문에 Y도 특정한 확률분포를 따른다.
$E(Y_i) = E(\beta_0 + \beta_1x) + E(\epsilon) = \beta_0 + \beta_1x$
$V(Y_i) = V(\beta_0 + \beta_1x) +V(\epsilon) = \sigma^2$
- Y는 평균이 β0+β1x, 분산이 σ2인 분포를 따른다.
결론
- 선형회귀 모델의 주 목적은 설명과 예측이다.
- 선형회귀 모델의 Y는 X로 설명 가능한 부분 f(x)=β0+β1x 그렇지 않은 부분은 ϵ으로 나타낸다.
- 확률오차 ϵ는 평균이 0 오차항의 분산은 σ2인 정규분포를 따르기 때문에 Y도 특정한 확률분포를 따르는데 이를 통해 선형회귀 모델은 입력변수 X와 출력변수 Y의 평균과의 관계를 설명하는 선형식이라고 말할 수 있다.
- 선형회귀 모델의 주 목적 달성을 위해서 최적의 파라미터 β0,β1를 추정해야 한다.
'취업 준비 > AIVLE SCHOOL' 카테고리의 다른 글
CH5. 머신 러닝_KNeiborsClassfier (0) | 2023.03.27 |
---|---|
CH5. 머신러닝_회귀(2) (0) | 2023.03.06 |
CH5. 머신러닝 - 머신러닝 모델 학습 (0) | 2023.03.06 |
CH4. 데이터 수집5 - requests(GET, POST) (0) | 2023.02.27 |
CH4. 데이터 수집4 - Web Crawing (0) | 2023.02.27 |
Comments