BraveTiger

CH5. 머신러닝_회귀(1) 본문

취업 준비/AIVLE SCHOOL

CH5. 머신러닝_회귀(1)

BraveTiger 2023. 3. 6. 16:08

선형회귀

다변량 데이터는 변수가 2개 이상인 데이터를 말하는데 원인이 되는 X데이터, 결과가 되는 Y데이터로 구성되어 있다.

출처: https://www.youtube.com/watch?v=4Yo297HQyAk&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=34

 

종속변수 Y가 수치형 데이터인 경우, 수치예측이 가능하다.

수치예측의 경우 X, Y가 주어졌을 때 이 두 변수의 관계를 잘 설명하는 함수식 f(X)를 찾고
미래에 Y값이 없는 X값이 주어졌을 때 Y값을 예측하는데 활용한다.

출처: https://www.youtube.com/watch?v=4Yo297HQyAk&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=34

※변수 사이의 관계

  • 확정적 관계
  • 확률적 관계

1) 확정정 관계: X변수만으로 Y를100% 표현(오차항이 없음) y = f(x)

  • 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간)

2) 확률적 관계: X변수와 오차항이 Y를 표현(오차항이 있음) y = f(x) + ϵ

  • 위조카드 여부 = f(사용시간, 사용액, 사용장소,,+) + ϵ

=> 현실의 문제 (X와 Y의 관계)는 확률적 관계가 더 많다.

 

선형회귀 모델이란?

: 출력변수 Y를 입력변수 X들의 선형결합으로 표현한 모델

▶ 선형결합: 변수들을 상수 배, 더하기, 빼기 등을 통해 결합한 것

$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + .....\beta_nX_n$

선형회귀 모델의 목적

  1. X변수와 Y변수 사이의 관계를 수치로 설명
  2. 미래의 반응변수 Y값을 예측

선형회귀 모델의 Y

Y = X로 설명되는 부분 ($f(x) =\beta_0 + \beta_1X1$)  + 그렇지 않은 부분($\epsilon$)


[수식]

$Y = \beta_0 + \beta_1x + \epsilon$

$f(x) =\beta_0 + \beta_1X1$
 

선형회귀 모델의 확률오차에 대한 가정

ϵi = 확률오차(random error)

  1. 오차항은 정규분포를 따른다.
  2. 오차항들의 평균은 0 오차항의 분산은 σ2을 따른다.

※오차항이 특정한 확률분포를 따르기 때문에 Y도 특정한 확률분포를 따른다.

$E(Y_i) = E(\beta_0 + \beta_1x) + E(\epsilon) = \beta_0 + \beta_1x$

$V(Y_i) = V(\beta_0 + \beta_1x) +V(\epsilon) = \sigma^2$
  1. Y는 평균이 β0+β1x, 분산이 σ2인 분포를 따른다.

결론

  1. 선형회귀 모델의 주 목적은 설명 예측이다.
  2. 선형회귀 모델의 Y는 X로 설명 가능한 부분 f(x)=β0+β1x 그렇지 않은 부분은 ϵ으로 나타낸다.
  3. 확률오차 ϵ는 평균이 0 오차항의 분산은 σ2인 정규분포를 따르기 때문에 Y도 특정한 확률분포를 따르는데 이를 통해 선형회귀 모델은 입력변수 X와 출력변수 Y의 평균과의 관계를 설명하는 선형식이라고 말할 수 있다.
  4. 선형회귀 모델의 주 목적 달성을 위해서 최적의 파라미터 β0,β1를 추정해야 한다.
Comments