목록취업 준비 (24)
BraveTiger

회귀모델 성능 평가 $y$ 우리가 실제로 예측하고 싶은 값, 목표값 이 값과 비교해 머신러닝 알고리즘 성능을 평가 우리가 관심을 갖는 오차는 이 값과 예측값의 차이 $\hat{y}$ 머신러닝 알고리즘으로 새롭게 예측한 값 최소한 평균과 실제값의 오차보다 적어야 하는 것이 목표 $\bar{y}$ 이미 알고 있는, 기존에 예측한 값 예측값이 오차를 얼마나 더 잘 줄였는지 판단하기 위한 측도 오차의 합이 0이 되는 문제점 보완 회귀 모델 평가 지표 SST = SSR + SSE SSR 평균과 모델의 오차 제곱합 전체 오차 중 회귀식에서 잡아낸 오차 SST 평균과 실제값의 오차 제곱합 전체 오차 SSE 실제값과 모델의 오차 제곱합 전체 오차 중 회귀식이 여전히 잡아내지 못한 오차 결정계수 R2 Coefficien..

의사결정트리 : 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/분류 모델을 나무의 형태로 만드는 것으로 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내어 tree기반의 분류 규칙을 만든다.(if - else 기반) ※ Algorithm 데이터를 2개 혹은 그 이상의 부분집합으로 분할 -> 데이터가 균일해지도록 분할 분류: 비슷한 범주를 갖고 있는 관측치끼리 모음 예측: 비슷한 수치를 갖고 있는 관측치끼리 모음 결정트리 모델링 프로세스 - 분할법칙 분할변수와 변할기준은 목표변수의 분포를 가장 잘 구별해주는 쪽으로 정한다. 목표변수의 분포를 잘 구별해주는 측도로 순수도(purity) 또는 불순도(impurity)를 정의한다. 예를 들어, 클래스0과 1의 비율이 각각 45%, 55%인 노드는 ..
로지스틱 회귀분석 : 독립변수의 선형결합을 통해 사건의 발생 가능성을 예측하는데 사용되는 통계기법 선형 회귀분석과 달리 종속변수가 범주형 데이터를 대상으로 하며, 일종의 분류 기법으로 볼 수 있다. 일반적으로 이항분류 문제에 사용되며, 두 개 이상의 범주를 갖는 문제가 대상이 되는 경우 다항 로지스틱 회귀를 사용한다. ※ 사용예제 제품이 불량인지 양품인지 고객이 이탈고객인지 잔류고객인지 카드 거래가 정상인지 사기인지 이메일이 스팸인지 정상메일인지 등등.. 로지스틱 함수(시그모이드) :로지스틱함수는 음의 무한대부터 양의 무한대까지의 실수값을 0부터 1사이의 실수값으로 1 대 1 대응시키는 시그모이드함수다. [수식] $logitstic(z)$ = $σ(z)$ = $1\over1+exp(−z)$ [로지스틱 함..
K-최근접 이웃 알고리즘 (KNeiborsClassfier - KNN) 지도학습의 한 종류로 거리기반 분류분석 모델이다. KNN 알고리즘의 특징 instance-based learning(사례기반 학습): 별도의 모델없이 데이터만을 이용해서 새로운 데이터를 입력했을 때 기존의 데이터를 이용하여 분류/예측 데이터로부터 거리가 가까운 'k'개의 다른 데이터 레이블을 참조하여 분류하는 알고리즘 분류나 예측(회귀)에 사용되는 비모수 방식이다. 입력 데이터가 주어지면 입력 데이터와 가까운 K개의 데이터 레이블을 참조하여 예측하는 알고리즘으로 거리 측정에는 1. "맨해튼 거리" 계산법, 2. "유클리디안 거리" 계산법을 사용한다. Lazy Learning이다. 데이터를 학습하고 모델을 피팅하는 과정이 있는 다른 지..

파라미터 추정 : 비용함수를 최소화하는 파라미터 β를 찾는 것. ※ 비용함수(Cost function) 비용함수는 입력으로 받은 데이터를 모아서 오차를 계산하는 함수를 일컫는다. 입력으로 들어온 데이터를 기반으로 모든 데이터의 비용을 계산하는 방식으로 다음과 같은 수식을 갖는다. 파라미터 추정 프로세스 파라미터 추정 프로세스 파라미터 추정 알고리즘 Algorithm: Least Squares Estimation Algorithm(최소제곱법) cost function of linear regression is convex: 전역 최적해가 존재(globally optimal solution exits) 오차를 최소화하는 회귀 계수를 추정하는 방 최소제곱법을 이용한 선형회귀 모델 예제 import seabor..

선형회귀 다변량 데이터는 변수가 2개 이상인 데이터를 말하는데 원인이 되는 X데이터, 결과가 되는 Y데이터로 구성되어 있다. 종속변수 Y가 수치형 데이터인 경우, 수치예측이 가능하다. 수치예측의 경우 X, Y가 주어졌을 때 이 두 변수의 관계를 잘 설명하는 함수식 f(X)를 찾고 미래에 Y값이 없는 X값이 주어졌을 때 Y값을 예측하는데 활용한다. ※변수 사이의 관계 확정적 관계 확률적 관계 1) 확정정 관계: X변수만으로 Y를100% 표현(오차항이 없음) y = f(x) 힘 = f(질량, 가속도), 주행거리 = f(속도, 시간) 2) 확률적 관계: X변수와 오차항이 Y를 표현(오차항이 있음) y = f(x) + ϵ 위조카드 여부 = f(사용시간, 사용액, 사용장소,,+) + ϵ => 현실의 문제 (X와 ..

머신러닝이란 : X와 Y의 관계를 찾는 것. : Y를 설명하는 X변수는 보통 여러개, X 변수들을 조합하여 Y를 표현하는 것. : 수학적으로 Y = f(X1,X2,X3,...,Xp)로 표현할 수 있다. [수식] $Y$ = $W_1X_1 + W_2X_2 + \epsilon$ $f(x)$ = $W_1X_1 + W_2X_2$ 데이터가 주어졌을 때 W1과 W2(파라미터)를 어떻게 결정하는지가 머신러닝의 핵심이다. ※ epsilon (잔차, 에러) 실제값과 예측값의 차이 이론적으로는 y=f(x)이지만 실제로는 정확한 함수를 구할 수 없다. [수식] $Y$ = $W_1X_1 + W_2X_2 + \epsilon$ = $f(x) + \epsilon$ $\epsilon$ = $Y -f(x)$ => 오차 손실함수와 비용함..
requests 사용하기 쉬운 HTTP 클라이언트 라이브러리 "JSONPlacehoder"서비스를 활용한 HTTP API 테스트 https://jsonplaceholder.typicode.com/guide/ JSONPlaceholder - Guide Guide Below you'll find examples using Fetch API but you can JSONPlaceholder with any other language. You can copy paste the code in your browser console to quickly test JSONPlaceholder. Getting a resource fetch('https://jsonplaceholder.typicode.com/posts/ j..
웹 크롤링(Web Crawling)이란? 웹상의 정보들을 탐색하고 수집하는 작업을 의미한다. 프로그램이나 자동화된 스크립트를 사용하여 웹 페이지에서 페이지의 정보를 인덱싱하는 프로세스 URL을 탐색해 반복적으로 링크를 찾고 가져오는 과정 웹 스크래핑(Web Scraping)이란? 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미 자동화된 방식으로 구조화된 웹 데이터를 수집하는 프로세스 크롤링한 링크를 이용해 특정 웹 사이트의 특정 데이터를 추 웹 크롤링과 웹 스크래핑의 차이점? 크롤링 스크래핑 웹 에서 페이지 및 링크 다운로드 웹을 포함한 다양한 소스에서 데이터 추출 동이한 콘텐츠가 여러 페이지에서 업로드 된 것을 인식하지 못하므로 중복 제거가 필수 특정 데이터를 추출하는 것으..

학습목표 서울 열데이터광장 사이트에서 API를 통해 데이터를 가져온다. API를 통해 데이터를 수집할 때 필요한 라이브러리에 대해 살펴본다. 데이터를 응답받아 데이터프레임 형식으로 변환한다. API를 통해 데이터를 수집하는 이유 다운로드 X, 실시간 데이터O 1. 로컬에서 데이터를 읽어온다면 필요한 데이터를 매번 다운로드 받아야한다. 시간이 지나면 과거 데이터가 되버린다 2. Github에서 읽기 공유를 위해 데이터를 업로드 해야 하는 번거로움이 생긴다. Github 관리 기술 필요 STEP1. 서울 열린 데이터광장 접속 & 회원가입 서울 열린 데이터광장: https://data.seoul.go.kr/ 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr Point 서울 열린..