목록Data Science (26)
BraveTiger

1. Google Analytics 데이터 수집 원리 웹/앱의 사용자 데이터를 수집하기 위해 수집기가 필요하다. 수집기를 이용해 데이터가 수집되면 이 데이터가 자동적으로 GA로 전송되어 저장되어 진다. 구글 애널리틱스로 데이터를 수집하기 위해 수집기가 필요하다 했는데 이는 Gtag라 하는 자바 스크립트 추적 코드이다. https://developers.google.com/analytics/devguides/collection/gtagjs?hl=ko 사이트에 gtag.js 추가 | 웹용 유니버설 애널리틱스(gtag.js) | Google for Developers Google 애널리틱스, Google Ads, Google Marketing Platform에 이벤트 데이터를 보내도록 사이트를 구성할 수 있게..

1. 데이터 분석과 구글 애널리틱스, 시대의 변화 사회 및 경제 등 모든 환경 요소들이 아날로그에서 디지털, 오프라인에서 온라인 중심으로 이동하고 있다. 이에 많은 기업들이 디지털 트랜스포메이션이라는 목표를 핵심 비즈니스로 내세우며 시대의 변화에 대처하고 있다. 즉 사업의 중심이 오프라인에서 온라인으로 바뀐 현재 온라인 플랫폼 중심의 분석이 중요하다. 2. 사용자의 발자취 로그 사용자가 웹 사이트, 앱에서 다양한 활동을 할 때 발생하는 데이터를 로그라고 하며 이를 분석하는 것을 로그분석이라고 한다. 다음과 같이 간단한 예시를 통해 로그 분석 과정을 이해할 수 있다. ※ 온라인 데이터 분석 과정 사용자가 웹 사이트(or 앱)에 방문하여 상품 보기, 스크롤, 장바구니 담기, 결제 등 다양한 활동을 한다. 사..

CNN(Convolutional Neural Networks): 합성곱신경망 Convolution이라는 전처리 작업이 들어가는 Neural Network 모델 CNN은 이미지를 그대로 받음으로써 공간적/지역적 정보를 유지한 채 특성(feature)들의 계층을 빌드업 이미지 전체보다는 부분을 보는 것, 그리고 이미지의 한 픽셀과 주변 픽셀들의 연관성을 살리는 것 ※ CNN? DNN은 기본적으로 1차원 형태의 데이터를 사용 만약 이미지가 입력값이 되는 경우 이것을 flatten시켜서 한줄 데이터로 만들어야 하는데 이 과정에서 이미지의 공간적/지역적 정보(spatial/topological information)가 손실 또한 추상화과정 없이 바로 연산과정으로 넘어가 버리기 때문에 학습시간과 능률의 효율성이 저..
Overfitting : Deep Neural Network(은닉층의 개수가 많은 경우)에서 과대적합이 발생할 확률이 높다. ※ 모델링 목적 학습용 데이터에 있는 패턴으로, 그 외 데이터(모집단 전체)를 적절히 예측 모델은 학습용 데이터를 잘 설명할 뿐만 아니라, 다른 데이터도 잘 예측해야 한다. 즉 일반화된 성능을 기대한다. 일반화 = 적절한 복잡도 = 적절한 예측력 1. 데이터의 양을 늘리기 모델은 데이터의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 쉽게 암기하기 되므로 과적합 현상이 발생할 확률이 늘어난다. 그렇기 때문에 데이터의 양을 늘릴 수록 모델은 데이터의 일반적인 패턴을 학습하여 과적합을 방지할 수 있다. 딥러닝에서 데이터 증식 또는 증강(Data Augmentation)을 통..

Overfitting 해결법 : Deep Neural Network(은닉층의 개수가 많은 경우)에서 과대적합이 발생할 확률이 높다. 데이터의 양을 늘려준다. Regularization 사용 L1/L2 Regularization: Weight가 작아지도록 학습하여 Outlier의 영향을 덜 받도록 하는 방법 L1 Regularization(Lasso) Cost function 계산 시 L1 norm을 사용하여 weight의 절댓값을 더해주는 방법 Feature selection 가능, sparse model에 적합 L2 Regularization(Ridge) Cost function 계산 시 L2 norm을 사용하여 weight의 제곱값을 더해주는 방법 weight가 작아지지만 제거되지 않는다. DropO..

Deep learning(딥러닝) DNN(Deep Neural Network)을 이용한 머신러닝 기법 hidden layer가 2개 이상인 network를 의미 다층의 layer를 통해 복잡한 데이터 학습이 가능 overfitting이 쉽게 일어나고, 학습시간이 오래 걸림 각 layer의 역할 1. Input layer 데이터를 받아 hidden layer의 모든 Neuron으로 재분배 2. Hidden layer 데이터의 특성 파악 3. Ouput layer hidden layer의 신호를 받아 전체 신경망의 출력 패턴을 정함 ※ Hidden layer 은닉 층과 은닉 노드의 수는 분석가가 분석 경험에 의해 설정한다. hidden layer가 너무 적은 경우 네트워크가 복잡한 의사결정 경계를 만들 수 ..

인공신경망 사람의 뇌 속 뉴런의 작용을 본떠 패턴을 구성한 컴퓨팅 시스템 분류 및 예측이 가능 입력층, 은닉층, 출력층 3개의 층으로 구성 Single Layer Perceptron(은닉층 없음) SLP의 문제점은 XOR문제를 해결할 수 없다는 것! XOR문제: 두 값이 같으면 1, 다르면 0을 출력하는 문제 Multi Layer Perceptron(은닉층 1개 이상) 각 층(Layer)에 node가 여러 개 포함되어 있다. 인공신경망의 학습이란? 입력에 대한 올바른 출력이 나오도록 가중치 Weight를 조절하는 것 파라미터: 가중치 (Weight) -> 입력이 출력에 미치는 영향 하이퍼 파라미터: 학습률(leaning rate), 배치 크기(batch size), hidden layer 수, hiden..

KT Aivle School에서 ASSOCIATE 시험까지 지원해 줘서 지난번에 이어 ASSOCIATE시험 후기와 팁입니다. AICE는 AICertificate for Everyone 개인의 AI 활용 역량을 확인하고 인증받을 수 있는 KT 자체 개발 민간자격증입니다. 나머지 내용은 AICE 홈페이지에 자세히 나와있고 다양한 기관에서 AI 활용을 위해 AICE를 도입하고 있습니다. Chat gpt의 등장으로 데이터 리터러시에 이어 AI 리터러시 역량이 강조되는 현재 AI산업에 관심이 있는 분이라면 자신의 역량을 시험해볼 수 있는 좋은 기회입니다. 후기를 쓰기 전에 다음과 사전 학습이 필요 혹은 완료된 분께 적합한 시험입니다. - 파이썬 기초에 대해 기본적인 선수 지식이 필요합니다. - 데이터 분석을 위한..

주제: 스마트 워치 데이터 분석 목표: AI 분류 CASE 미션 해결을 통해 데이터 분석, 모델링 역량을 향상한다. 개요 일단 프로젝트의 도입부터 흥미를 불러오는 주제였다. DX컨설턴트가 되었다고 가정과 함께 Watch사의 헬스케어 서비스 출시를 앞두고 Smart Watch23 버전에 "계단 오르기" 운동을 감지할 수 있는 기능을 탑재를 위해 6가지 행동 데이터 중 "계단 오르기"를 분류할 수 있는 AI모델링 상황이 주어졌다. 실무자로서 받을 수 있을법한 요청과 제안이 다소 흥미로웠다. 또 머신러닝 기간 동안 배운 분류 모델링을 직접 실습해 볼 수 있는 기회였다. 궁극적인 목표는 real data에서 30개의 데이터가 행동을 분류하지 못했고 모델링을 통해 real data에 대한 행동의 분류였다. 센서 ..

부스팅(Boosting) 여러 개의 약한 학습기를 순차적로 학습/예측하면서 잘못 예측한 데이터나 학습 트리에 가중치 부여를 통해 오류를 개선해 나가며 학습하는 방식 이전 분류기 학습 결과를 토대로 다음 분류기 학습 데이터 샘플 가중치를 조정하여 학습을 진행한다. 대표적인 부스팅 알고리즘 AdaBoost GBM(Gradient Boosting Machine) XGBoost LightGBM CatBoost 부스팅은 앙상블 아이디어에서 Sequential이 추가된 형태 앙상블의 아이디어 모델이 학습 데이터에 편향되어 Overfitting되는 것을 막기 위해 약한 모델을 여러 개 결합하여 결과를 종합함 부스팅 = Sequential + 앙상블 연속적인 약한 분류기의 순차적인 업데이트를 통해 결과를 개선한다. 이..