본문 바로가기

머신러닝

(4)
[머신러닝] K-Nearest Neighbors, Decision Tree 설명 및 정리 KNN은 위 그림과 같이 data들이 label이 지정된 상태로 분포되어있을때 새로운 new data에 대해서는 어떤 label을 지정해줄지 결정하기 위해 사용되는 알고리즘이다. 위 예시에서 파란색은 Action movie, 빨간색은 Romantic movie로 label이 지정돼있다. 이때 두 label을 구분하기 위한 parameter로 Kiss count, Kick count가 사용되었고 이에 기반했을때 녹색(new data)은 위와 같이 위치하게 된다. 그럼 저 new data는 Action movie / Romantic movie 중 어느 영화로 구분하는게 맞을까? KNN의 동작과정은 다음과 같다. 새로운 data의 label을 지정하기 위해 근접한 K개의 data 정보를 이용한다. K를 지정해..
딥러닝 공부순서 추천 1. 포트폴리오 먼저, 프로젝트를 정하고 구현해보는 것이 좋다. 프로젝트 아이디어를 얻는데에 좋은 방법은 아래와 같다. 1) ML Sources를 얻기 좋은 곳 - Stanford's CS224n & CS231n projects - ML Reddit's WAYR - Kaggle Kernels - Paper (ML : ICML, NIPS / CV : CVPR, ECCV, ICCV) 유투브, udemy, edwith, nomad, fast.ai, coursera 등.. 에서 인터넷 강의를 병행하며 기초를 탄탄히 하면서 관련 Paper들을 찾자. (논문 찾기 좋은 곳 : google scholar) 그 후 여러 논문, Reddit, Kaggle 글들을 읽어보면서 관심있는 주제, idea의 방향성을 먼저 잡는 ..
Optimizer 종류 및 정리 가장 기본이 되는 optimizer 알고리즘으로 경사를 따라 내려가면서 W를 update시킨다. GD를 사용하는 이유 왜 이렇게 기울기를 사용하여 step별로 update를 시키는것일까? 애초에 cost(W)식을 미분하여 0인 점을 찾으면 되는게 아닌가?? -> 내가 알고 있기로 두 가지 이유 때문에 closed form으로 해결하지 못한다고 알고 있다. 1. 대부분의 non-linear regression문제는 closed form solution이 존재하지 않다. 2. closed form solution이 존재해도 수많은 parameter가 있을때는 GD로 해결하는 것이 계산적으로도 더 효율적이다. full-batch가 아닌 mini batch로 학습을 진행하는 것 (* batch로 학습하는 이유 ..
머신러닝 기초 (1. ML Basic) 1-1) 머신러닝 문제들의 분류 1-2) Regression Problems 1-3) Clustering Problems 1-4) Dimensionality Reduction Problems 1-1) 머신러닝 문제들의 분류 Supervised Learning : input(X)와 ouput(Y)이 정해진 상태로 학습을 진행하는 것 Unsupervised Learning : ouput(Y)없이 input(X)에서 특징들에 따라 학습을 진행하는 것 Classification : input(X)와 ouput(Y)이 정해진 상태로 분류 Clustering : ouput(Y)없이 input(X)에서 특징들에 따라 군집화 Reinforcement Learning: 현재 state에서 action에 따른 reward..