본문 바로가기

인공지능 AI/컴퓨터비전

(6)
Semantic segmentation과 Instance segmentation의 차이 컴퓨터 비전에는 크게 4가지의 과제가 있다. 1. Classification 2. Object Detection 3. Image Segmentation 4. Visual relationship 이 글에서는 이 중 3. Image Segmentation에 관해 다룰 예정이다. 먼저 Image Segmentation 이전의 과제들인 Classification과 Object Detection에 대해 간단히 설명하자면 Classification은 Image가 주어졌을때 이 이미지가 어떤 사진인지, 어떤 Object를 대표하는지 분류하는 문제이다. 따라서 위 그림에서 고양이의 위치가 아래 예시와 같이 변하여도 Classification에서는 똑같이 고양이라고 분류해야한다. 이를 "translation invari..
translation invariance 설명 및 정리 translation invariance를 설명하기 위해 먼저 Classification에 대해 살펴보자. Classification은 Image가 주어졌을때 이 이미지가 어떤 사진인지, 어떤 Object를 대표하는지 분류하는 문제이다. 따라서 아래 그림에서과 같이 고양이의 위치가 변하여도 Classification에서는 똑같이 고양이라고 분류해야한다. 이를 "translation invariance" 라고 한다. "CNN에서 translation invariance란 input의 위치가 달라져도 output이 동일한 값을 갖는것을 말한다" 사실 CNN 네트워크 자체는 translation equivariance(variance)하다. convolution filter로 연산을 할때 특정 feature의..
GAP(Global Average Pooling) vs FCN(Fully Convolutional Network) Fully convolutional network란 1x1 convolution layer을 말한다. 일반적으로 Classification에서 Conv-Pool layer를 통과한 후 마지막에 Fully Connected Layer를 거쳐 softmax함수로 classification이 진행된다. 위와같이 일반적으로 한 이미지에 대해 classification의 경우에는 이와 같은 진행방식이 문제가 되지 않는다. 그러나 object detection과 같이 classification과 localization 둘을 수행해야 할 경우 문제가 된다. FC layer에서 위치 정보를 담고있던 conv feature map이 dense하게 쫙 펴지기 때문에 위치정보를 모두 손실하고 만다. 따라서 이 문제점을 해결..
1-Stage detector와 2-Stage detector란? 직선을 기준으로 위가 2-Stage Detector들이고 아래가 1-Stage Detector들이다. Regional Proposal과 Classification이 순차적으로 이루어진다. Regional Proposal 이란? 기존에는 이미지에서 object detection을 위해 sliding window방식을 이용했었다. Sliding window 방식은 이미지에서 모든 영역을 다양한 크기의 window (differenct scale & ratio)로 탐색하는 것이다. 이런 비효율성을 개선하기 위해 '물체가 있을만한' 영역을 빠르게 찾아내는 알고리즘이 region proposal이다. 대표적으로 Selective search, Edge boxes들이 있다. (* Selective search : ..
컴퓨터비전에서의 기본 용어 및 개념 정리 CNN, R-CNN, Object Detection, HOI 등.. 과 관련한 논문들에서 흔히 나오는 용어들을 정리한 글입니다. 이미지를 비교하기 위해 동일한 방법을 통해 어떤 특징을 하나의 비교 대상으로 만드는 것을 말한다. 예를들어, Object Detection과 Face Detection 등에서 이용되는 HOG 알고리즘 같은 경우 이미지를 비교하기 위해 이미지의 각 pixel에서 gradient(기울기) vector를 구하고 이 vector들을 이용해 8가지 방향에 대한 히스토그램을 생성한다. 이렇게 HOG같은 경우 이미지를 비교하기 위해 기울기의 방향을 descriptor로 사용한다. * Object Detection 문제를 해결하기 위해 SIFT, SURF, HOG와 같은 알고리즘을 이용하여 ..
GNN, GCN 개념정리 GNN이란? GCN이란? GCN의 다양한 모델들 (Advanced Techniques of GCN) GNN이란? Graph neural network란? Image, Sequential data(=Sentence) 이외에 input data구조가 graph인 경우, 이 graph data를 학습해야할 때가 있다. (ex. 영상에서의 graph, 분자구조 graph, Social graph ...) 그렇다면 data를 어떻게 graph 형태로 나타낼 수 있을까? Graph는 node(vertex)와 edge로 이루어져있다. 이때 node는 한 input data를 의미하고 edge는 두 data간의 relationship을 의미한다. (ex. Social Graph에서 node는 한 명의 사람을 뜻하고 e..