인공지능 AI (30) 썸네일형 리스트형 (논문리뷰) Particular object retrieval with integral max-pooling of CNN activations 설명 및 정리 Image retrieval task에 대한 최근 SOTA는 Bag-of-Words model (locally invariant한 feature와 large visual codebook)에 의한 접근이였다. 또한 local, global representation들을 이용하여 접근한 연구도 이뤄졌는데 이는 CNN의 중간 layer activation을 feature vector로 사용한 접근이다. 여기서 global max-pooling에 의한 convolution layer activation을 이용하여 image representation을 만들어서 이미지를 서로 비교하는데 global representation만 이용하는 것은 local 위치 정보도 필요로 하는 geometric-aware mode.. (논문리뷰) iCAN : Instance-Centric Attention Network for Human-Object Interaction Detection 설명 및 정리 Object detection은 이미지에서 object에 대해 classification과 localization을 수행한다. 이때 object들간의 interaction에 대해서도 추론해볼 수 있는데 HOI는 object들 중에서도 특히 human과 object간의 interaction을 추론하는 task이다. 이런 HoI task에서는 기본적으로 이 triplet을 찾는 것을 목표로 하고 있다. 최근 연구에서는 human 혹은 object의 appearance가 각각 이미지에서 어떤 부분(region)과 관련있는지에 대한 단서를 담고 있기 때문에 이를 기반으로 attention map을 만들어서 해결하려고 했었다. 정확히는 attention map을 만들기 위해서 human, object의 bound.. (논문리뷰) PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation 설명 및 정리 Object에서 3D data를 받아올때는 이미지에서와 달리 geometric 정보도 담겨있다. 따라서 위 사진과 같이 x, y, z 축의 정보로 이루어진 point 들을 data로 받게된다. 이미지는 행렬로 data가 얻어지는데 각 pixel에 할당된 값은 RGB, 3차원 값이고 여기서 pixel의 geometric 정보는 행렬에서의 위치(ex. (98, 102) = (행, 열) ) 에 대응된다. 하지만 이미지에서와 달리 object에서 depth정보도 받아오는 3d data는 point 들로 data가 얻어진다. 이 point data는 행렬로 이루어져있지 않기 때문에 각 point가 (x, y, z) 축에 대한 data를 가지고 있어야하므로 기본적으로 3차원이다. 여기에 RGB 값이 더해지면 (x,.. (논문리뷰) Associative embedding : End-to-End Learning for Joint Detection and Grouping 설명 및 정리 위 사진에서 첫번째 행에서 보이는 것과 같이 Image에서 사람의 pose를 추정하는 person pose estimation과 두번째 행에 있는 instance segmentation문제는 보통 2-stage로 진행됐었다. (detecting stage & grouping stage)pose estimation에서는 먼저 머리, 어깨, 팔꿈치, 손, 등.. 에 해당하는 위치(body joint)를 point로 잡아내고 (Figure 1. - 1행 2열) 각 body joint를 사람 별로 grouping한다. (Figure 1. - 1행 3열) Instance segmentation에서는 각 pixel 별로 instance (foreground)에 해당하는 pixel인지 binary로 판별하고 (Fig.. (논문리뷰&재구현) YOLACT 설명 및 정리 - (4) 이전 글 : (논문리뷰&재구현) YOLACT 설명 및 정리 - (3) (논문리뷰&재구현) YOLACT 설명 및 정리 - (3) 이전 글 : (논문리뷰&재구현) YOLACT 설명 및 정리 - (2) (논문리뷰&재구현) YOLACT 설명 및 정리 - (2) 이전 글 : (논문리뷰&재구현) YOLACT 설명 및 정리 - (1) (논문리뷰&재구현) YOLACT 설명.. ganghee-lee.tistory.com YOLACT모델을 학습시키기 위해 사용되는 Loss는 다음과 같다. YOLACT에서 Loss는 Classification loss, Bounding box loss, Mask loss로 구성돼있다. 이때 각각의 loss가 가중치가 서로 다른데, 차례대로 1 : 1.5 : 6.125의 가중치를 갖는다. 즉.. [머신러닝] K-Nearest Neighbors, Decision Tree 설명 및 정리 KNN은 위 그림과 같이 data들이 label이 지정된 상태로 분포되어있을때 새로운 new data에 대해서는 어떤 label을 지정해줄지 결정하기 위해 사용되는 알고리즘이다. 위 예시에서 파란색은 Action movie, 빨간색은 Romantic movie로 label이 지정돼있다. 이때 두 label을 구분하기 위한 parameter로 Kiss count, Kick count가 사용되었고 이에 기반했을때 녹색(new data)은 위와 같이 위치하게 된다. 그럼 저 new data는 Action movie / Romantic movie 중 어느 영화로 구분하는게 맞을까? KNN의 동작과정은 다음과 같다. 새로운 data의 label을 지정하기 위해 근접한 K개의 data 정보를 이용한다. K를 지정해.. (논문리뷰&재구현) YOLACT 설명 및 정리 - (3) 이전 글 : (논문리뷰&재구현) YOLACT 설명 및 정리 - (2) (논문리뷰&재구현) YOLACT 설명 및 정리 - (2) 이전 글 : (논문리뷰&재구현) YOLACT 설명 및 정리 - (1) (논문리뷰&재구현) YOLACT 설명 및 정리 - (1) Image segmentation은 각 object에 대해 localization을 수행해야하므로 translation varia.. ganghee-lee.tistory.com 모델을 학습한 후 predict할때 image위에서 검출한 object의 class와 함께 bounding box가 그려진다. 이때 동일 object에 대해 여러 anchor box가 존재할 수 있는데 confidence(score)가 가장 높은 anchor box만 두고 나머지 .. (논문리뷰&재구현) YOLACT 설명 및 정리 - (2) 이전 글 : (논문리뷰&재구현) YOLACT 설명 및 정리 - (1) (논문리뷰&재구현) YOLACT 설명 및 정리 - (1) Image segmentation은 각 object에 대해 localization을 수행해야하므로 translation variance를 만족해야한다. (Image segmentation과 translation variance에 대한 설명은 아래 게시글에서 설명.. ganghee-lee.tistory.com 이전 글에서 YOLACT의 Prototype branch까지 설명을 했었다. 간단히 이전까지의 내용을 요약하자면 다음과 같다. Image segmentation을 위해서는 translation variance를 만족하기 위한 Localization이 수행되어야 한다. 2-st.. 이전 1 2 3 4 다음