-
5-1. Instance Segmentation쿠다 4기/<네이버 부스트코스> 컴퓨터 비전 2023. 10. 31. 22:29
1. Instance Segmentation이란?
위의 사진을 보면 앞서 배웠던 Semantic segmentation은 같은 class에 속하는 object들을 각각 구별하지는 않고 하나의 '의자'라는 class로 분류했음을 알 수 있다. 이와 대비되게 Instance segmentation은 같은 의자 class 내에서도 각각의 의자 개체를 다르게 인식해 분류하였다. 개체를 구분하기에 object detection 기반의 모델이 많다.
2. Instance Segmentation의 모델
1) Mask R-CNN
앞서 배웠던 Faster R-CNN을 복기해보자.
1.CNN모델로 부터 feature map을 얻고 이를 Regional Proposal Network(RPN) 에 전달한다.
2. RPN은 객체가 있을 만한 위치를 나타내는 적절한 regional proposals을 산출한다.
3. regional proposals과 처음에 얻은 feature map을 통해 RoI pooling을 수행해 고정된 크기의 feature map을 얻는다.
4. classification과 bounding box regression을 수행한다.
Mask R-CNN은 Faster R-CNN과 유사하지만, RoI pooling이 아닌 ROIAlign이라는 새로운 pooling layer을 제안한다.
ROI Pooling은 정수 그리드로 분할을 하기 때문에 소수점으로 계산되면 소수점이 버려지고, 이 과정에서 ROI Feature을 일부 손실하게 되는 문제점이 생긴다. 반면, ROIAlign은 정수값으로 제한하지 않아 위 문제를 해결한다. weight, height를 각각 3등분하여 9개의 셀로 만들고, 하나의 셀 안에서 weight, height를 다시 3등분하여 4개의 sampling point를 찾는다. 4개의 좌표들의 중간 값을 찾는 bilinear interpolation을 이용해 sampling point 값을 추정하고, 셀마다 max pooling을 수행하는 방식이다.
ROI Pooling(왼쪽)과 ROI Align(오른쪽) 또한 mask branch를 추가했는데 이는 하나의 bounding box에 대해 모든 클래스에 대한 binary mask를 생성하고, 픽셀이 해당 클래스에 해당하는지 여부를 표시한다. ROIAlign과정을 통해 얻은 feature map을 mask branch에 넣어 새로운 feature map(class별로 생성된 binary mask) 생성되고 classification branch에서 가장 높은 score의 class에 해당하는 feature map을 선정해 최종 prediction에 사용하는 것이다.
binary mask 2. YOLACT(You Only Look At CoefficenTS)
YOLACT는 한 단계이기에 더 빠르다. 먼저 다양한 해상도와 크기에서 feature map을 추출하는 Feature Pyramid 기반 구조를 backbone으로 사용해 고해상도의 feature map을 활용할 수 있다. 그리고 mask의 프로토타입을 추출해 사용한다. Mask의 프로토타입은 mask는 아니지만 mask를 합성해낼 수 있는 여러 물체의 soft segmentation component같은 개념이다. 이 프로토타입은 channel수 만큼 있다. prediction head에서 프로토타입을 잘 합성하기 위한 계수를 출력하면, 이 계수와 프로토타입을 선형 결합해 최종 response map을 생성한다.
3. YolactEdge
이전 frame에서 key frame에 해당하는 feature들을 다음 frame으로 전달하여 feature map에 대한 계산량을 획기적으로 줄인 모델이다. 이를 통해 YOLACT에 비해 훨씬 빠른 속도를 보여주면서도, 성능 감소는 크지 않은 결과를 달성할 수 있다.
'쿠다 4기 > <네이버 부스트코스> 컴퓨터 비전' 카테고리의 다른 글
5-3. CornerNet과 CenterNet (0) 2023.11.01 5-2. Panoptic Segmentation & Landmark Localization (0) 2023.11.01 4-2. CNN Visualization(2): 시각화 방법 (3) 2023.10.11 4-1. CNN Visualization(1): 동작 원리 (0) 2023.10.10 3-2. Object Detection (0) 2023.09.27