ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 3-1. Semantic Segmentation
    쿠다 4기/<네이버 부스트코스> 컴퓨터 비전 2023. 9. 27. 16:08

    1. Semantic Segmentation 이란?

    앞선 포스팅에서는 사진이 주어졌을 때 사진 전체를 카테고리로 분류하는 Image Classification에 대해 배웠다. 이번 포스팅에서 다룰 Semantic Segmentation은 사진 안의 각 픽셀을 카테고리로 분류하는 것이다. 위의 세 개의 사진에 대해 Semantic Segmentation을 수행하면 아래의 세 사진이 된다. 이로써 어떤 픽셀이 사람에 속하는지 ,자동차에 속하는지 등을 분류하는 작업을 함을 알 수 있다. 이때 여러명의 사람이 있다면 한명한명 구분하는 것이 아닌 모두 같은 '사람'이라는 하나의 카테고리로 분류한다. 이런 Semantic Segmentation은 의료, 자율주행자동차 등 영상 내의 장면을 이해하는 부분에 활용된다.

     

    2. Semantic Segmentation Architectures

    1. FCN

    FCN은 Semantic Segmentation을 위해 제안된 첫 번째 end-to-end 모델이다. 입력 단부터 출력 단까지 모두 학습이 가능하고, 입력 이미지의 해상도와 상관없이 동작할 수 있어 호환성이 높다.

    FCN의 구조를 구체적으로 살펴보자. Fully connected layer은 이전 convolution layer에서 출력된 feature map을 flattening하여 입력으로 사용한다. 이를 각 픽셀 위치마다 classification을 수행할 수 있도록 1x1 convolution을 이용하면 된다. 따라서 어떤 입력 사이즈에도 대응가능한 Fully convolutional network를 가질 수 있다. 그러나 넓은 receptive field를 확보하기 위해 pooling을 진행할 수록 저해상도의 출력을 얻게되는 문제가 발생한다. 이런 문제를 해결하기위해 upsampling layer을 이용한다. upsampling의 방법으로는 주로 Transposed convolution, Upsample and convolution이 있다. Upsample and convolution 방법은 upsampling과정을 두 단계로 분리하여, 먼저 interpolation과정을 통해 upsample시키고, 다음으로 학습 가능한 형태를 더해주기 위해 convolution layer을 통과시키는 방법이다. FCN에서는 skip connection을 사용하여 낮은 레이어의 feature map을 직접적으로 고려할 수 있도록 설계되어 더 디테일하고 지역적인 특징을 잘 고려할 수 있게 한다. 

    Hypercolumn이라는 모델 또한 FCN과 매우 유사한데, 낮은 레이어의 특징과 높은 레이어의 특징의 결합을 가장 강조하고 있다는 것이 차별점이다.

     

    3. U-Net

     

    다음은 Semantic Segmenation 뿐만 아니라 다양한 Computer Vision task에서 강력한 성능을 보여줬던 U-Net이다. 위의 그림과 같이 U-Net은 대칭적인 downsampling, upsampling 과정(contracting path, expanding path)을 거치는 구조를 가지고 있다. Downsampling 과정에서는 pooling을 통해 공간해상도를 절반으로 줄이고, 채널 수를 두배로 늘리는 방식으로 feature map을 얻고 있으며, upsampling 과정에서는 반대로 공간해상도를 두배로 늘리고, 채널 수는 절반으로 줄이는 방식으로 segmentation map을 얻고 있다. 그리고 각 과정에서 대칭적으로 대응하는 부분을 보면, skip connection을 통해 지역적인 정보를 담고있는 downsampling 과정에서의 feature map을 upsampling 과정의 segmentation map에 concatenation 해주고 있는 것을 확인할 수 있다.

Designed by Tistory.