컴퓨터비전

[CV]Technology Trends in Satellite Image Multi-Task Models: Integrating Object Detection and Semantic/Instance Segmentation

곧미남 2025. 4. 4. 17:14

서론

객체 탐지(object detection), 시맨틱 분할(semantic segmentation) 인스턴스 분할(instance segmentation)은 컴퓨터 비전 분야의 핵심 과제로, 위성 및 항공 영상 분석에서도 중요한 역할을 합니다. 객체 탐지는 이미지 내 개별 객체의 위치와 범주를 식별하고​, 시맨틱 분할은 영상의 모든 픽셀을 미리 정의된 클래스로 할당하며 동일 객체 간 구분은 하지 않습니다​. 인스턴스 분할은 이러한 두 작업을 결합하여 각 객체 인스턴스별로 픽셀 단위 마스크를 예측함으로써, 객체 탐지의 위치 식별과 시맨틱 분할의 픽셀 단위 분류를 동시에 만족합니다. 다중 작업은 모든 작업 또는 작업의 하위 집합이 주어지면 모든 작업 또는 일부 다른 작업에 포함된 지식을 사용하여 각 특정 작업에 대한 모델의 학습을 개선하기 위해 다중 작업을 함께 학습하는 것을 목표로 합니다. 다중 작업 모델이란 특징 추출 네트워크는 공유하고 최종 결과를 출력하는 헤더 네트워크를 별도로 구성하여 객체 탐지, 시맨틱 분할, 인스턴스 분할과 같은 다중 작업을 처리하는 네트워크입니다. 이러한 모델은 다중 작업 학습(multi-task learning)으로 하나의 모델로 여러 작업을 수행하여 효율성을 높이고, 작업 간 정보 공유로 정확도를 향상시킬 수 있다는 장점 때문에 주목받아 왔습니다. 특히, 위성 이미지처럼 복잡한 장면에서는 하나의 통합 모델이 전역 맥락 정보세부 객체 정보를 함께 활용할 수 있어 보다 풍부한 해석이 가능합니다[1].

 

초기 다중 작업 모델의 등장

초기에는 객체 탐지와 분할을 별도로 수행하는 것이 일반적이었지만, 2017Mask R-CNN[2]의 등장으로 상황이 바뀌었습니다. Mask R-CNNFaster R-CNN 객체 탐지기에 마스크 예측 분기를 추가하여 각 객체의 고품질 분할 마스크를 동시에 생성하는 단순하면서도 강력한 프레임워크를 제시하였습니다. 이는 하나의 신경망이 객체의 바운딩박스 탐지와 픽셀 분할을 병렬로 수행할 수 있음을 보여주어, 컴퓨터 비전 분야의 큰 영향을 미쳤습니다. 이후 원격탐사 분야에서도 다양한 작업을 하나의 모델로 통합하려는 연구가 등장하였습니다. 건물의 정확한 분할 결과를 얻기 위해 시맨틱 분할 작업과 거리 변환을 활용한 경계 예측 작업을 동시에 수행하는 멀티 태스크 CNN 모델을 제안하였습니다. 이는 하나의 공유 인코더와 작업별 디코더를 갖춘 전형적인 멀티 태스크 구조를 갖추고 있습니다[3]. 이러한 시도는 후속 연구에서 멀티 태스크 학습이 원격탐사 영상 분석 분야의 정확도 향상과 효율적인 연산 자원 활용에 큰 잠재력을 가지고 있음을 입증하는 데 기여하였습니다.

 

최신 다중 작업 모델 연구 동향

최근에는 대규모 기반 모델(foundation model) 개념과 결합한 다중 작업 학습이 주목받고 있습니다. MTP(Multi-Task Pretraining)라는 새로운 패러다임을 도입하여, 단일 거대 신경망공유 인코더를 두고 작업별 디코더 헤드를 붙여 원격탐사 영상의 여러 과제를 함께 학습시키는 방법을 제안했습니다[4]. 구체적으로, SAMRS라는 대규모 원격탐사 데이터셋을 구축하고 이를 통해 시맨틱 분할, 인스턴스 분할, 회전 BBox 객체 탐지의 세 가지 작업을 동시에 학습시켰습니다. 이러한 멀티태스크 사전학습 모델은 ResNet이나 비전 트랜스포머 등 최대 3억 개 이상의 파라미터를 가진 모델까지 학습되었고, 다양한 다운스트림 과제에 미세조정(fine-tuning)되어 성능을 평가했습니다​. 그 결과, 장면 분류, 수평 및 회전 객체 탐지, 시맨틱 분할, 변화 탐지 등 총 14개 데이터셋에 걸쳐, MTP로 사전학습한 모델이 동일 크기의 기존 모델을 능가하고, 경우에 따라서는 더 대형인 최신 모델에 필적하는 성능을 보였습니다.

MTP 연구에서 활용된 SAMRS 데이터셋 자체도 주목할 만한 성과입니다. 해당 데이터셋은 Meta Segment Anything Model (SAM)을 활용한 반자동 라벨링 기법으로 구축되었는데, 객체의 범주(label), 위치, 인스턴스 마스크 정보를 모두 포함하여 시맨틱 분할, 인스턴스 분할, 객체 탐지 작업에 개별적으로나 통합적으로 활용할 수 있는 포괄적 주석을 제공합니다. 이는 기존 원격탐사 데이터셋들과 달리 다중 작업 학습을 염두에 두고 설계된 첫 대규모 데이터셋으로, 자연 이미지 분야의 COCO에 상응하는 역할을 할 것으로 기대됩니다. 거대 분할 모델인 SAM제로샷 분할 능력을 활용하여 주석 비용을 절감하고 품질을 높인 점도 특징적입니다. 이렇듯 다중 작업에 대한 데이터 측면에서의 발전과 대규모 사전학습 기법의 등장은 원격탐사 영상 해석의 범용 모델화를 가속화하고 있습니다.

또 다른 최신 다중 작업 모델 연구 관점은 다중 작업 학습의 최적화 전략에 대한 분석입니다. 최근의 연구들은 여러 작업을 어떻게 결합해야 모델의 성능이 향상되는지를 실증적으로 분석하고 있으며, 이를 통해 다음과 같은 주요 최적화 방안과 시사점을 제시하고 있습니다[5].

첫째, 태스크 그룹핑(Task Grouping) 전략은 각 작업 간 상호작용에 기반하여 작업을 적절히 조합하는 방법입니다. 실험 결과, 특정 작업 간에는 서로의 성능을 향상시키는 긍정적 전이가 발생하는 반면, 일부 조합은 오히려 부정적 전이를 유발하여 성능 저하를 초래할 수 있음을 입증하였습니다. 따라서 효과적인 멀티태스크 모델 구성을 위해서는 태스크 간 관계를 미리 분석하고 그룹화하는 전략이 필요합니다.

둘째, 네트워크 규모와 데이터셋 규모는 멀티태스크 학습의 성능에 중요한 영향을 미치는 요소입니다. 네트워크의 표현력이 높을수록 태스크 간 긍정적 전이가 강화되는 경향이 있으며, 데이터셋의 크기나 다양성에 따라서도 작업 간 관계가 변화할 수 있기 때문에, 각 환경에 맞는 실증적 설계와 검증이 중요합니다.

셋째, 손실 함수 가중치 최적화(Loss Weighting) 전략 또한 중요한 요소로, 각 작업의 손실에 적절한 가중치를 부여하는 것이 전체 모델 성능을 좌우할 수 있습니다. 특히, 특정 태스크를 보조 태스크(Auxiliary Task)로 포함시키는 방식은 주요 태스크의 성능을 개선하는 데 실질적인 도움이 될 수 있음을 여러 연구에서 보여주고 있습니다.

이러한 최적화 전략들은 다중 작업 학습이 단순히 여러 작업을 동시에 처리하는 것을 넘어, 정밀한 조합과 조율을 통해 시너지 효과를 최대화할 수 있는 체계적인 접근이 되어야 함을 시사합니다.

이러한 연구 관점에서 MTP 방법론은 단순히 여러 작업을 동시에 학습한 것이 아니라, 실제로 다중 작업 학습의 성능을 극대화하기 위한 최적화 전략들을 구조적으로 적용했습니다. 특히, 태스크 조합 설계, 모델 용량 구성, 손실 함수 구성 주요 요소에서 기존 이론과 실증 연구에 기반한 전략을 반영했습니다. 전략에 대한 내용은 아래와 같습니다.

첫째, Semantic Segmentation, Instance Segmentation, Rotated Object Detection 세 작업을 함께 학습하는 구조를 가집니다. 이들 작업은 모두 dense prediction 기반 태스크, 표현 공간의 유사성이 높아 서로 간 positive transfer가 유도되도록 설계됩니다.

둘째, 3억 개 이상의 파라미터를 갖는 대형 모델(InternImage-XL, ViT-L )을 활용하여 멀티태스크 학습 시 네트워크 크기의 영향을 실험하였습니다. 결과적으로, 모델 용량이 클수록 작업 간 전이 효과가 강화되어 성능 향상 폭도 커지는 경향을 보였으며, 이는 다중 작업 학습에서의 모델 용량 확보의 중요성을 실증적으로 뒷받침하는 결과라 할 수 있습니다.

셋째, SAMRS DOTA-V2.0, DIOR, FAIR1M-2.0 서로 다른 도메인의 원격탐사 데이터 세트를 기반으로 구축하고, 이를 SOTA, SIOR, FAST라는 3개의 subset으로 구성하였습니다. subset은 동일한 세 가지 작업(Semantic segmentation, Instance segmentation, Rotated object detection)에 대해 SAM 기반 자동 주석을 부여받아, 멀티태스크 학습이 가능한 형식으로 통일되었습니다. 학습 과정에서 각 subset마다 독립적으로 4가지 손실을 계산하고, 최종적으로 수식 (1)과 같이 이들을 합산하는 방식으로 전체 손실 함수를 구성합니다.

이와 같은 subset 단위 손실 분리 및 합산 방식은 도메인 편향 완화와 학습 안정성을 향상하여 다중 도메인 일반화 성능을 확보합니다.

 

결론

다중 작업 학습은 객체 탐지, 시맨틱 분할, 인스턴스 분할과 같은 핵심 컴퓨터 비전 과제를 하나의 통합된 모델에서 효과적으로 수행할 수 있도록 하여, 원격탐사 영상 분석의 정확성과 효율성을 동시에 향상시키는 전략으로 활용 가능합니다. 특히 MTP는 태스크 조합, 네트워크 크기, 손실 함수 구성 등 다중 작업 최적화 전략을 구조적으로 반영함으로써 고차원 데이터의 일반화 성능을 크게 끌어올렸습니다. 또한 SAMRS와 같은 포괄적 주석 데이터셋을 기반으로, 다양한 도메인의 영상을 균형 있게 학습할 수 있는 구조를 제시한 점에서 실무적 확장성과도 높은 연계 가능성을 보여줍니다. 이러한 연구들은 위성 영상 해석의 범용 모델화와 응용 솔루션 기술 개발 가능성 측면에서 의미 있는 진전을 보여주고 있으며, 향후 멀티태스크 학습 기반의 원격탐사 프레임워크 확산에 기반이 될 것입니다.

 

Reference

[1] ZHANG, Yu; YANG, Qiang. A survey on multi-task learning. IEEE transactions on knowledge and data engineering, 2021, 34.12: 5586-5609.

[2] HE, Kaiming, et al. Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision. 2017. p. 2961-2969.

[3] BISCHKE, Benjamin, et al. Multi-task learning for segmentation of building footprints with deep neural networks. In: 2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019. p. 1480-1484.

[4] WANG, Di, et al. Mtp: Advancing remote sensing foundation model via multi-task pretraining. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024.

[5] STANDLEY, Trevor, et al. Which tasks should be learned together in multi-task learning?. In: International conference on machine learning. PMLR, 2020. p. 9120-9132.

반응형