Exemplar Med-DETR: Toward Generalized and Robust Lesion Detection in Mammogram Images and Beyond

date

Mar 19, 2026

slug

emdetr

author

status

Public

Introduction

연구 배경

이 논문은 의료영상 이상 병변 검출(lesion detection) 문제를 다룸. 특히 유방촬영술(mammography)를 중심으로 설명함. 유방촬영은 유방암 조기검진에서 매우 중요하지만, 고밀도 유방(dense breast tissue)에서는 병변이 정상 조직에 가려져 판독이 매우 어려움. 논문은 특히 베트남·중국 여성 집단처럼 고밀도 유방 비율이 높은 환경에서 이 문제가 더 심각하다고 설명함.

의료영상에서는 병변 자체가 작고 불명확함.

정상 해부학 구조와 병변의 시각적 차이가 작음.

특히 dense breast에서는 병변이 주변 조직과 섞여 보임.

그래서 일반적인 detection 모델이 잘 작동하지 않음.

기존 방법의 한계

논문은 Faster R-CNN, RetinaNet, DETR, YOLO 같은 일반 detection 모델들이 의료영상에도 적용되고 있지만, 여전히 한계가 있다고 지적함. 최근에는 MammoCLIP처럼 image-text multimodal 정보를 쓰거나, anatomical context를 활용하는 방법도 제안되었지만, 여전히 클래스별 특징을 명확하게 학습하는 데 제약이 있다고 말함.

여기서 중요한 포인트는, 저자들이 단순히 “텍스트를 넣으면 성능이 좋아진다” 수준이 아니라, 병변 클래스마다 대표적인 feature prototype을 명시적으로 학습해야 한다고 주장함.

즉 기존 모델은 다음과 같은 문제가 있음.

병변과 정상 구조를 구분하는 feature가 충분히 선명하지 않음.

텍스트 prompt만으로는 lesion class representation이 부족할 수 있음.

다양한 modality나 OOD 데이터셋으로 일반화하기 어려움.

연구 가설

“클래스별 대표 feature(exemplar)를 명시적으로 만들고, 이를 detection 과정에 함께 넣으면 의료영상 병변 검출이 더 강건하고 일반화 가능해질까?”

핵심 아이디어

논문은 이 문제를 해결하기 위해 Exemplar Med-DETR (EM-DETR) 를 제안함.

Class-specific exemplar feature를 만듦.

병변이 있는 실제 위치의 visual feature를 바탕으로 각 클래스의 대표 임베딩을 구축함.

Iterative training strategy를 사용함.

단순히 foreground만 학습하는 것이 아니라, normal anatomy와 false positive까지 background로 명시적으로 학습시켜 병변/비병변 분리를 강화함.

Related Works

일반 객체 검출 기반 의료영상 접근

의료영상 detection에서도 Faster R-CNN, RetinaNet, YOLO, DETR 계열이 널리 쓰여짐. 하지만 이런 모델들은 자연 영상에서 검증된 구조를 의료영상으로 가져온 방식임.

하지만 의료영상은 자연영상과 다르게

병변이 매우 작음.

Boundary가 불명확함.

클래스 간 차이보다 정상 해부학과의 혼동이 더 큰 경우가 많음.

그래서 일반 detection architecture를 그대로 적용하는 것은 의료영상에서 적절하지 않음.

멀티모달 / 컨텍스트 활용 연구

최근에는 MammoCLIP처럼 vision-language model을 활용해 mammography detection의 강건성을 높이려는 시도가 있었고, dense breast lesion detection이나 anatomical prior를 활용하는 연구들도 소개됨.

이 계열의 핵심은:

텍스트 class name 또는 설명을 주면 class semantics를 보완할 수 있음.

Anatomical/spatial context를 넣으면 lesion localization이 쉬워질 수 있음.

하지만 논문은 이런 방법도 결국 텍스트 의미 정보에 많이 의존하고 있으며, 실제 병변의 대표 visual prototype을 직접적으로 학습하지는 않는다고 주장함.

Grounding DINO와의 연결

이 논문은 Grounding DINO(GD)을 계승함. Grounding DINO는 이미지와 텍스트 사이의 cross-modal attention을 통해 open-set detection을 수행하는 모델. 논문은 이 구조가 매우 강력하지만, 의료영상에서는 단순 텍스트 prompt 외에 질환 class 자체를 대표하는 feature anchor가 더 필요하다고 주장함.

즉, 이 논문은 GD 위에 아래 내용을 추가함.

해당 클래스의 “대표 visual exemplar”

병변/배경을 분리하는 contrastive 구조

Method

전체 개요

EM-DETR는 기본적으로 multi-modal DETR 구조로 기존처럼 text embedding만 가지고 query selection을 하는 것이 아니라, 각 클래스의 representative visual feature embedding도 함께 이용함.

입력:

이미지

텍스트 prompt(class name)

Class exemplar

출력:

각 클래스에 대한 bounding box detection

Exemplar Generation Module

: 클래스 영역 내의 시각적 토큰 세트.

: 해당 영역의 위치 인코딩.

: 학습 가능한 파라미터로, 위치 정보가 특징 형성에 미치는 영향을 조절함.

저자들은 Swin Transformer backbone에서 얻은 visual token 중, 특정 클래스 k가 존재하는 위치 안에 해당하는 token들을 , positional encoding을 라고 함. 논문은 여기에 learnable class-specific scalar/embedding을 결합해 해당 클래스의 시각적·공간적 특성을 요약한 feature를 만듦.

병변 bbox 내부의 visual feature를 모음.

Positional encoding을 class별로 조절해 더함.

Learnable class token과 positional token을 함께 붙임.

작은 transformer 로 pooling함.

최종적으로 클래스별 feature embedding 를 만듦.

, : 클래스별로 학습되는 고유 토큰 및 위치 임베딩.

: Self-attetion 메커니즘을 사용하는 Transformer로, 여러 토큰 정보를 하나의 정규화된 임베딩 로 압축함.

이 는 개별 샘플에서 얻은 클래스 feature이고, 이를 moving average 해서 더 안정적인 대표 임베딩 를 만듦.

왜 moving average를 쓰는가?

매 iteration마다 exemplar가 크게 흔들리면 decoder가 불안정해짐. 그래서 최근 샘플들에서 얻은 를 평균해 prototype-like representation으로 저장함. 논문은 이를 memory bank에 보관하여 catastrophic forgetting도 줄인다고 설명함.

해석

이 구조는 결국 “mass 클래스는 대략 이런 feature를 가짐”, “calcification 클래스는 대략 이런 feature를 가짐”이라는 시각적 클래스 프로토타입을 만드는 것.

의료영상에서는 이런 방식이 특히 중요한데, 왜냐하면 class name만으로는 병변 appearance의 미묘한 질감을 충분히 설명하기 어렵기 때문.

Text + Exemplar 결합

병렬로, frozen text encoder는 “mass”, “stenosis”, “background” 같은 class prompt를 임베딩 로 변환함. 그 다음 논문은 이 와 대표 exemplar 를 interleave해서 downstream encoder-decoder로 넘김.

즉 detection은 다음 두 정보에 동시에 guided 됨.

Semantic cue: 텍스트가 알려주는 클래스 의미.

Visual cue: exemplar가 알려주는 클래스 실제 appearance.

이 덕분에 detector는 단순히 텍스트 단어를 따라가는 것이 아니라,“이 클래스는 실제 영상에서 이런 모양/질감을 가짐”이라는 기준으로 localization을 수행하게 됨.

추가 손실 함수

EM-DETR는 기존 DETR 계열 loss(, , ) 외에 두 개의 loss를 더함.

Contrastive feature loss

이 loss는 서로 다른 클래스 exemplar들이 latent space에서 잘 분리되도록 만듦. 논문에서는 클래스 간 representative embedding이 orthogonal하게 유지되도록 유도한다고 설명함.

의미:

Mass exemplar와 calcification exemplar가 섞이지 않게 함.

Background exemplar와 lesion exemplar가 분리되게 함.

이는 dense breast처럼 헷갈리는 환경에서 중요한 요소로 사용됨.

Feature loss

이 loss는 클래스 exemplar 와 decoder가 제안한 top proposal 가 유사한 latent representation을 가지도록 L2 loss를 만듦. 즉, detector가 실제로 찾은 후보 영역의 내부 표현이 class prototype과 일관되게 유지되도록 강제함.

의미:

Exemplar와 decoder proposal이 엉뚱한 feature를 가지지 못하도록 함.

Proposal search가 prototype-driven하게 이루어지도록 정렬함.

이 loss는 결과적으로 학습 안정성과 class consistency를 높이는 역할을 함.

Iterative Training Strategy

End-to-end 1-stage 학습으로는 정상 해부학과 병변을 잘 분리하기 어렵다고 보고, 3단계 iterative learning을 도입함.

Stage I

모든 annotation을 사용하여 기본 detector를 학습함.

Stage II

클래스별로 background vs foreground 구분을 더 정교하게 학습함.

Mammogram / CXR: 정상 이미지에서 random box를 뽑아 background로 사용.

CXR: lesion location prior도 함께 반영.

Angiography: annotated stenosis 바깥 영역을 background로 사용.

정상 구조를 명시적으로 background class로 학습시켜 모델이 “병변처럼 보이는 정상 구조”에 덜 속게 만듦.

Stage III

앞선 모델이 내놓은 false positive 영역을 다시 background로 간주해 추가 학습함.

의료영상 detection에서 FP는 임상 적용의 가장 큰 장애물 중 하나인데, 이 단계는 모델이 “내가 자주 틀리는 정상 패턴”을 다시 학습해 correction 하도록 만듦.

Experimental Setup

데이터셋

논문은 하나의 modality에만 맞춘 모델이 아니라는 점을 보이기 위해 여러 데이터셋을 사용함.

VinDr-Mammo

Mammography lesion detection.

Mass, calcification 검출.

베트남 데이터.

Dense breast 비율이 높아 어려운 벤치마크.

CMMD

중국 mammography 데이터셋.

OOD 평가용.

정밀 bbox가 없어서 radiologist가 lesion center를 지정.

VinDr-CXR

Chest X-ray 데이터셋.

Nodule/mass detection 평가.

ARCADE

Coronary angiography 데이터셋.

Stenosis detection 평가.

실험 설정

논문은 4개의 40GB A100 GPU에서 실험했고, MMDetection 프레임워크를 사용함. Image backbone과 text backbone은 frozen 상태이며, exemplar 생성용 transformer 는 2-head, 4-layer의 단순한 구조를 가짐. Moving average는 200 exemplars를 기준으로 계산하며, 5회 실행 결과의 평균으로 정리함.

Results

Mammography 성능

EM-DETR는 VinDr-Mammo에서 기존 baseline(Grounding DINO 기반) 대비, Mass에서는 mAP50 기준 0.22, calcification에서는 0.10 상승을 보임.

이는 EM-DETR의 강점이 특히 dense breast에서 obscure lesion을 찾는 능력에 있음을 시사함.

OOD: CMMD

중국 데이터셋인 CMMD은 bbox annotation이 없으므로, highest-score box가 lesion center를 포함하는지를 기준으로 TP rate를 계산함. 그 결과, OOD cohort에서 거의 두 배 수준의 향상을 보임.

Chest X-ray/Angiography 성능

VinDr-CXR에서 nodule/mass detection 결과는 mammography뿐 아니라 CXR 같은 다른 2D 흉부영상에서도 EM-DETR의 class-exemplar 방식이 유효함을 보여줌.

ARCADE stenosis detection에서는 성능 향상이 mammography만큼 크지는 않지만, modality와 task가 많이 달라졌음에도 일관된 개선이 있다는 점을 보여줌.

Discussion

Prototype-guided search

EM-DETR는 단순히 class name에만 의존하지 않고, 실제 클래스의 representative feature를 가지고 decoder search를 유도함. 즉 detector가 “mass라는 단어”를 보는 것이 아니라, “mass가 이런 질감/형태를 가짐”이라는 feature 기준으로 탐색하게 됨.

Background를 적극적으로 배움

의료영상에서는 positive를 잘 배우는 것만큼 정상 구조를 병변으로 오인하지 않도록 학습하는 것이 중요함. Iterative training과 false-positive background mining은 바로 이 부분을 겨냥함.

OOD에서 특히 강함

Dense mammogram의 OOD cohort에서 성능이 크게 오른 것은 EM-DETR가 병변의 “본질적 appearance feature”를 더 잘 잡았음을 시사함. 이는 의료영상 foundation detector로 이어질 가능성을 보여줌.

Ablation Study

t-SNE

[Mass vs Background], [Calcification vs Background]에서 exemplar가 latent space에서 비교적 잘 분리됨. 이는 contrastive/objective가 실제로 embedding space separation을 유도하고 있음을 보여줌.

모듈별 성능 변화

Mass는 거의 일관되게 좋아지며, calcification은 초기에 성능이 떨어지기도 하지만 Stage II/III를 거치며 성능이 향상됨. 논문은 이를 mass와 calcification이 동일 bbox로 annotation된 경우가 있어서 feature extraction이 혼란스러워지기 때문이라고 해석함(VinDr-Mammo). 즉 모델의 한계라기보다 annotation granularity와 label consistency 문제라고 함.

Conclusion

논문은 EM-DETR가 다양한 어려운 의료영상 검출 과제에서 효과적으로 동작하며, feature matching 기반 detection과 domain-adaptive iterative training을 통해 SOTA 성능을 달성한다고 결론지음. 또 exemplar를 활용한 decoder search 방식은 향후 novel class 확장, few-shot detection, medical detection foundation model 방향으로 이어질 수 있다고 제안함.