Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography

date

Mar 20, 2026

slug

mammoclip

author

status

Public

요약

Mammo-CLIP은 mammogram과 report를 함께 학습해 적은 라벨로도 강한 표현을 만들고, Mammo-FActOR는 그 표현을 병변 위치와 텍스트 속성과 연결해 해석 가능성을 높인 모델임.

Introduction

연구 배경

이 논문은 유방촬영술(mammography) AI의 가장 큰 한계 중 하나인 데이터 부족과 일반화 문제를 해결하려함. 유방암 CAD(computer-aided diagnosis) 시스템은 오래전부터 연구되어 왔지만, 실제 임상에서 강건하게 작동하려면 대규모·다양한 데이터가 필요함. 그런데 mammography에서는 고품질 라벨, 특히 병변 위치나 속성(annotation)을 대량으로 확보하는 비용이 큼.

컴퓨터비전 일반 영역에서는 CLIP 같은 Vision-Language Model(VLM) 이 대규모 이미지-텍스트 쌍으로 사전학습되면서, 적은 라벨로도 좋은 성능을 내고 도메인 변화에도 비교적 잘 견디는 모습이 관찰됨. 저자들은 이 아이디어를 유방촬영술에 옮겨와, 이미지와 판독 보고서(report)를 함께 학습하는 모델을 만들고자 함.

핵심 문제

적은 라벨만으로도 잘 학습할 수 있는가?

학습에 쓰지 않은 다른 데이터셋에서도 잘 일반화하는가?

분류뿐 아니라 병변 localization에도 도움이 되는가?

텍스트와 연결된 해석 가능한 시각 표현을 만들 수 있는가?

즉, 단순히 “분류 정확도가 높다”가 아니라, 데이터 효율성(data efficiency), 강건성(robustness), 해석 가능성(interpretability) 을 동시에 해결하고자 함.

논문의 핵심 제안

Mammo-CLIP: Mammogram-report pair로 학습한 mammography 전용 vision-language foundation model.

Mammo-FActOR: Report 속 특정 attribute와 영상 feature map을 연결해주는 약지도 기반 해석 모듈.

논문의 모델은 단순히 일반 CLIP을 가져와 fine-tuning한 것이 아니라, 유방촬영의 고해상도 특성과 report 구조를 반영해서 새롭게 구성된 모델.

Related Work

일반 Vision-Language Model 연구

CLIP류 모델은 이미지와 텍스트를 공동 임베딩 공간에 정렬함으로써, 아래의 문제에서 성능을 크게 높임. 이에 일반 비전 분야에서는 이미 높은 성능을 보임.

Zero-shot 성능

데이터 효율성

Downstream task 전이 능력

의료영상 VLM 연구

의료영상에서의 VLM 연구는 주로 흉부 X-ray(CXR) 에 집중되어 있음. 이는 MIMIC-CXR처럼 대규모 image-report pair 데이터셋이 존재하기 때문. 반면 mammography에서는 이런 대규모 paired dataset이 상대적으로 부족해, 유방촬영용 VLM 연구가 거의 없었음.

이 논문은 아래의 위치를 가짐.

CXR에서는 vision-language pretraining이 이미 활발.

다른 의료영상 분야는 PubMed caption, medical Twitter 등 간접적인 텍스트를 활용하는 경우가 많음.

Mammography에서는 report와 직접 연결된 foundation model이 거의 없었음.

따라서 Mammo-CLIP은 mammography 최초의 본격적 VLM 이라는 의미를 가짐.

기존 CLIP을 그대로 쓰기 어려운 이유

저자들은 단순히 일반 CLIP을 mammography에 fine-tuning하는 방식의 한계를 지적함.

CLIP은 보통 낮은 입력 해상도에 맞춰져 있어, mammography의 미세한 시각 단서가 손실 될 수 있음.

Mammography는 mass, calcification, density 같은 고해상도 세부 특징이 매우 중요함.

따라서 mammography 특화된 입력 처리와 학습 방식이 필요함.

즉, CLIP을 의료에 가져오는 것이 아닌, Mammography가 요구하는 해상도와 판독 텍스트 구조에 맞게 다시 설계함.

Method

Mammo-CLIP: 기본 구조

목표

이미지 와 텍스트 를 각각 image encoder와 text encoder에 넣어, 둘이 같은 의미를 가지면 임베딩 공간에서 가깝게, 다른 샘플이면 멀어지도록 학습함. 이는 CLIP과 유사하지만, 이 논문은 여기에 multi-view supervision(MVS)을 도입함.

인코더 구성

Image encoder: EfficientNet-B2 / B5

Text encoder: BioClinicalBERT

일반 CLIP의 ViT 기반 구조 대신, mammography 고해상도 처리에 더 적합한 EfficientNet 계열을 사용함.

, : 비교하고자 하는 두 가지 표현(Representation) 집합. 예를 들어 하나는 이미지 특징(), 다른 하나는 텍스트 특징()일 수 있음.

, : 동일한 환자에게서 나온 이미지와 텍스트의 벡터 표현으로, 이 둘은 'Positive Pair'가 됨.

: 두 벡터 간의 유사도(Similarity)를 측정하는 함수(주로 Cosine Similarity 사용).

: Logit의 스케일을 조절하는 학습 가능한 Temperature 파라미터. 모델이 예측하는 유사도의 확신 수준을 조절함.

분모 ( 부분): 배치 내의 모든 가능한 조합(Negative Pairs 포함)에 대한 유사도 합계. 이를 통해 정답 쌍의 유사도가 상대적으로 높아지도록 유도함.

Contrastive learning

기본적으로는 paired image-text는 가깝게, unpaired sample은 멀어지게 하는 contrastive loss를 사용함. 하지만 이 논문은 원본 쌍뿐 아니라 증강된 이미지/텍스트 쌍들 사이까지 모두 교차적으로 정렬함.

원본 이미지 ↔ 원본 텍스트

원본 이미지 ↔ 증강 텍스트

증강 이미지 ↔ 원본 텍스트

증강 이미지 ↔ 증강 텍스트

이런 식으로 여러 관계를 동시에 맞추면서 더 풍부한 표현을 배우게 됨.

수식은 원본 이미지, 증강된 이미지, 원본 텍스트, 증강된 텍스트라는 4가지 View 사이의 모든 조합에 대해 대조 학습을 수행함을 의미함.

이를 통해 모델은 단순히 이미지-텍스트 관계뿐만 아니라, 같은 이미지의 다른 각도(CC, MLO view)나 텍스트의 다른 표현(Back-translation) 간의 일관성도 함께 학습하여 데이터 효율성을 크게 높임.

단, 텍스트와 증강된 텍스트 사이의 손실()은 절반으로 가중치를 낮추어(Down-weight) 학습의 균형을 맞춤.

Instance Augmentation

이미지 증강

CC / MLO view를 서로 다른 multi-view로 활용.

Affine transform.

Elastic transform.

단순 랜덤 crop 수준이 아니라 유방촬영의 view 다양성과 형태 변형을 함께 반영함.

텍스트 증강

Report의 findings / impression 섹션을 다르게 사용.

Back-translation을 통한 문장 변형 활용.

이것이 중요한 이유는, radiology report가 같은 의미라도 표현이 다양할 수 있기 이며, 모델이 표면적 문장 형태보다 실질적인 임상 의미를 배우도록 유도함.

Dataset Augmentation

Paired mammogram-report 데이터만으로는 부족하므로, 저자들은 이미지와 속성(attribute)은 있지만 report는 없는 외부 데이터셋 을 추가로 활용함.

VinDr처럼 mass, calcification, laterality, depth, position 같은 속성이 있는 데이터셋에 대해, Radiologist가 만든 prompt template에 속성값을 넣어 report-like sentence를 합성함.

아래와 같이 실제 radiology report와 비슷한 문장으로 바꾸어 텍스트를 생성함.

suspicious mass

upper left breast

anterior depth

이는 진짜 report는 아니지만,

속성 기반 supervision을 텍스트 공간으로 연결함.

Paired dataset 부족 문제를 줄임

Vision-language pretraining의 범위를 넓힘.

Mammo-FActOR

Mammo-CLIP은 이미지와 보고서를 전역 수준(global level) 에서 정렬함. 하지만 실제 임상에서는 “이 문장에 해당하는 병변이 영상의 어디인가?”가 중요함. 즉, 단순히 global embedding alignment만으로는 localization 가능한 해석이 부족함.

논문에서는 report 속 특정 attribute를 포함하는 문장의 text representation을 가져와, frozen image encoder의 feature channel 중 어떤 채널이 그 attribute와 관련되는지 학습함.

쉽게 말하면:

“Mass를 말하는 문장”

“Calcification을 말하는 문장”

각각이 이미지 feature map의 어떤 채널과 연결되는지 학습한 뒤, 그 채널들을 가중합하여 heatmap을 만듦.

결과적으로 Bounding box GT 없이도 Report의 문장만 가지고, Mass / calcification의 위치를 대략적으로 찾는 약지도 localization이 가능해짐. 이는 explainability 측면에서 꽤 의미있는데, 의료영상에서는 “왜 그렇게 판단했는가?”를 시각적으로 보여주는 것이 중요하기 때문.

입력 데이터

: 고정된(Frozen) 이미지 인코더에서 추출된 특징 맵. (: 채널 수, : 공간적 해상도)
: 번째 환자의 보고서에서 번째 속성(예: "Mass")을 설명하는 문장의 텍스트 표현.

매핑 함수()

이 식은 텍스트 정보()를 입력받아 이미지 특징 맵의 각 채널()과 문장 사이의 유사도를 계산함. 는 이 관계를 학습하는 신경.

손실 함수()

: 특정 속성()이 실제로 존재하는 이미지와 해당 문장 사이의 일치도를 높임.
: 해당 속성이 없는 이미지들()과는 거리를 벌리도록 학습함(Contrastive Learning).

속성 맞춤형 히트맵(Heatmap)

학습이 완료되면, 계산된 가중치 를 이미지 특징 맵 의 각 채널에 곱함.
최종적으로 형태의 텍스트 정렬 히트맵이 생성됨.
이를 통해 별도의 Bounding Box 정답지 없이도(Weakly supervised), 보고서의 문구만으로 병변의 위치를 시각화할 수 있음.

Experiments

연구 질문

저자들은 다음 네 가지 RQ를 세움.

RQ1: zero-shot 및 label-efficient classification이 향상되는가?

RQ2: representation이 robust한가?

RQ3: localization에서도 label efficiency를 높이는가?

RQ4: Mammo-FActOR가 해석 가능성을 높이는가?

데이터셋

UPMC

13,829 patient-report pairs

25,355 screening mammograms

BI-RADS 0–2 중심

사전학습의 핵심 paired dataset

VinDr-Mammo

5,000 exams / 20,000 images

density, BI-RADS, mass, calcification 및 위치 annotation 포함

classification + localization 평가에 사용

RSNA Breast Cancer Detection

11,913 patients

486 cancer cases

malignancy classification 평가에 사용

사전학습은 주로 screening report 기반인데, downstream 평가는 속성 분류, 악성 분류, localization처럼 더 다양한 과제로 확장함.

전처리

저자들은 breast ROI를 rule-based하게 추출하고, 배경을 제거한 뒤 평균적으로 1:1.6~2 비율의 영상을 1520×912 로 resize함. 이는 일반 CLIP의 224×224보다 훨씬 큰데, Mammography의 미세병변을 살리기 위한 중요한 설계임.

학습 설정

Text encoder: BioClinicalBERT

Image encoder: EfficientNet-B2/B5

Optimizer: AdamW

Learning rate: 5e-5

Weight decay: 1e-4

Cosine annealing + warmup

Mixed precision 학습

Baseline

CLIP objective + RN-50

CLIP objective + EN-B5

저자들은 단순 backbone 차이뿐 아니라 학습 전략(MVS + augmentation)의 효과까지 비교하려고 baseline을 구성함.

평가 방식

Classification

Zero-shot (ZS): encoder freeze, prompt 기반 분류

Linear Probe (LP): encoder freeze, linear classifier만 학습

Fine-tuning (FT): image encoder + classifier 학습

Localization

VinDr의 suspicious finding box를 사용해 RetinaNet 기반 supervised localization 평가를 수행함. 또한 Mammo-FActOR로 weakly supervised localization도 따로 측정함.

Results

Classification 결과

VinDr 분류

Mammo-CLIP은 calcification, mass, density 예측에서 전반적으로 baseline보다 우수함.

10% 데이터만 사용한 LP 성능이 baseline의 100% FT 성능을 넘는 경우가 있음.

이는 representation 자체가 더 좋다는 의미.

Downstream에서 많은 라벨을 다시 붙이지 않아도 됨.

예를 들어 calcification 분류에서 Mammo-CLIP은 LP 10%에서도 매우 높은 성능을 보이며, 최종 FT에서도 최고 수준에 도달함. Mass 분류 역시 baseline 대비 큰 개선이 나타남. Density는 zero-shot이 상대적으로 어렵지만 LP/FT에서는 개선됨.

RSNA malignancy 분류

RSNA cancer classification에서도 Mammo-CLIP이 가장 강한 성능을 보임. 특히 사전학습에 사용된 screening report에는 암이 명시적으로 적혀 있지 않은 경우가 많음에도, downstream cancer classification에 잘 전이됨. 이는 Mammo-CLIP이 단순히 텍스트 키워드를 외운 것이 아니라, 유방영상의 임상적으로 의미 있는 representation을 배웠다는 간접 증거로 볼 수 있음.

Robustness 해석

저자들은 결과를 통해 다음을 주장함.

낮은 해상도의 RN-50 CLIP baseline은 mammographic visual cue를 충분히 못 잡음.

고해상도 EN-B5 baseline은 일부 개선되지만, 원본 pair만 쓰는 단순 contrastive objective로는 한계가 있음.

Mammo-CLIP은 고해상도 입력 + multi-view supervision 덕분에 더 풍부한 representation을 학습함.

또한 UPMC와 VinDr는 서로 다른 모집단(population) 기반 데이터인데도, UPMC로 학습한 Mammo-CLIP이 VinDr에 잘 전이되므로 도메인 간 robust representation 을 보여준다고 해석함.

Supervised Localization 결과

VinDr에서 box annotation을 활용한 supervised localization 성능을 보여줌. 전반적으로 Mammo-CLIP 기반 encoder가 baseline보다 높은 mAP를 보여, 이 representation이 detection task에도 유용함을 보임. 즉, 이 모델은 단순 분류용 encoder가 아니라, 병변 위치를 찾는 detection backbone으로도 강력한 초기 표현을 제공함.

Mammo-FActOR: Weakly Supervised Localization

Mammo-FActOR는 ground-truth bounding box 없이도, Report의 attribute 문장과 이미지 feature를 정렬해 mass와 calcification의 위치를 찾아냄.

Report에 “mass” 혹은 “calcification”이 있다고 적혀 있으면, 그 텍스트가 영상의 어느 영역과 관련되는지 heatmap으로 나타낼 수 있음. 즉, 텍스트-정렬 기반 해석 가능 localization 이 가능해짐.

Conclusion

이 논문은 mammography 분야에서 vision-language pretraining이 데이터 효율성, 강건성, 해석 가능성에 모두 기여할 수 있음을 보여준 초기이자 중요한 연구임.