“데이터는 풍부하지만, 함께 쓸 수 없다.” 이는 오늘날 의료 AI 연구자들이 가장 자주 마주하는 딜레마다. 각 병원은 풍부한 영상, 임상 기록, 생체 신호 등의 데이터를 보유하고 있지만, 이를 외부 기관과 공유하기는 쉽지 않다. 환자 개인정보 보호와 관련한 국내법 및 국제법, 그리고 기관 간의 법적 책임 문제는 협력을 가로막는 벽으로 작용한다. 하지만 이런 현실적 제약을 뚫고 병원 간 협력을 가능하게 만드는 기술이 있다. 바로 멀티센터 의료 데이터 학습을 위한 연합학습(Federated Learning)이다. 여기에 최근 부상한 Foundation model이 결합되면서, 의료 AI는 한 단계 진화한 협력 생태계로 진입하고 있다.

이미지 출처: copilot으로 생성
연합학습: 데이터를 움직이지 않고 모델을 공유하다 연합학습은 데이터를 병원 간에 직접 이동시키는 대신, 각 병원에서 독립적으로 모델을 학습시키고, 그 결과만 중앙 서버에 전달해 통합하는 방식이다. 이렇게 하면 환자의 민감한 정보는 로컬 환경에 안전하게 보관되면서도, 병원 간 협력 학습이 가능해진다. 예를 들어, 폐암 검출을 위한 연합학습 시스템에서는 A병원, B병원에서 각 병원의 흉부 X-ray 및 CT 데이터로 모델을 각각 학습시킨다. 이후 이 모델의 가중치 변화만을 중앙 서버에 전송하고, 이를 평균화해 새로운 글로벌 모델을 만든다. 이렇게 수 회의 반복만으로도 공동 성능이 개선된다. 그러나 기존 연합학습 방식은 병원 간 데이터 분포가 너무 다르거나, 참여 기관의 연산 자원이 제각각인 경우 성능이 불안정하거나 협력에 비용이 많이 든다.

이미지 출처: copilot으로 생성
Foundation Model의 등장과 연합학습의 진화 이러한 연합학습의 한계를 극복하는 기술적 돌파구로 등장한 것이 Foundation model이다. 이는 수억 건의 다양한 의료 데이터를 사전 학습(pretraining)하여 일반화된 표현 능력을 갖춘 대규모 AI 모델로, 텍스트, 영상, 생체 신호 등 다양한 의료 입력을 모두 다룰 수 있는 범용성을 자랑한다. 이제 연합학습은 각 병원이 scratch(처음부터) 모델을 학습하는 방식이 아니라, 사전 학습된 Foundation model을 병원에 배포하고, 병원은 이를 자기관 데이터로 미세조정(fine-tuning)하는 방식으로 진화하고 있다. 이를 통해 다음과 같은 변화가 일어나고 있다:
- 빠른 적응: 병원마다 보유한 데이터 양이 달라도, 기초 모델이 이미 많은 일반 지식을 담고 있어 빠르게 높은 성능을 낼 수 있다.
- 높은 유연성: 병원마다 연산 환경이나 사용 가능한 프레임워크가 달라도, 미세조정만 수행하면 되므로 실무 적용이 쉬워진다.
- 개인정보 보호 강화: 중앙 서버에는 모델 파라미터 변화량(예: LoRA 파라미터나 gradient)만 공유되어, 환자 정보가 유출될 위험이 낮다.
이처럼 foundation model 기반 연합학습은, 각 병원이 개별적으로 얻기 어려운 고성능 AI 모델을 협력을 통해 공유 자산으로 키워가는 새로운 협력 구조를 열고 있다.
연합학습의 신뢰를 높이는 보안 기술 한편 연합학습이 실무 현장에서 쓰이기 위해선 단순히 데이터가 오가지 않는다는 점만으론 부족하다. 모델 업데이트를 통해 원래 데이터를 유추하거나, 악의적으로 잘못된 정보를 학습 시스템에 주입하는 리스크도 존재하기 때문이다. 이를 막기 위해 도입되는 기술들이 바로 “프라이버시 강화 기술(Privacy-Enhancing Technologies)“이다. 대표적인 기술로는 다음과 같다:
- 차등 개인정보 보호(Differential Privacy): 모델 업데이트에 통계적 잡음을 더해, 개별 환자의 정보가 반영되었는지 여부를 감지할 수 없도록 한다.
- 보안 다자간 연산(Secure Multi-Party Computation): 병원 간 모델 파라미터를 암호화된 상태로 연산해, 각 병원이 서로의 업데이트 내용을 알 수 없게 한다.
- 인증 기반 참여 제어: 인증받은 병원만 연합학습에 참여하도록 하여, 악의적 참여자를 배제한다.
이런 기술들은 연합학습을 단순한 실험에서 벗어나, 현장 의료 시스템에 통합 가능한 수준의 신뢰성과 투명성을 제공하고 있다.
“병원은 더 이상 고립되지 않는다” 과거의 의료 AI는 데이터 접근성이 좋고 기술 인프라가 갖춰진 소수 대형 병원의 전유물이었다. 그러나 연합학습과 foundation model의 결합은 이런 구조적 편중을 해소할 수 있는 가능성을 보여주고 있다. 이제는 중소 병원이나 지방 의료기관도, 각자의 데이터를 보유한 채로 고성능 AI 모델을 공동 학습하고 공유할 수 있는 길이 열리고 있고, 이는 결국 모든 환자에게 고르게 혜택이 돌아가는 기술 민주화로 이어질 수 있다. 향후 의료 데이터를 활용한 연구나 실무 AI 시스템 구축 시, 단일 병원 중심의 개발보다 연합 기반 협력 체계를 어떻게 설계할지에 대한 고민이 필요하다. 병원은 데이터를 나눌 수 없어도, 지능(AI)은 함께 키울 수 있다.
* 참고 문헌 및 출처 "Federated Machine Learning in Healthcare: A Systematic Review", Cell Report Medicine 2024 "Foundation models for generalist medical artificial intelligence", Nature 2023 "LoRA: Low-Rank Adaptation of Large Language Models", arXiv 2021 "Privacy-Enhancing Technologies in Biomedical Data Science", Annu Rev Biomed Data Sci. 2024 "Privacy-Enhancing and Privacy-Preserving Technologies in AI", Centre for Information Policy Leadership 2025 |
“데이터는 풍부하지만, 함께 쓸 수 없다.”
이는 오늘날 의료 AI 연구자들이 가장 자주 마주하는 딜레마다. 각 병원은 풍부한 영상, 임상 기록, 생체 신호 등의 데이터를 보유하고 있지만, 이를 외부 기관과 공유하기는 쉽지 않다. 환자 개인정보 보호와 관련한 국내법 및 국제법, 그리고 기관 간의 법적 책임 문제는 협력을 가로막는 벽으로 작용한다. 하지만 이런 현실적 제약을 뚫고 병원 간 협력을 가능하게 만드는 기술이 있다. 바로 멀티센터 의료 데이터 학습을 위한 연합학습(Federated Learning)이다. 여기에 최근 부상한 Foundation model이 결합되면서, 의료 AI는 한 단계 진화한 협력 생태계로 진입하고 있다.
이미지 출처: copilot으로 생성
연합학습: 데이터를 움직이지 않고 모델을 공유하다
연합학습은 데이터를 병원 간에 직접 이동시키는 대신, 각 병원에서 독립적으로 모델을 학습시키고, 그 결과만 중앙 서버에 전달해 통합하는 방식이다. 이렇게 하면 환자의 민감한 정보는 로컬 환경에 안전하게 보관되면서도, 병원 간 협력 학습이 가능해진다. 예를 들어, 폐암 검출을 위한 연합학습 시스템에서는 A병원, B병원에서 각 병원의 흉부 X-ray 및 CT 데이터로 모델을 각각 학습시킨다. 이후 이 모델의 가중치 변화만을 중앙 서버에 전송하고, 이를 평균화해 새로운 글로벌 모델을 만든다. 이렇게 수 회의 반복만으로도 공동 성능이 개선된다. 그러나 기존 연합학습 방식은 병원 간 데이터 분포가 너무 다르거나, 참여 기관의 연산 자원이 제각각인 경우 성능이 불안정하거나 협력에 비용이 많이 든다.
Foundation Model의 등장과 연합학습의 진화
이러한 연합학습의 한계를 극복하는 기술적 돌파구로 등장한 것이 Foundation model이다. 이는 수억 건의 다양한 의료 데이터를 사전 학습(pretraining)하여 일반화된 표현 능력을 갖춘 대규모 AI 모델로, 텍스트, 영상, 생체 신호 등 다양한 의료 입력을 모두 다룰 수 있는 범용성을 자랑한다. 이제 연합학습은 각 병원이 scratch(처음부터) 모델을 학습하는 방식이 아니라, 사전 학습된 Foundation model을 병원에 배포하고, 병원은 이를 자기관 데이터로 미세조정(fine-tuning)하는 방식으로 진화하고 있다. 이를 통해 다음과 같은 변화가 일어나고 있다:
이처럼 foundation model 기반 연합학습은, 각 병원이 개별적으로 얻기 어려운 고성능 AI 모델을 협력을 통해 공유 자산으로 키워가는 새로운 협력 구조를 열고 있다.
연합학습의 신뢰를 높이는 보안 기술
한편 연합학습이 실무 현장에서 쓰이기 위해선 단순히 데이터가 오가지 않는다는 점만으론 부족하다. 모델 업데이트를 통해 원래 데이터를 유추하거나, 악의적으로 잘못된 정보를 학습 시스템에 주입하는 리스크도 존재하기 때문이다.
이를 막기 위해 도입되는 기술들이 바로 “프라이버시 강화 기술(Privacy-Enhancing Technologies)“이다. 대표적인 기술로는 다음과 같다:
이런 기술들은 연합학습을 단순한 실험에서 벗어나, 현장 의료 시스템에 통합 가능한 수준의 신뢰성과 투명성을 제공하고 있다.
“병원은 더 이상 고립되지 않는다”
과거의 의료 AI는 데이터 접근성이 좋고 기술 인프라가 갖춰진 소수 대형 병원의 전유물이었다. 그러나 연합학습과 foundation model의 결합은 이런 구조적 편중을 해소할 수 있는 가능성을 보여주고 있다. 이제는 중소 병원이나 지방 의료기관도, 각자의 데이터를 보유한 채로 고성능 AI 모델을 공동 학습하고 공유할 수 있는 길이 열리고 있고, 이는 결국 모든 환자에게 고르게 혜택이 돌아가는 기술 민주화로 이어질 수 있다. 향후 의료 데이터를 활용한 연구나 실무 AI 시스템 구축 시, 단일 병원 중심의 개발보다 연합 기반 협력 체계를 어떻게 설계할지에 대한 고민이 필요하다. 병원은 데이터를 나눌 수 없어도, 지능(AI)은 함께 키울 수 있다.
* 참고 문헌 및 출처
"Federated Machine Learning in Healthcare: A Systematic Review", Cell Report Medicine 2024
"Foundation models for generalist medical artificial intelligence", Nature 2023
"LoRA: Low-Rank Adaptation of Large Language Models", arXiv 2021
"Privacy-Enhancing Technologies in Biomedical Data Science", Annu Rev Biomed Data Sci. 2024
"Privacy-Enhancing and Privacy-Preserving Technologies in AI", Centre for Information Policy Leadership 2025