한국의 AI 활용 의료 데이터 현황

1. 공개 및 접근 가능한 의료 데이터 출처 및 플랫폼
한국에서 AI 개발·적용을 위해 활용할 수 있는 의료 데이터는 다양한 기관과 플랫폼을 통해 제공되고 있습니다. 아래 표는 주요 데이터 출처와 그 내용, 이용 방식을 정리한 것입니다:
국민건강보험공단 (NHIS) | 전국민 건강보험 청구 데이터 (진료 기록, 처방, 의료비) 및 건강검진 결과 데이터 등. 표본코호트 DB, 노인·영유아 코호트 등 다양한 연구용 DB 포함ejgo.org. 일부 익명 샘플 데이터는 공개data.go.kr. | 연구자 데이터 이용 신청을 통해 허가 후 보건의료 빅데이터 분석 플랫폼에서 안전하게 분석. 일부 익명화된 건강검진 표본 100만명분 데이터는 공공데이터포털에 무료 공개되어 즉시 다운로드 가능data.go.kr. 이용 시 개인정보보호법에 따른 가명처리 데이터 활용 가이드 준수. |
건강보험심사평가원 (HIRA) | 건강보험 청구 기반 진료 내역 DB, 의약품 처방·투약 정보, 의료기관·인력 등 자원 데이터. 최근 MRI·CT·X-ray 등 의료영상 데이터(뇌동맥류, 척추측만증, 무릎관절염 등 9개 질환) 25개 세트 구축docdocdoc.co.kr. | HIRA 보건의료빅데이터 개방시스템을 통해 연구 신청 후 이용. 연구자는 심평원 빅데이터 분석센터의 폐쇄망 PC에서 데이터 분석 가능docdocdoc.co.kr. 공공데이터(Open API 등) 형태로 일부 통계자료는 개방. 원천 데이터는 반출 제한, 결과만 제공mohw.go.kr. |
질병관리청 (국립보건연구원) | 대규모 코호트 연구 데이터 (예: 한국인유전체역학조사사업 KoGES 21만명 규모 임상·역학 정보와 유전체 데이터 통합본)nih.go.kr 및 국가 보건의료 R&D로 생성된 각종 바이오·보건 데이터. | **보건의료연구자원정보센터(CODA)**를 통한 클라우드 기반 원격분석 제공. 연구자 공모를 통해 승인 후, 개인 PC에서 클라우드 접속해 데이터 분석 수행nih.go.kr. 개인정보 가명처리된 데이터만 제공되며, 다운로드 없이 원격 분석만 가능. |
의료데이터 중심병원 (병원 연계 데이터) |
전국 43개 주요 병원이 참여하는 협의체로, 병원들이 보유한 전자의무기록(EMR), 의료영상(PACS), 디지털 병리, 유전체 등 임상데이터를 표준화하여 연구 활용snuh.orgk-his.or.kr. 예를 들어, 참여 병원들이 226만명 규모 암환자 통합 빅데이터를 구축하여 검진·치료·청구·사망 정보를 연계 제공dailymedi.com. | 정부 지원사업을 통해 구축된 데이터로, 산·학·연 공동연구 형태로 활용. 필요한 연구자는 해당 병원이나 한국보건의료정보원에 신청하여 안전한 분석 공간에서 가명정보 활용 연구를 진행dailymedi.com. 데이터는 반출 금지이며 공동연구 결과만 공유. |
AI-Hub (인공지능 학습용 데이터) | 과기정통부·NIA 주관으로 구축된 의료 AI 학습 데이터. 예: 환자-의사 음성 상담 녹취 및 텍스트 데이터 1,000시간 분량aihub.or.kr, 의료 영상 이미지 (내시경, 병리 슬라이드, 방사선 치료 등) 및 각종 질환별 진단 이미지 등 다수aihub.or.kr. 전문 라벨링 정보를 포함한 고품질 데이터셋. | 회원가입 후 무료 이용 가능. 일부 민감 데이터는 온라인 안심존(VPN 기반 원격 데스크톱)을 통해서만 열람/분석aihub.or.kr. 라이선스는 비영리·영리 상관없이 AI 연구개발에 활용 가능하며, 데이터 제공 기관에 저작권 표기 등 정책을 준수하면 됨aihub.or.kr. |
기타 공공 데이터 | 국가암데이터센터(국립암센터)에서 수집한 국가 암등록자료 및 암 빅데이터mohw.go.kr, 통계청 사망원인 통계, 국민건강영양조사(KNHANES) 등 보건 통계자료. | 암등록통계, 건강조사 결과 등은 통계 간행물·오픈 API 형태로 공개. 연구자가 원시자료 필요 시 해당 기관에 신청 가능. 개인정보 데이터는 가명처리 후 제한적 제공. |
위의 데이터 출처들은 각기 다른 목적과 형태로 의료 데이터를 제공하지만, 공통적으로 개인정보 보호를 위해 가명처리 및 안전한 활용 환경을 갖추고 있다는 점이 중요합니다. 예를 들어, 국민건강보험공단과 심사평가원의 데이터는 모두 **개인정보 비식별 조치(가명처리)**를 거쳐 연구용으로 제공되며, 원천 데이터는 외부로 직접 유출되지 않도록 엄격히 관리됩니다dailymedi.com.
특히 공공기관 주도 플랫폼들이 구축되어 연구자들이 데이터를 쉽게 활용할 수 있도록 지원하고 있습니다. 건강보험심사평가원은 2015년부터 HIRA 빅데이터 포털을 운영하며 진료·의약품·의료자원 데이터베이스를 연구와 공공서비스에 제공해 왔고mohw.go.kr, 국민건강보험공단 역시 2014년부터 빅데이터 분석 플랫폼을 통해 맞춤형 건강서비스 개발과 정책지원에 데이터를 활용하고 있습니다mohw.go.kr. 또 질병관리청 국립보건연구원은 2024년부터 민간 클라우드를 도입해 연구자들이 원격으로 대규모 역학·유전체 데이터를 분석할 수 있는 환경(OPEN KoGES 등)을 마련했습니다nih.go.kr.
요약하면, 한국에서는 국민건강보험 DB, 심평원 청구 DB, 질병관리청 코호트/유전체 DB, 병원 임상데이터 네트워크, AI 학습 데이터 허브 등 다양한 경로로 의료 빅데이터가 공개 또는 제한적 공유되고 있습니다. 다음 장에서는 이러한 각 데이터셋의 내용과 활용 조건을 좀 더 구체적으로 살펴보겠습니다.
2. 주요 의료 데이터셋 내용, 활용 범위 및 이용 조건
2.1 국민건강보험공단 건강보험·건강검진 데이터
국민건강보험공단(NHIS)은 한국 전 국민의 건강보험 자격·진료·청구 데이터와 건강검진 데이터를 보유한 최대 규모의 보건의료 데이터 원천입니다. 주요 데이터셋으로는:
- 진료 정보 DB: 외래·입원 진료내역, 처치·수술, 투약, 진단코드, 의료이용 비용 등이 포함된 청구 데이터입니다. 5천만 인구의 거의 전수 데이터를 매년 축적하고 있어, 질병 epidemiology 연구나 의료이용 행태 분석에 널리 활용됩니다.
- 건강검진 DB: 국민건강보험 가입자 중 일부를 표본으로 한 건강검진 결과 데이터. 신장, 체중, 혈압, 혈당, 콜레스테롤 등 검진 항목과 생활습관 설문을 포함합니다. 예를 들어 공단은 매년 100만 명의 건강검진 기록 표본을 무작위 추출하여 공개하는데, 성별·연령대별 기본정보와 주요 검사결과로 구성되어 있습니다data.go.kr. 이 데이터는 공공데이터포털을 통해 CSV로 내려받을 수 있으며 이미 수만 건이 다운로드되어 다양한 분석에 쓰였습니다data.go.krdata.go.kr.
활용 범위: 이러한 NHIS 데이터는 주로 역학 연구, 보건정책 수립, 질병 예측 모델 개발 등에 활용됩니다. 예를 들어, 건강검진 코호트를 활용한 연구들은 비만도나 혈압 변화와 향후 질병 발생의 상관관계를 분석하거나, 특정 검진 결과 조합으로 질병 위험을 예측하는 AI 모델을 개발하는 데 쓰입니다. 실제로 국내 헬스케어 기업들은 수년간 축적된 건강검진 빅데이터로 개인별 질병 발생 확률을 예측하는 상용 서비스도 선보였습니다. 라이프시맨틱스 사의 사례를 보면, 약 100만 명의 12년치 건강검진 데이터를 AI로 학습하여 개인의 검진 결과를 넣으면 2년 내에 암·뇌혈관질환·당뇨 등 12개 질환 발생 위험을 알려주는 알고리즘을 개발한 바 있습니다blog.hectodata.co.kr. 또 다른 예로 셀바스AI의 셀비 체크업은 건강검진 정보로 4년 내 주요 10대 질환의 발병 확률을 예측해주는 솔루션으로, 대형 검진센터나 보험사에 활용되고 있습니다.
접근 방식: 국민건강보험공단 데이터는 **공단 빅데이터 운영 사이트(NHIS 자료공유서비스)**에 연구계정 신청 후 승인심사를 거쳐 이용할 수 있습니다. 연구자가 분석하려는 변수와 기간 등을 제시해 승인을 받으면, **공단 내부 분석 서버(원격 데스크톱)**에 접속하여 데이터를 조회·분석하는 형태입니다mohw.go.kr. 통계 분석 결과는 반출 심사를 거쳐 가져갈 수 있지만, 개인 레벨의 원시 데이터는 외부 유출이 금지됩니다. 이용 시에는 비용이 부과되는데, 연구목적에 따라 수십만원에서 수백만원 수준의 이용료와 보안 교육 이수가 요구됩니다. 다만 앞서 언급한 100만명 건강검진 표본 데이터처럼 비식별 처리된 제한적 데이터셋은 무료 공개되기도 합니다data.go.kr. 라이선스는 비상업적 연구에 국한되지는 않으나, 개인정보보호법에 따른 가명정보 활용 요건을 준수해야 하며 상업적 활용 시에도 결과에 한해 이용 가능합니다.
제약 사항: 공단 데이터는 방대한 규모와 장기 추적 가능성이 장점이지만, 청구 목적 데이터의 한계도 존재합니다. 진료비 청구용 자료이므로 임상적 세부사항(예: 검사 수치, 영상소견 원본 등)이 부족하고, 인과관계 보다는 상관성 연구에 적합합니다pmc.ncbi.nlm.nih.gov. 또한 개인 민감정보의 집합이라 데이터 가명화가 필수이고, 연구자는 보안 서약을 해야 합니다. 최근에는 개인정보위의 가이드라인에 따라 진료 기록 등의 자유서식 텍스트도 자연어처리를 통해 가명화 후 활용할 수 있게 되었는데mohw.go.krmohw.go.kr, 이는 데이터 활용 범위를 넓히는 한편 처리 비용이 수반됩니다.
2.2 건강보험심사평가원 보건의료 데이터
건강보험심사평가원(HIRA)은 건강보험 청구 심사를 담당하는 기관으로, 의료기관들이 제출하는 모든 진료비 청구명세 데이터를 축적하고 있습니다. 주요 데이터셋으로:
- 진료내역 DB: 외래·입원별 상병명, 시술·수술 코드, 처방약 목록, 진료일수 및 비용 등이 포함됩니다. 국민건강보험공단의 진료 DB와 유사해 보이지만, 공단 DB가 공단 가입자 전체의 데이터인 반면 심평원 DB는 요양기관 입장에서 청구된 의료서비스 내역이며 실질적으로는 양 기관 데이터가 같은 원본에서 유래합니다. 다만 심평원은 자체적으로 심사결과 정보(청구 금액 조정 내역 등)를 부가적으로 갖고 있습니다.
- 의약품·의료장비 DB: 모든 약품의 보험 등재 정보, 비용, 처방 통계와 MRI·CT 등 장비 설치 현황, 병상 수 등 의료자원 정보도 제공합니다.
- 신규 개방: 의료영상 데이터: 2021~2023년 과기정통부 지원 하에 구축된 의료 영상 판독 데이터셋을 2025년부터 제공하고 있습니다. MRI, CT, X-ray 영상 중 뇌동맥류, 척추측만증, 무릎관절염 등 9개 질환에 대한 원본 및 라벨링 데이터 25세트이며, 환자 식별자가 제거된 상태로 AI 연구 목적으로 활용 가능합니다docdocdoc.co.kr. 향후 안저 이미지, 디지털 병리 슬라이드 등 비정형 임상 데이터도 계속 구축·개방할 계획입니다docdocdoc.co.kr.
활용 범위: 심평원 데이터는 공단 데이터와 유사하게 질병 발생률 연구, 약물 이용 패턴 분석, 비용 효과성 연구 등에 폭넓게 쓰입니다. 예를 들어, 전국 처방 데이터를 활용한 약물 부작용 감시 연구나, 특정 수술의 지역별 수행률 분석 등 공중보건 연구에 적합합니다mohw.go.kr. 새로 공개된 의료영상 데이터는 영상 판독 AI 알고리즘 개발에 활용될 전망입니다. 예컨대, 공개된 뇌동맥류 MRI 데이터로 딥러닝 모델을 훈련시켜 뇌혈관 동맥류 자동 검출 AI를 개발하거나, 척추 X-ray 데이터를 이용해 척추측만 각도 자동 측정 AI 등을 연구할 수 있습니다. 심평원은 “향후에도 다양한 비정형 의료데이터를 구축·개방함으로써 신사업 분야의 혁신을 지원할 것”이라고 밝히고 있습니다docdocdoc.co.kr.
접근 방식: 연구자는 **보건의료빅데이터 개방 포털(opendata.hira.or.kr)**에서 원하는 데이터에 대한 활용 신청을 해야 합니다. 승인이 되면 원격으로 보안이 갖춰진 심평원 빅데이터 분석센터에 접속하거나, 경우에 따라 대전 심평원 본원 등에 있는 분석실을 방문하여 폐쇄망 PC로 데이터를 분석하게 됩니다docdocdoc.co.kr. 분석에 필요한 통계 툴(SAS, R 등)이 제공되고, 결과만 반출하는 형태입니다. 또한 심평원은 연구자들의 편의를 위해 2023년부터 원격 분석 환경도 시작했는데, 이는 연구자가 굳이 센터에 가지 않고 VPN 등을 통해 접속해 이용하는 방식입니다. 이용 비용은 공단과 유사하게 부과됩니다.
라이선스 및 제약: 심평원 데이터도 공익적 연구와 산업적 활용 모두 허용되지만, 개인정보 보호 조치와 비식별화가 전제됩니다. 데이터를 직접 내려받는 것은 불가하며 API 형태로 제공되는 일부 서비스만 다운로드가 가능합니다. 2015년 이후로는 내 진료정보 조회 서비스 등을 통해 **개인 주도 데이터 활용(MyData)**도 지원하고 있어, 향후 개인 동의 하에 의료데이터 활용 범위가 확대될 것으로 보입니다mohw.go.kr. 전반적으로, 심평원은 공단과 함께 국내 보건의료 데이터 개방 정책의 양대 축으로서 데이터 표준화, 품질 제고를 위한 노력을 지속하고 있습니다.
2.3 질병관리청 코호트 및 유전체 데이터
질병관리청 산하 국립보건연구원은 국민건강 조사와 생물자원 연구를 수행하면서 방대한 연구용 데이터를 수집·관리하고 있습니다. 특히 코호트(장기추적) 자료와 유전체 바이오 데이터에서 중요한 자원이 나오고 있습니다:
- 한국인유전체역학조사사업(KoGES): 2000년대 초반부터 현재까지 약 21만 명 규모의 일반인 코호트를 구축한 국가 프로젝트입니다. 안산·안성 지역 코호트, 농촌 코호트, 도시 기반 코호트 등 세부 코호트들로 구성되어 있으며, 건강설문, 신체검사, 임상 검사 데이터가 10~15년 이상 축적되어 있습니다nih.go.kr. 또한 코호트 참가자의 유전체 데이터를 대규모로 생산해 왔는데, 예전에는 약 7만 명분의 한국인칩(유전체 SNP) 데이터만 연구 제공되었으나 최근 16만 명 규모로 유전체 데이터 공개가 확대되었습니다nih.go.kr. 이 데이터들은 임상/역학 정보와 결합된 형태로 통합 제공되도록 개선되었습니다nih.go.kr.
- 기타 코호트 및 오믹스 데이터: 이 외에도 질병관리청은 희귀질환 코호트, 출생 코호트(출생아부터 추적) 등 여러 집단의 데이터를 보유하고 있습니다. 또한 인간 유전체 외에 마이크로바이옴, 단백체, 대사체 등 오믹스 데이터도 국가 R&D를 통해 축적하여, 연구자 신청 시 제공하고 있습니다. 2023년 기준 질병관리청 CODA에는 약 17만 명의 임상·역학 데이터와 유전체/다중오믹스 데이터가 준비되었다고 합니다kdca.go.kr.
활용 범위: 질병관리청의 코호트 데이터는 질병의 위험요인 규명, 유전요인 연구, 예방의학 연구 등에 필수적입니다. 예를 들어 KoGES 데이터를 활용한 연구들에서는 유전형과 생활습관이 당뇨병 발생에 미치는 상호작용을 분석하거나, 다년간 축적된 검진 데이터를 통해 만성질환 발병 예측모델을 만들기도 합니다. 특히 최근에는 정밀의료 AI 분야에서 임상표현형+유전체 데이터를 결합한 예측 연구가 각광받고 있어, KoGES 통합데이터는 좋은 훈련 재료입니다. 실제로 정부는 “코호트 임상·유전체 통합 데이터로 시간 흐름에 따른 질병 발생과 유전적 요인을 비교 연구할 수 있게 되었다”고 밝혔습니다nih.go.kr. 이는 과거에 임상데이터와 유전체 데이터를 별도로 분석하던 것에서 크게 진일보한 점입니다. 궁극적으로 이러한 빅데이터는 질병 발병률 예측, 신약 타겟 발굴, 유전적 맞춤치료법 개발 등 다양한 AI 응용 연구에 사용됩니다.
접근 방식: 국립보건연구원은 연구자들에게 데이터를 제공하기 위해 **보건의료 연구자원 정보센터(CODA)**라는 온라인 플랫폼을 운영합니다. 최근에는 여기에 **클라우드 분석 환경(OPEN KoGES 플랫폼)**을 구축하여, 연구자가 원격지에서 안전하게 코호트 데이터를 분석할 수 있도록 했습니다nih.go.kr. 절차를 보면, 연구 공모에 지원하여 승인을 받으면 연구자에게 클라우드 접속 계정이 부여되고, 거기에 미리 업로드된 코호트 데이터에 접근해 통계 분석을 수행하는 식입니다. 데이터를 직접 내려받는 것은 금지되어 있고, 분석 결과도 반출 시 검열을 거칩니다. 이처럼 물리적 자료 반출 없이 클라우드 내에서만 활용하게 함으로써 개인정보 유출 위험을 최소화합니다nih.go.kr. 연구자 편의를 위해 클라우드 내 고성능 컴퓨팅 자원과 교육 프로그램도 제공되고 있습니다nih.go.kr.
라이선스/제약: 이 데이터들은 공공재 성격의 연구자원으로, 논문 출판 등 공익적 목적에 한해 이용됩니다. 상업적 활용보다는 학술 연구 중심이며, 이용자는 결과 공개 시 데이터 출처(질병청 KoGES 등)를 명시해야 합니다. 개인정보 보호 측면에서는, 유전체 데이터의 활용이 특히 민감하여 법령상 엄격한 기준이 있습니다. 2023년 말 보건복지부는 가이드라인을 개정해, NGS 기반 유전체 데이터의 주요 식별정보(염기서열 ID 등)를 삭제/대체하여 가명 처리하면 연구에 활용할 수 있도록 규정했습니다mohw.go.kr. 또한 유전체 데이터라도 활용 시 접근 권한 통제, 폐쇄 환경 사용 등의 조건을 달도록 했습니다mohw.go.kr. 이는 그간 유전체 정보 특성상 재식별 우려로 활용이 제한되던 것을 완화한 조치로, 향후 더 많은 유전체-AI 연구를 지원할 전망입니다mohw.go.kr.
2.4 의료데이터 중심병원 임상데이터 공유
의료데이터 중심병원 지원사업은 보건복지부가 2020년부터 추진한 사업으로, 전국 대형 의료기관들이 컨소시엄을 구성하여 임상 빅데이터를 공동 활용하도록 장려하는 프로그램입니다yna.co.krk-his.or.kr. 현재 서울대병원, 삼성서울병원 등 43개 주요 병원이 참여하고 있으며k-his.or.kr, 각 병원별로 특화된 질환 데이터셋을 구축하거나 상호 연계망을 마련하는 활동을 해왔습니다.
- 축적 데이터 내용: 참여 병원들은 자신들의 전자의무기록(진단, 처방, 검사결과, 경과기록 등), 영상저장시스템(PACS)의 MRI/CT/X-ray, 디지털병리 이미지, 유전체 검사결과 등을 표준화된 공통데이터모델(CDM) 형태로 정제하고 있습니다k-his.or.kr. 또한 병원마다 강점 분야가 있어, 어떤 곳은 암 환자 데이터베이스, 어떤 곳은 심혈관 질환 코호트, 희귀질환 데이터셋 등을 특화 구축했습니다k-his.or.kr. 그 중 큰 성과로 꼽히는 것이 앞서 언급한 암 환자 226만명 빅데이터입니다. 이 데이터는 참여 병원들이 보유한 암 환자 정보와 국가 암등록통계, 국민건강보험 검진·청구 데이터, 사망정보 등을 연계 통합한 것으로dailymedi.com, 환자 개인을 알아볼 수 없도록 가명처리하여 2024년 연구자들에게 개방되었습니다dailymedi.com. 이는 국내 최대 규모의 통합 암 데이터로, 암 예방과 치료 연구에 큰 자산이 될 것으로 기대됩니다.
- 활용 사례: 의료데이터 중심병원 데이터를 활용한 산·학 공동연구도 활성화되고 있습니다. 2024년 기준으로 5개 의료기관과 7개 바이오 스타트업이 매칭되어 공동연구를 시작하는 등 성과가 나오고 있습니다dailymedi.com. 예를 들어, 병원의 방대한 심장초음파 영상 데이터로 스타트업이 심부전 자동진단 AI를 개발하거나, 수만 건의 수술 기록 데이터를 분석해 의료과실 예방 시스템을 만드는 연구 등이 진행 중입니다. 또, 서울대학교병원은 자체 축적한 EMR, PACS 영상, 디지털병리, 유전체 데이터를 모두 활용하여 **한국형 의료 특화 거대언어모델(LLM)**을 개발하기도 했습니다snuh.org. 이 LLM은 3,800만 건의 임상 텍스트를 가명화해 학습한 것으로, 한국 의사국가시험 문제를 86.2% 정확도로 풀어내어 인간 의사 평균을 상회하는 성능을 보였습니다snuh.org. 이러한 예시는 대규모 병원 데이터를 활용한 AI 연구의 가능성을 잘 보여줍니다.
- 접근 및 제약: 의료데이터 중심병원에서 구축한 데이터는 **개별 병원 또는 중앙 허브(KHIS 등)**를 통해 연구자에게 제공됩니다. 다만 앞의 공단·심평원 데이터와 마찬가지로 원본 데이터를 직접 받는 것은 불가능하고, 병원 내부 또는 지정된 클라우드 환경에서 연구협약 형태로 활용해야 합니다dailymedi.com. 보건의료정보원(KHIS)이 병원 간 데이터 협력 중개 역할을 하며, 연구자는 연구계획 승인을 받아 해당 데이터셋에 접근하는 절차입니다. 데이터는 이미 각 병원별로 OMOP-CDM 등의 공통 포맷으로 표준화하고 있어, 여러 병원의 데이터를 모아서 동시에 분석하는 분산 연구도 기술적으로 가능해지고 있습니다. 개인정보보호 규정 역시 동일하게 적용되어, 모든 데이터는 가명 처리되고 접속 로그 감시, 접근 권한 관리 등 안전조치 하에 제공됩니다. 중심병원 사업의 목표는 **“의료기관이 보유한 고가치 의료데이터를 활용해 신약개발, AI 연구 등 혁신 생태계를 마련”**하는 것인 만큼k-his.or.kr, 향후 제약사나 스타트업과의 데이터 협력도 더욱 늘어날 것으로 보입니다.
2.5 AI-Hub 의료 영상·음성 데이터 (인공지능 학습용)
과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 운영하는 AI-Hub는 다양한 분야의 AI 학습 데이터를 구축·공개하는 플랫폼입니다. 의료 분야 역시 우선순위 영역으로 선정되어 여러 종류의 데이터를 공개하고 있습니다:
- 의료 음성 데이터: 실제 의료 현장에서 수집된 환자-의료진 간 대화 음성 및 텍스트 데이터입니다. 예를 들어 2021년에 구축된 *“의료 분야 음성 데이터”*는 내과 진료 녹음 100시간 분과 119구급상담 녹음 900시간 분을 포함해 총 1,000시간 분량의 음성 및 전사 텍스트로 구성되어 있습니다aihub.or.kraihub.or.kr. 대화에는 진료 주제 라벨, 발화자 구분, 화행(요청/질문 등) 라벨 등이 달려 있어서 의료 상담 챗봇 개발에 활용될 수 있습니다aihub.or.kr. 구축 목적도 응급의료시스템과 비대면 상담에 AI를 도입하기 위함이었습니다aihub.or.kr.
- 의료 영상 데이터: AI-Hub에는 다양한 의료 이미징 데이터셋이 존재합니다. 예를 들어, “위암 진단 의료영상” 데이터는 위내시경 영상과 병리결과를 연계한 학습용 자료이고, “전립선암 진단 영상” 데이터는 전립선 MRI 영상과 조직검사 결과를 포함한 데이터셋입니다aihub.or.kr. 이밖에 단계별 욕창 상처 이미지, 체액 세포검사 현미경 이미지, 암 환자 방사선 치료기록 데이터, 음성 질환 판별용 후두 내시경 영상 등 다양한 종류의 이미지/영상 데이터가 구축되어 있습니다aihub.or.kr. 각 데이터마다 수천~수만 장의 이미지와 전문의 Annotation(병변 부위 마스크, 판독 소견 등)이 달려 있어, 영상 진단 AI의 학습에 유용합니다.
활용 범위: AI-Hub 데이터는 모델 개발 및 교육용이 주 목적입니다. 의료 분야에서는 예를 들어, 공개된 폐CT 영상 데이터를 활용해 코로나19 폐렴 진단 AI를 학습시키거나, 내시경 이미지를 활용해 조기 위암 검출 모델을 훈련시키는 식의 활용이 이뤄졌습니다. 음성 데이터는 의료 챗봇, 음성 인식 EMR 입력 시스템 등에 응용될 수 있습니다. 실제로 AI-Hub의 데이터를 이용한 우수 사례들이 NIA 홈페이지에 소개되는데, 대학 연구팀이나 스타트업들이 해당 데이터를 기반으로 논문 발표, 알고리즘 성능 향상을 이루는 등 효과가 나타나고 있습니다. 상용화 측면에서도, 기업들이 AI-Hub 데이터를 프로토타입 개발에 활용한 후 추가 자체 데이터를 모아 제품을 완성하는 식으로 활용하고 있습니다.
접근 방식: AI-Hub에 공개된 데이터는 회원 가입만 하면 누구나 무료로 신청해 다운로드할 수 있는 것이 원칙입니다. 다만 개인정보나 민감 정보가 없는 데이터만 일반 다운로드가 허용되고, 의료처럼 민감한 영역은 **‘안심존’**이라고 불리는 보안 환경에서만 접근 가능하게 해놓았습니다aihub.or.kr. 안심존은 인터넷과 분리된 가상 데스크톱에 데이터를 올려두고 사용자에게 원격 접속 권한을 주는 방식입니다. 의료영상/음성 데이터 대부분이 이 안심존 형태로 제공되며, 승인된 사용자만 기간 내 접속하여 필요한 분석을 수행합니다. 필요한 경우 결과물(예: 모델 가중치 파일 등)은 신청을 통해 반출 가능합니다. 라이선스는 AI-Hub 데이터 이용정책에 따르는데, 기본적으로 *“AI 기술 및 제품·서비스 발전을 위해 영리/비영리 연구개발 목적으로 활용 가능”*하도록 명시되어 있습니다aihub.or.kr. 다만 재배포는 금지이며, 데이터 자체의 저작권은 구축 수행기관 및 NIA에 있으므로 출처 표기를 해야 합니다aihub.or.kr. 요약하면 상업적 활용도 무료로 가능하나 데이터의 출처를 밝혀야 하고, 2차 가공하여 공개 시에는 원본 포함 여부 등에 주의가 필요합니다.
품질/한계: AI-Hub 의료데이터는 정부 예산으로 고품질 라벨링까지 완료된 값진 자료이지만, 의료 현장의 모든 사례를 다 담지는 못한다는 한계가 있습니다. 또한 실제 임상 데이터보다 가공·선별된 형태여서, 모델 개발 후 현실 환경에 적용할 때 추가 튜닝이 필요합니다. 그럼에도 불구하고, 데이터 접근성이 낮은 중소 개발팀이나 초기 연구자에게는 큰 도움이 되는 자원입니다.
3. 의료 데이터의 AI 활용 사례
앞서 살펴본 데이터들을 실제로 어떻게 AI 개발에 활용하고 있는지 구체적 사례를 몇 가지 들어보겠습니다:
- 건강검진 데이터 기반 질병 예측: 국민건강보험공단의 건강검진 코호트는 개인별 미래 질병 위험도를 예측하는 AI 모델에 자주 활용됩니다. 상용 서비스 **H.AI(하이)**는 100만 명의 장기 검진 자료를 학습해, 사용자의 최신 검진 결과를 넣으면 향후 2년 내에 암, 뇌졸중, 당뇨 등 12개 질환의 발생 확률을 알려줍니다blog.hectodata.co.kr. 보험 설계사들이 이 예측 결과를 활용해 고객 건강상담에 쓰고 있으며, 질병 조기발견을 돕는 디지털 헬스케어 솔루션으로 자리잡았습니다. 또한 **셀비 체크업(Selvy Checkup)**은 검진 정보를 입력하면 4년 내 10개 주요 질환의 발병 위험을 알려주는 AI로, 이미 여러 금융 앱과 검진센터에 도입되었습니다. 이러한 사례들은 표준화된 대규모 검진 데이터가 있기에 가능한 것으로, 정확도 향상을 위해 계속 데이터를 누적·학습시키고 있습니다.
- 의료영상 AI 진단: 공개된 의료영상 데이터와 병원 보유 데이터를 활용하여 다양한 AI 진단 보조가 개발되고 있습니다. 예를 들어, 폐 결절 검출 AI는 수만 장의 흉부 X-ray 및 CT 이미지를 학습해 영상에서 미세한 종괴도 사람 수준으로 찾아냅니다. 국내 스타트업 **루닛(Lunit)**은 국내 대형병원 PACS 데이터와 해외 오픈 데이터를 결합해 흉부 엑스레이 판독 AI를 개발, 식약처 인허가를 받고 전세계 의료현장에 공급하고 있습니다. 뷰노(VUNO) 역시 병원들과 협력하여 뇌 MRI로 치매를 예측하는 AI, 안저 이미지로 당뇨망막병증을 검출하는 AI 등을 개발했습니다. 이러한 솔루션들은 개발 단계에서 AI-Hub나 의료데이터 중심병원 등에서 제공된 데이터를 활용해 pre-training이나 알고리즘 고도화를 이루고, 이후 임상시험 등을 통해 검증받았습니다. 특히 2025년부터 심평원이 공개한 MRI/CT 영상 데이터는 새로운 스타트업들의 기술 개발 촉진에 기여할 것으로 기대됩니다docdocdoc.co.kr.
- 임상 텍스트 및 다중데이터 활용: 병원 전자의무기록(EMR)의 방대한 텍스트 데이터는 의료 AI의 또 다른 광맥입니다. 서울대병원은 자체 구축한 3,800만 건의 임상 기록 텍스트 말뭉치를 가명화하여 **거대언어모델(LLM)**을 학습시켰고, 한국 의료현장에 특화된 의학 지식을 습득한 AI를 선보였습니다snuh.org. 이 모델은 임상 노트를 요약하거나 의사의 질문에 근거를 들어 답변하는 등 진료지원에 활용될 예정입니다snuh.org. 또한 병원의 EMR 데이터와 영상·유전체 데이터를 결합하여, 예를 들면 유방암 환자의 유전체 프로파일+영상소견+치료기록을 함께 분석해 환자별 맞춤 치료를 추천하는 AI 연구도 진행되고 있습니다. 이런 연구는 멀티모달 AI 분야로서, 다양한 형태의 의료데이터를 통합함으로써 더 정확한 예측을 가능케 합니다. 이를 위해서는 데이터 간 표준 코드 매핑과 연계가 필수이며, 현재 여러 중심병원이 FHIR, OMOP-CDM 기반 데이터 통합을 시도하고 있습니다.
- 기타: 이밖에 건강보험 청구데이터를 활용한 의약품 부작용 예측 AI, 생체신호 및 의료DB를 활용한 중환자실 사망위험 예측 모델, 국민영양조사 데이터를 활용한 영양섭취 패턴과 만성질환 관계 AI 분석 등 수많은 응용사례가 있습니다. 정부 또한 AI 의료기기 허가 트랙을 신설하고 2020년 이후 수십 건의 AI 기반 소프트웨어 의료기기를 승인하였는데, 이는 모두 양질의 의료데이터를 활용한 결과라 할 수 있습니다. AI 개발자는 데이터 확보가 난제인 경우 규제샌드박스 제도를 통해 임시로 데이터 활용 허가를 얻어 프로젝트를 진행하기도 했습니다. 이런 다양한 사례들은 의료데이터가 많아질수록 AI 혁신 속도도 빨라짐을 보여줍니다.
4. 의료 데이터 활용의 주요 과제 (품질, 표준화, 개인정보 보호 등)
의료데이터를 AI에 활용하려면 여러 현실적인 문제를 해결해야 합니다. 주요 과제 및 규제 요건은 다음과 같습니다:
- 데이터 품질 및 정합성 문제: 의료데이터는 종종 **잡음(noise)**이 많고, 병원마다 기록 방식 차이로 일관성이 부족한 경우가 있습니다. 예를 들어 진료기록에서 동일한 고혈압이라도 어떤 의사는 코드로만 입력하고, 어떤 의사는 메모에 상세 기술하는 식입니다. AI 학습을 위해선 이러한 데이터를 **정제(cleaning)**하고 오류를 교정하는 작업이 필수입니다. 또한 건강보험 청구데이터나 검진데이터는 연구 목적이 아니라 행정 목적으로 수집된 것이므로, 변수 정의가 연구에 최적화돼 있지 않습니다pmc.ncbi.nlm.nih.gov. 따라서 전문가의 도메인 지식을 동원해 라벨 재가공, 특징 추출이 필요하며, 이 과정에서 데이터 손실이나 편향이 생길 수 있습니다. 이러한 품질 문제를 줄이기 위해 정부는 의료데이터 표준화 및 품질관리 사업(예: EMR 인증제)을 추진하고 있으며, 의료데이터 중심병원 사업에서도 데이터 표준화·정제 인력 지원을 하고 있습니다k-his.or.kr.
- 표준화 및 상호운용성: 현재까지 의료기관마다 서로 다른 전산시스템과 코드 체계를 써왔기 때문에, 데이터를 모으더라도 호환이 어렵고 병합분석이 힘든 문제가 있습니다. 이를 해결하기 위해 국제표준인 SNOMED-CT, LOINC, ICD-10 코딩을 도입하고, OMOP-CDM과 같은 공통데이터모델로 변환하는 움직임이 활발합니다lien.inblog.ai. 실제로 국내 40여 병원이 OMOP-CDM 컨소시엄(OHDSI)에 참여하여 데이터를 변환했고, 그 결과 동일한 분석코드를 각 병원에 배포해 합산 결과를 얻는 분산 연구도 이뤄지고 있습니다. FHIR 표준 기반으로 병원 간 실시간 데이터 교류를 시험하는 진료정보교류 사업도 진행 중입니다. 이런 표준화 노력이 선행되지 않으면, AI는 편향된 한 기관 데이터만 학습하여 일반화 성능 부족 문제가 생길 수 있습니다. 따라서 데이터 상호운용성은 의료 AI 시대의 핵심 인프라로 여겨집니다.
- 개인정보 보호 및 규제 준수: 의료데이터는 대부분 민감한 개인 건강정보이므로 법적으로 엄격한 보호 대상입니다. 2020년 개정된 개인정보 보호법(일명 데이터 3법)은 가명정보에 한해 별도 동의없이 통계·연구에 활용할 수 있도록 했지만, 그 전제가 되는 가명처리가 매우 중요합니다. 민감정보를 식별 불가능하게 처리하는 기술과 절차가 미비하면 법 위반 소지가 있고, 사회적 신뢰도 얻기 어렵습니다. 이에 정부는 보건의료 데이터 가명처리 가이드라인을 만들어 의료현장의 다양한 데이터 유형별 가명처리 방법을 제시하고 있습니다pipc.go.kr. 예를 들어 **자유 서식의 진료기록(비정형 텍스트)**은 자연어처리로 이름·주민번호 등을 찾아 제거/대체하고, 음성 데이터는 텍스트로 변환 후 처리하며, 유전체 데이터는 특정 식별가능 정보(예: rare variant 식별자)를 삭제하는 식입니다mohw.go.kr. 2024년 1월 이 가이드라인 개정안은 이러한 비정형데이터 가명처리 범위 확대를 공식화하여, 의료 AI 연구에서 텍스트·유전체·음성 데이터를 사용할 수 있는 길을 넓혔습니다mohw.go.krmohw.go.kr. 연구자들은 반드시 이 지침을 따라 데이터를 비식별화해야 하며, 위반 시 법적 처벌을 받을 수 있습니다. 또한 데이터 활용 시에는 **윤리적 승인(IRB)**을 받도록 요구되며, 목적 외 사용이나 과도한 결합을 금지하는 등의 규제가 뒤따릅니다.
- 데이터 결합과 책임소재: 가치있는 연구를 위해서는 여러 출처의 데이터를 연결하는 경우가 많습니다 (예: 병원 임상데이터 + 공단 청구데이터 결합). 그러나 서로 다른 기관의 데이터를 결합하면 재식별 위험이 높아지므로, 한국에선 데이터 결합 전문기관(예: 건강보험공단, 통계청 등 지정)만이 가명정보 결합을 수행할 수 있게 되어 있습니다. 연구자는 이런 전문기관에 결합을 신청하고 결합된 결과를 안전구역에서 받아보는 절차를 거쳐야 합니다. 이처럼 절차가 번거롭고 비용도 발생하지만, 프라이버시 보호와 활용 간 균형을 위해 반드시 지켜야 할 부분입니다. 아울러, 데이터 제공기관과 활용기관 간에 만약 정보유출 사고가 나면 누구 책임인가 하는 법적 쟁점도 존재합니다. 현재 가이드라인은 데이터 제공기관의 책임 범위를 명확화하도록 개선되고 있으며mohw.go.kr, 사고 발생 시 책임소재를 계약서에 명시하는 등 대비가 요구됩니다.
- 데이터 업데이트 및 지속성: AI 모델은 최신 경향을 반영해야 하나, 의료데이터는 시간에 따라 변화합니다 (예: 질병 코딩 개정, 신약 등장 등). 그런데 일단 구축된 연구 데이터는 정적이기 때문에, 주기적 업데이트가 필요합니다. 데이터 플랫폼마다 업데이트 주기가 제각각이고, 최신 연도 자료는 접근이 제한되는 경우도 있습니다. 이는 AI 개발 시 데이터 시차 문제로 이어져, 과거 데이터로 학습된 모델이 최신 현황과 맞지 않을 수 있습니다. 이를 해결하려면 데이터 제공자들이 연속성 있게 새로운 데이터 포인트를 개방해야 하고, 연구자도 모델 재훈련 등 유지보수를 해야 합니다. 현재 공단·심평원 등은 연간 데이터셋을 정기 갱신해 제공 중이고data.go.kr, AI-Hub도 필요시 데이터 추가 구축을 진행합니다.
정리하면, 의료데이터의 활용은 기술적인 도전과 더불어 법·제도적 준수가 요구되는 영역입니다. 데이터 품질 향상과 표준화는 AI의 정확도를 좌우하고, 개인정보 보호와 규제 준수는 신뢰 확보와 지속적 데이터 활용을 가능케 하는 기반입니다. 정부, 의료기관, 산업계가 머리를 맞대고 이러한 문제들을 해결해나가는 노력이 계속되고 있습니다.
5. 정부 정책 및 의료 AI 산업 동향
정부 정책 측면에서, 한국은 의료데이터와 AI를 접목한 디지털 헬스케어 혁신을 국가 전략으로 삼고 다각도의 지원책을 펼치고 있습니다:
- 보건의료 데이터 개방 전략: 2019년 정부는 Bio-Health 산업 혁신전략을 발표하며 의료데이터 개방과 활용을 촉진하겠다고 밝혔습니다. 이후 △의료데이터 표준화/품질관리 △데이터 거버넌스 구축 △가명정보 활용 법제 마련이 추진되었습니다medicalworldnews.co.kr. 구체적으로, 의료데이터 정책심의위원회를 설치해 범부처 협력을 도모하고, 공공기관 9곳의 보건의료 데이터를 단계적으로 개방하는 계획을 세웠습니다kiet.re.kr. 앞서 소개한 심평원, 공단, 질병청, 암센터 등이 이에 해당하며, 현재도 이들 기관이 정책 수립과 평가에 데이터를 적극 활용 중입니다mohw.go.kr. 또한 2023년 발표된 *의료 AI 연구개발 로드맵(’24~’28)*에서는 핵심 의료 AI 기술 개발과 임상 적용을 위한 데이터 확보 및 개방을 중요한 과제로 설정했습니다mohw.go.kr.
- 국가 바이오 빅데이터 사업: 보건복지부·과기정통부·산업부가 합동으로 국가 통합 바이오빅데이터 구축사업을 2024년부터 시작했습니다kobic.re.kr. 9년간 100만 명 규모의 국민을 대상으로 임상정보와 유전체(전장유전체 등)를 수집하여, 이를 안전한 플랫폼에 보관·연구 활용하겠다는 거대 프로젝트입니다kobic.re.krkobic.re.kr. 2026년부터는 수집된 유전체 데이터를 외부 연구자들에게 공개하기 시작할 예정이며kobic.re.kr, 이렇게 모인 데이터는 정밀의료 및 신약개발에 핵심 자원이 될 전망입니다. 이 사업은 국민 자발적 동의 참여를 전제로 하여, 향후 데이터 규모나 다양성 면에서 한국 의료AI의 중요한 밑바탕이 될 것입니다.
- 규제 샌드박스와 시범사업: 의료 분야는 규제가 많아 신기술 도입이 느릴 수 있는데, 정부는 규제샌드박스 제도를 통해 이를 보완하고 있습니다. 예를 들어, 원격 모니터링 심전도 기기나 비대면 진료 플랫폼 등은 법령상 제약이 있으나, 샌드박스를 통해 일정 기간 실증을 허가받아 데이터를 모으고 서비스 효과를 검증했습니다bosa.co.kr. 또, 새로운 AI 기술이 의료기기로 승인받기까지 시간을 단축하기 위해 MFDS(식약처)는 혁신의료기기 패스트트랙을 운영하고, AI제품 다수를 1~2년 내 허가했습니다. 이러한 규제 완화 실험들은 데이터 축적에도 기여하여, 샌드박스 참가 기업들은 실제 임상 데이터를 수집·분석함으로써 제품 상용화 가능성을 높였습니다. 다만 보건의료 분야 규제샌드박스는 환자 안전과 직결되기에 신중해야 한다는 지적도 있어kpanews.co.kr, 정부는 이해관계자 협의 등을 거쳐 점진적으로 확대하고 있습니다.
- 마이헬스웨이(My Healthway)와 환자 주도 데이터: 정부는 국민이 자신의 의료·건강정보에 접근하고 이를 활용할 수 있는 “나의건강기록” 플랫폼(일명 건강정보 고속도로)을 구축 중입니다. 이 플랫폼이 완성되면 개인이 병원 진료기록, 투약이력, 검진결과를 한곳에서 확인하고 원하는 곳에 제공할 수 있게 됩니다. 이는 개인이 동의한 경우 자신의 의료데이터를 연구나 서비스 개발에 활용할 수 있는 길을 열어줍니다. 예컨대, 환자가 스스로 임상시험 참가를 원하면 자신의 데이터를 제공해 매칭될 수 있고, 보험 가입시 본인 데이터로 유리한 조건을 찾는 등 데이터 이동권이 생깁니다. 이러한 PHR (Personal Health Record) 정책은 간접적으로 의료 AI 개발에도 도움을 줄 것으로 예상됩니다. 왜냐하면 환자들이 자발적으로 데이터를 모아주는 역할을 할 수 있고, 분산된 데이터를 연계하는 효과가 있기 때문입니다. 현재 마이헬스웨이는 시범서비스 단계이며, 전자의무기록 상호운용성과 표준 API 마련이 진행되고 있습니다.
- 의료 AI 스타트업 생태계: 한국은 최근 수년간 의료 AI 스타트업의 약진이 두드러지고 있습니다. 영상 판독, 신약 개발, 의료행정 자동화 등 다양한 분야의 스타트업이 등장했고, 여러 기업이 해외 투자 유치와 글로벌 진출에도 성공했습니다. 예를 들면, 루닛은 암 조직 슬라이드를 분석하는 AI로 NASDAQ 상장에 성공했고, 뷰노는 국내 코스닥 상장 1호 의료AI 기업이 되었습니다. 제이엘케이(JLK), 딥노이드 등도 국내 10대 유망 AI 스타트업에 꼽힐 정도로 성장했습니다bosa.co.kr. 이들 기업의 강점 중 하나는 병원 및 공공기관과의 데이터 협력입니다. 스타트업 단독으로는 확보하기 어려운 수십만 건의 의료데이터를 병원과 공동 연구 형태로 얻어내 알고리즘을 개발하고 검증함으로써, 높은 진입장벽을 넘었습니다. 정부도 의료 AI 혁신 인큐베이팅 사업으로 병원-스타트업 매칭을 지원하고, 헬스케어 특화 액셀러레이터 프로그램을 운영중입니다. 2024년 의료데이터 중심병원 성과교류회에서 나온 발표에 따르면, 정부 지원으로 5개 병원-7개 스타트업 공동연구가 진행되는 등 데이터 공유 생태계가 가속화되고 있습니다dailymedi.com.
- 산업계와 학계의 협력: 의료데이터는 한 기관에 편중되지 않기에, 산·학·연·병 협력이 필수적입니다. 최근 대형 통신사나 IT 기업도 의료데이터 플랫폼 사업에 참여하여 클라우드 인프라를 제공하거나 데이터 분석 노하우를 접목하고 있습니다. 대학 연구자들은 보건의료 빅데이터를 활용한 논문을 다수 발표하며 근거를 축적하고, 그 중에는 AI 알고리즘 개발 연구도 많습니다. 정부출연연구소 역시 AI와 의료데이터 접목 연구에 나서, 예컨대 KISTI는 슈퍼컴을 활용한 의료 AI 모델링 지원, 한국생명공학연구원은 국가 바이오데이터 사업의 유전체 분석을 맡는 등 역할 분담이 이루어지고 있습니다kobic.re.kr. 이러한 범국가적 협력 체계는 궁극적으로 의료데이터 활용을 촉진하고 AI 산업 경쟁력을 높이는 방향으로 나아가고 있습니다.
결론적으로, 한국은 풍부한 의료데이터 자원과 IT 인프라를 바탕으로 의료 AI 혁신을 가속화하고 있습니다. 데이터의 공개와 활용을 늘리기 위한 정책 지원(표준화, 가명정보 제도 정비 등)이 활발하며, 산업계도 이를 토대로 새로운 서비스를 창출하고 있습니다. 다만 개인정보 보호, 데이터 품질 향상이라는 도전과제가 남아 있어, 이를 해결하는 지혜가 필요합니다. 정부 관계자는 “보건의료데이터와 AI 기술의 안전한 활용을 통해 디지털 헬스케어 활성화와 의료혁신을 선도하겠다”고 강조하고 있어mohw.go.krmohw.go.kr, 앞으로도 데이터 개방과 활용 지원정책이 지속될 전망입니다. 의료 데이터 생태계의 발전에 따라 다양한 AI 응용 사례가 현실 의료에 도입되어 국민 건강 증진과 의료 산업 발전에 크게 기여할 것으로 기대됩니다.
참고자료: 정부 부처 보도자료 및 공식 사이트mohw.go.krdailymedi.com, 한국보건의료정보원 자료k-his.or.krk-his.or.kr, 공공데이터포털 및 AI-Hub 데이터 소개data.go.kraihub.or.kr, 언론보도 (연합뉴스, 청년의사 등)yna.co.krdocdocdoc.co.kr, 기업 기술 블로그blog.hectodata.co.kr 등.

