갑상선 영상에서의 인공지능 적용

하 은 주

아주대학교병원 영상의학과


  갑상선분야에서 초음파검사는 결절의 진단부터 위험도 분류, 세침흡인검사를 결정하는 일차적인 도구로서 널리 사용되고 있다. 그러나 영상 해석에 있어 판독자간의 차이가 존재할 수 있고 특히 경험이 부족한 의사에 의해 시행되는 경우 불필요한 반복적 세침흡인검사 및 진단적 수술이 시행될 수 있는 단점이 있다. 최근 인공지능 기반의 컴퓨터 진단 보조(CAD) 시스템을 통해 이러한 초음파의 단점을 보완하여 정확하고 일관된 해석을 통해 불필요한 세침흡인검사 및 진단적 수술을 줄이고자 하는 연구들이 진행되고 있어 현재까지의 진행 상황과 향후의 발전 방향에 대한 논의들을 공유하고자 한다.

커버스토리 이미지1

  인공지능 기반의 CAD 시스템 개발에 있어 초기 연구는 주로 머신 러닝을 기반으로 하였다. 머신 러닝 기법은 기존의 composition, shape, margin, orientation, calcification 등과 같은 전문가 집단에 의해 사전 정의된 특징을 기반으로 개발되는데, Chang 등의 연구에서는 머신 러닝을 이용해 갑상선의 악성 결절을 구별하는데 있어 CAD의 진단 능력을 AUROC 0.986까지 보고하기도 하였다 (1). 그러나, Sollini 등은 체계적 고찰 연구를 통해 기존의 많은 머신 러닝 기반의 연구 결과들이 서로 다른 영상 프로토콜, 세분화 방법, 스캐너/벤더 등의 다양한 교란 변수로 인해 연구 결과들의 비교 가능성과 재현성이 제한될 뿐 아니라, 작은 집단을 대상으로 개발되었음에도 불구하고 후속 검증 연구가 거의 이루어지지 않아 실제적인 임상 적용에는 제약이 있다고 보고하였다 (2). 이를 극복하기 위해 최근에는 딥 러닝 기반의 대규모 이미지 코호트를 바탕으로 한 연구들이 발표되었는데 기존의 머신 러닝과는 달리 전문가의 사전 정의된 초음파 특징에 대한 고찰없이 주로는 컨볼루션 신경망 (convolutional neural network)을 기반으로 개발이 진행되었다. 대표적인 Li 등의 연구에서는 30만개 이상의 이미지 코호트를 바탕으로 개발한 CAD 시스템이 TI-RADS 기반의 영상의학과 의사의 진단과 유사한 민감도 (84.3~93.4% vs 89.0~96.9%), 및 높은 특이도 (86.1~87.8% vs 57.1~68.6%)를 가지고 있다고 보고한 바 있으며, 비록 이 연구에 있어 많은 방법론적 논쟁이 존재하지만 딥 러닝 기반의 CAD 시스템의 가능성을 널리 입증하였다 (3). 그러나 인공지능 기반의 CAD 시스템 적용에 있어 무엇보다 중요한 것은 외부 검증을 통한 결과값의 재현성이며 이를 위해 현재까지 2개의 상용화된 CAD 시스템 (AmCAD-UT○R (AmCAD Biomed), S-DetectTM for Thyroid (Samsung Healthcare))이 개발되어 있다. AmCAD-UT○R는 갑상선 결절 진단용 최초의 상용화된 CAD 시스템으로 통계 패턴 인식 및 정량화 알고리즘을 이용해 갑상선 결절의 특징을 특성화 하도록 설계되어 다양한 TI-RADS 기반의 결절 분류와 위험도를 제공하고 있다. 이는 Reverter 등의 외부 검증 연구에서 TI-RADS 기반의 임상 전문가와 유사한 민감도 (87.0% vs 87.0%), 낮은 특이도 (68.8% vs 91.2%)를 보인 바 있다 (4). 반면에 S-DetectTM for Thyroid는 상용화된 초음파 플랫폼에 통합되어 실시간 적용이 가능하도록 개발되었으며 양성/악성 또는 다양한 TI-RADS 기반의 분류 결과를 제공하고 있다. 그러나 최 등의 외부 검증 연구에서는 영상의학과 전문의와 유사한 민감도 (88.4% vs 90.7%)를 보였지만, 이 역시 특이도 (74.6% vs 94.9%)는 낮았다 (5).

  현재까지의 검증된 연구결과들로 미루어 볼 때 인공지능 기반의 CAD 시스템의 기술적 실현 가능성은 충분히 입증되었지만 임상에서의 적용 가치는 아직 불명확하다. 따라서 임상적으로 적용 가능한 잘 설계된 CAD 시스템 개발을 위해서는 실제 사용자인 갑상선을 다루는 의사의 입장에서 다각도의 고민과 노력이 필요하다. 특히 개발된 새로운 도구가 임상의 진단 work-flow 에 어떻게 통합할 것인가에 대한 고민이 필요하며 현재까지의 검증 결과로는 갑상선 영상을 전문으로 하는 의사를 대체하기는 어렵지만 갑상선 초음파 영상의 경험이 부족한 의사를 돕는 add-on 검사로서 참고자료로 쓰일 가능성이 높아 보인다. 또한 갑상선 암 진단 시 인공지능 기반의 CAD 시스템에게 요구되는 적정 수준의 민감도 및 특이도에 대한 사용자 간의 합의가 필요하다. 갑상선 암은 예후가 좋고 사망률이 낮다는 점에서 불필요한 세침흡인검사를 줄이는 측면의 높은 특이도를 우선할 것인지, 민감도를 높여 경험이 적은 의사들을 지원하는 선별 도구로 사용하도록 개발할 것인지에 대한 고민이 필요하다. 최종적으로는 이러한 노력들이 다양한 전문 분야의 의사들 간에 초음파 검사 해석에 대한 차이를 줄이고 갑상선 결절 환자의 불필요한 세침흡인검사, 진단적 수술 등을 줄이는데 기여 할 수 있는지에 임상 검증이 필요하다. 이를 위해서는 임상 성과를 과대평가하지 않고, 잘 정의된 임상 코호트에서 적절한 외부 데이터 집합을 얻는 것이 필수적이며, 궁극적으로 단순 성과 지표를 뛰어넘는 임상 시험과 관찰 연구결과가 필요하겠다 (6).

References

1. Chang Y, Paul AK, Kim N, Baek JH, Choi YJ, Ha EJ, Lee KD, Lee HS, Shin D, Kim N 2016 Computer-aided diagnosis for classifying benign versus malignant thyroid nodules based on ultrasound images: A comparison with radiologist-based assessments. Med Phys 43:554.

2. Sollini M, Cozzi L, Chiti A, Kirienko M 2018 Texture analysis and machine learning to characterize suspected thyroid nodules and differentiated thyroid cancer: Where do we stand? Eur J Radiol 99:1-8.

3. Li X, Zhang S, Zhang Q, Wei X, Pan Y, Zhao J, Xin X, Qin C, Wang X, Li J, Yang F, Zhao Y, Yang M, Wang Q, Zheng Z, Zheng X, Yang X, Whitlow CT, Gurcan MN, Zhang L, Wang X, Pasche BC, Gao M, Zhang W, Chen K 2018 Diagnosis of thyroid cancer using deep convolutional neural network models applied to sonographic images: a retrospective, multicohort, diagnostic study. Lancet Oncol.

4. Reverter JL, Vazquez F, Puig-Domingo M 2019 Diagnostic Performance Evaluation of a Computer-Assisted Imaging Analysis System for Ultrasound Risk Stratification of Thyroid Nodules. AJR Am J Roentgenol:1-6.

5. Choi YJ, Baek JH, Park HS, Shim WH, Kim TY, Shong YK, Lee JH 2017 A Computer-Aided Diagnosis System Using Artificial Intelligence for the Diagnosis and Characterization of Thyroid Nodules on Ultrasound: Initial Clinical Assessment. Thyroid 27:546-552.

6. Ha EJ, Baek JH 2020 Application of machine learning and deep learning to thyroid imaging: where do we stand? Ultrasonography.