【AI浪潮席捲醫療業】醫療影像AI開發流程大公開

要開發一套醫療影像AI應用，不是一件容易的事，至少需經過3大階段，包括前期處理、模型建置與試驗，最後還經過臨床試驗和政府核准，才能真正上市

一套醫療影像AI輔助診斷系統從開發到上市，至少要1年以上的時間。這個過程大致可分為3大階段，包括前期處理、模型建置與試驗、醫材登記與上市。

以工研院糖尿病視網膜病變AI輔助診斷系統為例，工研院2年前開始研發這套系統，目的是要輔助非眼科醫生（如內分泌科、新陳代謝科等負責糖尿病科別的醫生），來判斷視網膜病變程度，以及早發現來進行後續治療。

這套國產AI目前能偵測和標示出4種肉眼難見的初期病徵，包括微細血管瘤、出血、軟滲出物、硬滲出物（Microaneurysms、Hemorrhages、Soft Exudates、Hard Exudates）等，還能區分出病變程度的等級，並依病變程度提供病患轉診建議。工研院表示，這是世界上第一套能標示出4種病徵的糖尿病視網膜病變AI系統。

開發這套系統時，工研院在第1階段的前期處理流程中，執行了IRB審核、影像預處理、影像標註、產生標註結果等作業。工研院巨資中心智慧應用技術組技術副理李雅文進一步解釋，工研院這項專案，首先要通過醫療倫理委員會（Institutional Review Board，簡稱IRB）審核，確保這項研究和臨床試驗都能保障病患隱私，而且取得的資料符合資安規範。通常，IRB每周會和計畫提出單位來回討論數次，視案件而定，平均一件要花1至2個月來完成審核。

通過IRB核准後，研發團隊便向國內3家醫學中心取得31萬張眼底圖，著手進行資料預處理，像是檢查影像品質、挑選要標註的影像，以及篩選出其中較合適進行標註的10萬多張眼底圖，再分派給50位眼科醫生來標註。

影像標註是建立機器學習模型基準（Ground Truth）的重要過程，深深影響模型的準確率。工研院安排由3位醫生來標註同一張影像。除了給予標註指南，工研院也進行流程管控，來確保醫生影像標註的一致性。

完成影像標註後，就進入了第2大階段：模型建置與試驗。這個流程，要先訂定效能指標，再來建置模型，最後才進行場域試驗等步驟。為方便衡量目標與成效，工研院訂定了糖尿病視網膜病變AI的效能指標，再開始訓練模型。在訓練模型的過程中，必須一邊參考效能指標、一邊調整模型，完成這個步驟之後，才部署至試驗場域。但李雅文指出，在實際操作中，難免發生實作結果與醫院報告仍有落差的狀況，因此還得重新訓練模型，再調整、評估。

符合指標又通過場域試驗的要求後，就正式進入第3大階段。這個部分得完成的步驟，包括了醫材臨床試驗、衛福部食藥署（TFDA）醫材查驗登記，之後才是上市。在此階段，工研院必須先完成衛福部規定的醫材臨床試驗，再將試驗報告連同系統開發過程的文件，送至TFDA來進行醫材查驗和登記，沒有問題後，才能進入到市場上。工研院目前正準備送件查驗，一方面也在尋找醫療器材行，以便日後商轉上市。

以上的模式，不只適用於工研院，常見的醫療影像AI開發流程，也有類似的3階段，只是一些歷程可能稍有不同。比如在資料取得部份，醫學中心本身即擁有大量資料，因此在收集資料時，並不會像工研院這般費力。

醫療影像AI提高準確率的關鍵挑戰

對醫療影像AI來說，參考基準是一批經醫生標註的影像，也就是用來訓練AI模型的標準樣本。訓練好的模型，可以判斷未經標註的影像、預測疾病嚴重程度，若參考基準（那批標註影像）的一致性越高，訓練出來的模型預測準確度也會越高。因此，在標註醫療影像時，必須取得醫生共識，也是各家面臨的挑戰。

醫學影像標註容易出現分歧

Google AI研究團隊產品經理彭浩怡指出：「任何領域的機器學習，都需要準確的事實，但意見分歧在醫學中卻很常見。」因此，如何建立參考基準，沒有標準作法，得各憑本事找出適合自家AI應用的作法。

2016年，Google首次揭露糖尿病視網膜病變AI輔助診斷系統，2年後則發表了一篇強化模型表現的論文，從中可以看到，為取得專家判斷病徵嚴重程度的共識，Google採用了2個方法：將病變程度的評分量表改為5級評分量表，並整合視網膜專科醫生對病徵的最終辨識結果，也就是請專科醫生針對有爭議的眼底圖不斷討論，直到每個人都對病變程度達成最終共識。彭浩怡表示，與多數決相比，Google解決歧異的做法更精準，而且還能進一步發現微小病徵，比如微動脈瘤。

2年前，工研院也同樣鎖定糖尿病視網膜病變，開發了一套國產的AI輔助診斷系統，不過，建立參考基準的方式就與Google有些許不同。首先，工研院自國內3家醫院取得了30萬張視網膜病變眼底圖，並將資料清洗過後的10多萬張眼底圖分派給50名眼科醫生來標註。

在標註過程中，工研院安排3位醫生共同標註1張眼底圖，當2位醫生對病徵或病變嚴重程度持不同意見時，就由第3位醫生來仲裁，或採多數決，或協調2位醫生的看法，來取得一致結果。

臺北榮總找來跨科別醫生共同決定影像標註

同樣在去年，臺北榮總與臺灣人工智慧實驗室開發一套AI工具DeepMets，能夠從數百張腦部MR影像中，揪出腦轉移瘤。臺北榮總放射線部主任郭萬祐指出，這些用來訓練DeepMets的腦轉移瘤影像，是自1993年引進加馬刀手術之後累積下來的。因加馬刀手術需精準定位腦部腫瘤位置，臺北榮總醫生群從當時起便在MR影像上標註每個病灶位置，而且每個病灶的標註，都是由神經放射科、神經外科和放射腫瘤科醫生開會討論而決定，至今依然如此。

在處理影像標註的分歧意見上，臺北榮總採取同中存異的做法。不過郭萬祐點出，經驗多寡也是影響影像標註意見的原因。比如，同專科10年以上經驗的醫生，與20年經驗的醫生相比，在判斷同張醫療影像時，一致性較高。

也可靠單一資深醫生獨立標記影像

臺北醫學大學附設醫院自去年開始進行肺結節深度影像標註，為建立準確、標準化的參考基準，北醫附醫除了按照國際標準來標註影像，也限制標註肺結節影像的醫生資格，必須是具備2年經驗以上的主治醫生，由每位醫生來負責一個病例的影像標註。

不過，不管是哪一家醫院或業界，各方皆認為，醫生經驗越資深，影像標註的品質就越高。像是中國附醫開發骨齡AI診斷系統所用的上萬張影像資料，全由20年以上臨床經驗的中國附醫兒童遺傳科主治醫生蔡輔仁親自來一一標註，並沒有採取多人重複標註相同影像再比對的作法，而是由單一位醫生來決定。

而專注數位病理的雲象科技共同創辦人暨執行長葉肇元也認為，要靠經驗豐富的專科醫生來判斷病灶、標註影像中的特定細胞，比如他們與林口長庚醫院合作的鼻咽癌AI就由6名專科醫生協助標註，而與臺大醫院正在打造的骨髓抹片分類AI更費工，找來了12名醫生。

中國醫藥大學附屬醫院人工智慧醫學診斷中心主任黃宗祺更直言，醫生經驗影響了影像標註的一致性，因此，醫療影像AI成敗關鍵就是「專科醫生多年的經驗。」

報導截取自 iThone ： https://www.ithome.com.tw/news/129974