文章介紹
本研究建立一個 6 個月的機器學習預測模型,用於預測第二型糖尿病成人患者,初始估計腎小球過濾率(eGFR)≥ 60 mL/min/1.73 m2 的急進性腎臟疾病風險和對腎臟科的轉診需求。
徐佳鈿醫師團隊從電子病歷中提取患者和醫療特徵,並將病例分為訓練 / 驗證和測試數據集,根據三種演算法 logistic regression、random forest、extreme gradient boosting (XGBoost) 開發和驗證模型。團隊還使用軟投票分類器(soft voting classifier)的集成方法來分類轉診組。
結果發現 XGBoost 模型在轉診組中具有更高的準確性和相對較高的精度,但 logistic regression 與 random forest 模型具有更高的召回率。集成投票分類器在準確性、AUROC 和轉診組中的召回率方面相對較高,優於其他三種模型。團隊還發現更明確的目標定義可以提高模型的性能。
機器學習類的論文,標準做法就是像這樣,分成訓練跟驗證,並且試著去建立一個模型,預測一件之前並不好預測的事情。作習慣臨床研究的人,比較熟悉 logistic regression,但機器學習因為可用的參數變化更為複雜,往往能輕易超越 regression 所能到達的境界。
恭喜徐醫師!