修回日期: 2023-05-25
接受日期: 2023-06-21
在线出版日期: 2023-07-08
慢性乙型肝炎病毒感染(chronic hepatitis B virus infection, CHBV)进展成肝硬化是缓慢且容易被忽略的, 通过临床常规指标来构建肝硬化无创诊断模型成为研究热点. 然而, 目前有关肝硬化早期诊断的机器学习模型仍是缺乏的.
探讨极限梯度提升机(eXtreme gradient boosting, XGBoost)机器学习模型在乙肝肝硬化无创诊断中的效能.
回顾性分析2010-2018年首次就诊于安徽医科大学第一附属医院和第二附属医院感染病科的CHBV患者1087例, 按照随机原则以3:1的比例分为训练集和验证集. 收集所有研究对象的临床资料并利用XGBoost机器学习模型构建预测模型. 同时, 计算谷草转氨酶与血小板比率指数(aspartate aminotransferase/platelet ratio index, APRI)、纤维蛋白-4(fibrosis-4 index, FIB-4)评分并与XGBoost机器学习模型进行比较. 受试者工作特征曲线下面积(area under curve, AUC)以评估模型区分度, 校准曲线(calibration curve, CA)及决策曲线(decision curve analysis, DCA)以评估模型校准度及获益度.
共纳入CHBV病例1087例, 其中训练集817例, 验证集270例. 训练集与验证集两组间所有预测变量均无统计学差异(P>0.05). 训练集中有103例患者发生肝硬化, 肝硬化患者APRI和FIB-4评分明显高于非肝硬化患者(P<0.05). 在所有预测因子中血小板的相对重要度最高. 训练集和验证集的AUC分别为0.95和0.86(P<0.05), 两者Kappa值分别为0.78和0.74, 提示模型可重复性较好. CA曲线提示模型预测情况与真实情况拟合情况吻合度较高. 训练集和验证集的DCA曲线提示所建立模型能够使患者获得较高的获益度. XGBoost机器学习模型对于肝硬化的效能优于APRI评分和FIB-4评分.
本研究利用CHBV患者常见的临床信息构建的XGBoost模型对肝硬化的诊断具有良好的性能, 值得临床进一步推广.
核心提要: 本研究重点探究以慢性乙型肝炎病毒感染患者年龄和临床常见指标构建极限梯度提升机机器学习模型, 为肝硬化的早期管理提供参考依据.