临床研究
Copyright ©The Author(s) 2023. Published by Baishideng Publishing Group Inc. All rights reserved.
世界华人消化杂志. 2023-07-08; 31(13): 544-554
Published online 2023-07-08. doi: 10.11569/wcjd.v31.i13.544
XGBoost机器学习模型对乙型肝炎肝硬化诊断的应用价值研究
李季, 韩可兴, 沈佳培, 孙伟杰, 高龙, 郜玉峰
李季, 韩可兴, 沈佳培, 孙伟杰, 高龙, 郜玉峰, 安徽医科大学第一附属医院感染病科 安徽省合肥市 230032
李季, 主治医师, 主要研究方向是肝硬化的早期诊断及治疗.
基金项目: 安徽省自然科学基金, No. 2208085MH204.
作者贡献分布: 李季与韩可兴对此文所作贡献两均等; 此课题由李季、韩可兴、沈佳培、孙伟杰设计; 研究过程由李季、韩可兴、沈佳培、孙伟杰、高龙、郜玉峰操作完成; 数据分析由李季、韩可兴、郜玉峰完成; 本论文写作由李季、韩可兴、孙伟杰完成; 郜玉峰提供了基金支持.
通讯作者: 郜玉峰, 主任医师, 23000, 安徽省合肥市蜀山区绩溪路218号, 安徽医科大学第一附属医院. aygyf@ahmu.edu.cn
收稿日期: 2023-04-20
修回日期: 2023-05-25
接受日期: 2023-06-21
在线出版日期: 2023-07-08
文章亮点
实验背景

慢性乙型肝炎病毒感染(chronic hepatitis B virus infection, CHBV)进展至肝硬化是一个缓慢的过程, 在肝硬化失代偿期发生之前常因无明显的临床症状而被患者忽略. 肝硬化失代偿期时不良事件的结局发生率升高明显, 这使得肝硬化的无创评估成为研究热点. 然而, 目前有关肝硬化早期诊断的机器学习模型仍是缺乏的.

实验动机

本研究重点探究CHBV患者的年龄、性别以及常规血清学指标所建立的极限梯度提升机(eXtreme gradient boosting, XGBoost)机器学习模型预测肝硬化的有效性. 旨在为CHBV患者提供安全、无创、简便、实用的诊断方法.

实验目标

基于CHBV患者的年龄、性别以及常规血清学指标等信息建立预测CHB进展为肝硬化的机器学习模型, 为肝硬化的管理提供参考.

实验方法

选取2010-2018年首次就诊于安徽医科大学第一附属医院和第二附属医院并行肝活检的CHBV患者. 按照随机原则以3:1的比例将所有患者分为训练集和验证集. 利用训练集患者一般资料及常规血清学指标构建XGBoos机器学习模型, 并利用验证集进行内部验证. 同时, 计算谷草转氨酶与血小板比率指数(aspartate aminotransferase/platelet ratio index, APRI)、纤维蛋白-4(fibrosis-4 index, FIB-4)评分并与研究中构建的模型进行比较. 受试者工作特征曲线下面积(area under curve, AUC)以评估模型区分度, 校准曲线(calibration curve, CA)及决策曲线(decision curve analysis, DCA)以评估模型校准度及获益度.

实验结果

最终纳入研究的CHBV病例1087例, 其中训练集817例, 验证集270例. 训练集中有103例患者发生肝硬化, 肝硬化患者APRI和FIB-4评分明显高于非肝硬化患者(P<0.05). 在训练集中, 所有预测因子中血小板的相对重要度最高. 利用训练集构建的XGBoost机器学习提示后的结果提示AUC为0.95, 验证集的AUC为0.86, 两者Kappa值分别为0.78和0.74. CA曲线提示模型预测情况与真实情况拟合情况吻合度较高. 训练集和验证集的DCA曲线提示所建立模型能够使患者获得较高的获益度. 研究中构建的XGBoost机器学习模型对于肝硬化的预测效能优于APRI评分和FIB-4评分.

实验结论

以CHBV患者的年龄、性别以及常规血清学指标为预测变量构建的XGBoost机器学习模型具有较好的预测效能, 有助于肝硬化早期发现, 使患者获益.

展望前景

本研究证实了利用常规资料构建XGBoost模型在预测CHBV进展为肝硬化时的可行性. 基于XGBoost的优势, 随着更多有效的预测变量被纳入模型, 预测效能将会进一步提升. 未来的研究重点在于提高临床资料的完整性和多样性, 保持对有关CHBV的新型血清标志物的关注并及时纳入模型进行验证.