查看更多
密码过期或已经不安全,请修改密码
修改密码壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
董建华1 张明伟2 杨 茜1 李 川1 吴 边1 孔 凌1 葛永纯1
DOI:10.3969/j.issn.1006-298X.2024.04.001
[基金项目] 江苏省自然科学基金面上项目(BK20201235)
[作者单位] 1东部战区总医院 国家肾脏疾病临床医学研究中心(南京,210016);2上海理工大学 健康科学与工程学院
[通信作者] 葛永纯(E-mail:gyc_626828@126.com)
摘 要
目的:利用机器学习法分析两种透析质量持续达标评估方法对维持性血液透析(HD)患者预后的影响。
方法:筛选2016年1月在国家肾脏疾病临床医学研究中心接受HD治疗,且每年完成至少3次透析质量评估的患者。随访截止至2022年10月,终点事件为全因死亡。采用指标达标时长比和指标达标波动值作为9种透析质量指标(透析间期体重增长率、透析前收缩压、血红蛋白、血清白蛋白、血总二氧化碳、血钙、血磷、血全段甲状旁腺激素和单室尿素清除率)持续达标的评估方法,基于机器学习算法构建HD患者1年后存活或死亡的预测模型,并获得模型最佳概率阈值。
结果:本队列研究共纳入240例HD患者,60例(25.0%)患者死亡。采用K-近邻算法(KNN)、随机森林(RandomForest)、极度随机树(ExtraTrees)、极限梯度提升树(XGBoost)、自适应增强(AdaBoost)和决策树(DecisionTree)六种机器学习法,分别构建基于透析质量指标达标时长比和指标达标波动值的预测模型。基于指标达标时长比的ExtraTrees模型具有最佳的预测效果,其准确率、精确率、召回率、F1分数和受试者工作曲线下面积分别达到0.92、0.86、0.96、0.91和0.93,同时证实0.65作为模型的最佳概率阈值。
结论:基于透析质量指标达标时长比的机器学习模型对HD患者预后具有良好的预测效果。
关键词 血液透析 透析质量 机器学习 预后
Machine learning algorithm of two continuous assessment methods of dialysis quality indicators based prediction scheme for assessing mortality risk in maintenance hemodialysis patients
DONG Jianhua1,ZHANG Mingwei2,YANG Xi1,LI Chuan1,WU Bian1,KONG Ling1,GE Yongchun1
1National Clinical Research Center for Kidney Diseases,Jinling Hospital,Nanjing 210016,China
2School of Health Sciences and Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China
Corresponding author:GE Yongchun(E-mail:gyc_626828@126.com)
ABSTRACT
Objective:Use machine learning method to analyze the impact of two continuous assessment methods of dialysis quality indicators on the prognosis of maintenance hemodialysis (HD) patients.
Methodology:A total of 240 patients who received HD treatment at the Eastern Theater Command General Hospital in January 2016 were screened,and dialysis quality was assessed more than three times a year.The follow-up period ends in October 2022,and the endpoint is death from all causes.The indicator time-to-standard ratio and indicator fluctuation value were used as the evaluation methods for the continuous achievement of nine dialysis quality indicators.Dialysis quality indicators include interdialytic weight gain、pre-dialysis systolic blood pressure、hemoglobin、albumin、total carbon dioxide、calcium、phosphorus、parathyroid hormone and spKt/V.A prediction model for survival or death of HD patients after 1 year was constructed based on a machine learning algorithm,and the optimal probability threshold of the model was obtained.
Results:After 94 months of follow-up,60 patients (25.0%) died.Six machine learning methods,KNN,RandomForest,ExtraTrees,XGBoost,AdaBoost and DecisionTree,are used to build prediction models based on the indicator time-to-standard ratio and the indicator fluctuation value.The ExtraTrees model based on the indicator time-to-standard ratio has the best prediction effect,with its accuracy,precision,recall,F1 score and area under the receiver operating curve reaching 0.92,0.86,0.96,0.91 and 0.9 respectively,while confirming 0.65 as the optimal probability threshold for the model.
Conclusion:The machine learning model based on the indicator time-to-standard ratio has a good prediction effect on the prognosis of HD patients.
Key words hemodialysis dialysis quality machine learning prognosis
我国血液透析(HD)患者人数快速增长,HD总患病率为597.7/百万·人,截至2022年,HD患者为844 265例,新增HD患者156 645例。得益于我国HD治疗率、治疗质量的不断提高,以及医疗保障政策的完善,HD患者生存时间明显延长,平均透析龄达4.5年,但与高质量透析的发达国家仍存在差距。临床亟须建立HD患者预后预测模型,为临床医生制定优化的治疗方案提供参考依据,进一步降低HD患者死亡风险,改善临床预后。透析质量持续达标是改善HD患者预后的基础。然而,目前临床缺少透析质量指标持续达标的评估方法,罕有研究分析透析质量多指标持续达标对HD患者预后的意义,尚未建立透析质量多指标持续达标影响HD患者预后的预测模型。机器学习法在多维和非线性分析方面更具优势,可提高模型的预测性能,已经被广泛应用于肾脏病相关研究,在HD领域也崭露头角[1-3]。因此,本研究提出两种透析质量指标持续达标的评估方法,并利用机器学习法建立透析质量多指标持续达标影响预后的最佳预测模型。
研究对象 本研究为回顾性、单中心队列研究。筛选2016年1月在国家肾脏疾病临床医学研究中心血液净化中心接受规律HD治疗的终末期肾病患者276例。纳入标准:(1)年龄>18岁;(2)透析时间>1年;(3)HD或血液透析滤过(HDF)3次/周;(4)透析期间每年至少完成3次透析质量评估。排除标准:(1)已罹患恶性肿瘤(如肺癌、胃癌、结肠癌、膀胱癌等);(2)透析期间接受肾移植手术;(3)转出血液净化中心至其他医院行HD治疗。最终纳入240例HD患者。
相关定义 根据《中国血液透析充分性临床实践指南》中HD患者医疗质量管理指标,将透析间期体重增长率(IDWG)、透析前收缩压(SBP)、血红蛋白(Hb)、血清白蛋白(Alb)、血总二氧化碳(TCO2)、血钙、血磷、全段甲状旁腺激素(iPTH)及单室尿素清除率(spKt/V)作为透析质量指标,临床治疗靶目标见表1[4]。每3个月评估1次透析质量。
透析方案 透析3次/周、4 h/次,治疗模式有HD和HDF,血管通路为自体动静脉内瘘(AVF)、移植物动静脉内瘘(AVG)或带隧道和涤纶套的透析导管(TCC)。
临床及实验室指标 病历信息系统获取患者年龄、性别、伴随疾病(高血压病、糖尿病、冠心病),患者透析龄、血管通路类型、透析治疗模式、抗凝方式、透析器类型。透析质量评估时采集患者透析前体重、前次透析后体重、透析治疗时间、超滤量、透析前SBP,透析前血尿素氮(BUN)、Hb、Alb、TCO2、血钙、血磷和iPTH,以及透析后BUN,并计算IDWG(公式1)和spKt/V(公式2)。
IDWG=(透析前体重-前次透析后体重)/干体重×100%
(1)Daugirdas单室模型公式:spKt/V=-In(R-0.008t)+(4-3.5R)×ΔBW/BW
(2)R为透析后BUN/透析前BUN,t为治疗时间,ΔBW为超滤量,BW为透析后体重。
透析质量持续达标评估方法
指标达标时长比 对各透析质量指标在时间维度上进行线性拟合(采用多项式函数的方法,公式3),求出函数在时间轴上与达标值阈值的交点,交点的横坐标即为开始达标的时间起点或达标结束的时间终点,计算达标终点与起点的时间间隔,从而得到各个生理指标的有效达标时长。通过计算达标的有效时长/记录时间段的有效时长得到达标时长比(公式4,图1)。
(3)
图1 持续达标时长比和指标达标波动值计算示意图
L:总时长;Ln:指标未达标时长;vn:指标异常值与正常边界值(达标值的上限或者下限)的差值;n:异常值个数
y为透析质量指标值,ai为常数,x为时间。
指标达标时长比=(L-L1-L2-…-Ln)/L
(4)L为总时长,Ln为指标未达标时长。
指标达标波动值 观察时间段内透析质量指标超出或低于正常值区间的标准差,即计算异常值与正常值差值的平方,然后相加除以异常值个数,再计算算术平方根(公式5,图1)。
(5)vn为指标异常值与正常边界值(达标值的上限或者下限)的差值,n为异常值个数。
随访与预后 随访观察截止时间至2022年10月,观察终点事件为全因死亡。
统计学方法 采用《IBM SPSS 22.0》软件(IBM SPSS Inc.,Chicago,USA)进行统计分析。计量资料若服从正态分布,以均数±标准差表示,两组间比较采用两独立样本t检验;若不服从正态分布,以中位数(四分位间距)表示,两组间比较采用秩和检验(Kruskal-Wallis H检验)。计数资料以例数(百分率)表示,组间比较采用卡方检验或Fisher精确概率法。P<0.05为差异有统计学意义。
机器学习法 基于Python3.7及相关数据分析库进行实验,其中Numpy和Pandas、Scipy用于数据预处理,sklearn用于机器学习算法构建,Matplotlib用于数据可视化分析。采用分层抽样法将存活和死亡患者数据集都按4:1分为两组,分别作为数据训练集和数据测试集。基于透析质量指标IDWG、透析前SBP、Hb、Alb、TCO2、血钙、血磷、iPTH和spKt/V的达标时长比和达标波动值,以及存活和死亡患者组间比较有统计学差异的指标,采用K-近邻算法(KNN)、随机森林(RandomForest)、极度随机树(ExtraTrees)、极限梯度提升树(XGBoost)、自适应增强(AdaBoost)和决策树(DecisionTree)六种机器学习法分别建立预测维持性HD患者1年后存活或死亡的模型。以透析患者数据随访截止时间作为预测模型的终点,将患者2015年1月到随访截止时间前1年的连续指标记录序列进行数据分析和机器学习建模,以预测1年后(即随访截止时间)的预后情况(存活或死亡)。机器学习模型参数分别为KNN(n_neighbors=5)、RandomForest(n_estimators=100,max_depth=16,max_features=3)、ExtraTrees(n_estimators=150,max_features=5)、XGBOOST(max_depth=12,learning_rate=0.10,n_estimators=200)、AdaBoost(n_estimators=50,learning_rate=0.1)、DecisionTree(max_depth=10)。通过受试者工作特征(ROC)曲线下面积(AUC)、准确率、精确率、召回率和 F1分数(用于判定精确率和召回率的综合指标,公式6)评价指标达标时长比和指标达标波动值模型的预测性能,并与线性逻辑回归模型(Logistic Regression)进行比较。基于机器学习模型中可变阈值方法,确定预测模型的最佳概率阈值。
F1分数=(2×精确率×召回率)/(精确率+召回率)
一般情况 240例患者中女性90例、男性150例,中位年龄57(47,68)岁。合并高血压156例、糖尿病29例、冠心病19例。患者中位透析龄75(43,112)月。206例行HD治疗、34例行HDF;227例以AVF为血管通路、13例为TCC。
预后情况 随访至2022年10月,60例(25.0%)患者死亡。死亡患者年龄、糖尿病和冠心病患病率均高于存活患者(P<0.05)。基线透析质量指标达标情况在存活和死亡患者中无差异(表2)。
表2 血液透析患者基线资料
透析质量指标持续达标情况 患者spKt/V、透析前SBP、透析间期体重增长率、Alb持续达标最好,达标时长比均在0.97以上,而血磷和Hb持续达标较差,达标时长比分别为0.44和0.28。患者iPTH、Hb和透析前SBP波动明显(表3)。
表3 两种透析质量指标评价方法的患者达标情况
预后预测模型建立及预测性能评价 将患者年龄、是否合并糖尿病、冠心病,以及透析质量指标达标时长比和指标波动值作为预测HD患者1年后预后的预测指标。192例患者作为训练集(存活144例、死亡48例),48例作为测试集(存活36例、死亡12例)。
采用KNN、RandomForest、ExtraTrees、XGBoost、AdaBoost和DecisionTree六种机器学习法分别构建预测模型。在指标达标时长比和指标波动值的预测模型中,ExtraTrees模型在准确率、精确率和F1分数均优于Logistic Regression线性模型及其他机器学习模型,仅在召回率方面,低于RandomForest和(或)KNN模型。召回率反映模型将预后良好的患者误判为死亡,召回率越高代表误判率越低。精确率反映模型将预后死亡的患者漏判为存活,精确率越高代表漏判率越低。从模型临床实际应用方面,漏判会比误判后果更严重。ExtraTrees模型的误判率高于RandomForest模型和KNN模型,但ExtraTrees模型在准确率、精确率和F1分数表现最好。因此,本研究选择ExtraTrees模型用于HD患者预后预测(表4)。
表4 基于透析质量指标达标时长比和达标波动值的机器学习模型预测效果
KNN:K-近邻算法;RandomForest:随机森林;ExtraTrees:极度随机树;XGBoost:极限梯度提升树;AdaBoost:自适应增强;DecisionTree:决策树;Logistic Regression:线性逻辑回归模型
基于指标达标时长比和指标波动值的ExtraTrees机器学习模型以决策树结构为基础,每个节点设置判定条件,根据判定结果进入到下一判定环节,直至叶子节点给出最终模型的预测结果。通过模型评价指标AUC、准确率、精确率、召回率和F1分数的综合比较,表明基于指标达标时长比的HD患者预后预测模型具有更好的预测效果(图2)。
图2 基于透析质量指标达标时长比(A)和达标波动值(B)的不用机器学习模型的ROC曲线下面积
KNN:K-近邻算法;RandomForest:随机森林;ExtraTrees:极度随机树;XGBoost:极限梯度提升树;AdaBoost:自适应增强;DecisionTree:决策树;Logistic Regression:线性逻辑回归模型
预后预测模型最佳概率值 基于透析质量指标达标时长比的ExtraTrees机器学习模型,输出的HD患者预后预测结果为概率值,临床研究一般将0.5作为概率阈值(即模型输出阳性概率≥0.5,即判断结果为阳性)。但在临床实际应用中,0.5并不一定是最佳预测概率阈值。因此,本研究基于机器学习模型中的可变阈值法,优化模型性能,以提高预测模型的准确性和稳定性。图3显示在0~1.0概率阈值间ExtraTrees模型预测的准确率,其准确率最高点在0.5~0.7。通过准确率、精确率、召回率和F1分数的多维度证实,0.65可作为模型的最佳概率阈值(表5)。若基于透析质量指标达标时长比的预后预测模型输出阳性概率≥0.65,即判断该HD患者1年后临床终点为死亡,输出阳性概率<0.65,即判断该HD患者1年后临床终点为存活。
图3 在不同概率阈值下基于指标达标时长比模型的预测准确率,在0.65时准确率最高(▲)
表5 概率阈值在0.5~0.7的基于指标达标时长比模型的预测效果
我国在2015年以循证医学结果为依据,参考国际指南,提出了《中国血液透析充分性临床实践指南》,针对9项透析质量指标,给予临床实践指导意见[4-5]。国家肾脏疾病临床医学研究中心依据指南和《血液净化标准操作规程》,每3个月对HD患者进行透析医疗质量评价,并及时调整透析处方和治疗方案,HD患者的基线中位透析龄已达75月。HD患者透析质量指标会随着时间推移而动态变化,但临床多通过横断面数据评价透析中心和患者的透析质量达标情况,因为缺少将透析质量指标持续达标情况进行量化的评估手段,很少有研究对上述指标进行纵向评估。本研究首次提出将指标达标时长比和指标波动指数作为透析质量持续达标的评估方法。本中心HD患者Hb和血磷达标时长比低,指导医生优先关注贫血纠正和血磷控制;iPTH和Hb的达标波动指数高,提示医生应注意治疗药物剂量调整幅度,避免iPTH和Hb水平明显波动,Hb达标时长比低可能也与之相关。指标达标时长比可作为评价透析中心整体透析质量的方法,指标波动指数能提示治疗方案的稳定性。
临床多通过单一透析质量指标的基线水平,基于线性模型(Logistic Regression模型或COX回归模型),分析判断其对HD患者预后影响[6]。HD患者透析质量指标的达标情况会随着治疗方法的改进和调整而变化,数据间的关系也会发生动态改变,传统统计学方法在高度复杂的多因素分析存在局限性,而机器学习允许更新模型以合并新数据,并捕获特征间关系的变化。现有利用机器学习法构建的HD患者预后预测模型,研究群体多为初始HD患者,研究数据多来源于HD前或后的基线数据[7-12]。目前尚未有研究建立多指标持续达标对HD患者预后影响的预测模型。本研究使用记录时间段内透析质量指标的达标时长比和达标波动指数作为HD患者1年预后的预测因子,建立基于机器学习法的HD患者预后预测模型。基于指标达标时长比的ExtraTrees模型具有最佳的预测效果,其准确率、精确率、召回率、F1分数和AUC分别达到0.92、0.86、0.96、0.91和0.93。其次本研究进行HD患者预后模型的最佳概率阈值计算,从多个指标维度证实0.65可作为预后模型的最佳概率阈值。模型基于临床容易获得的透析质量指标,可以帮助医生对高危患者进行分类,有助于医生及时制定针对性干预策略,改善患者预后。
本研究证实了透析质量指标持续达标对HD患者预后预测的应用前景,但存在一定的局限性。首先,训练数据基于单中心的回顾性数据,纳入样本量少,缺少外部验证,不能排除中心效应。其次,研究仅评估了患者1年死亡率,而长期死亡风险对HD患者也很重要。最后,研究未使用治疗干预数据。因此,研究组拟开展多中心研究,验证模型的可靠性和泛化性,进一步构建HD患者2年和5年死亡风险预测模型,同时利用机器学习法解释预测模型,对影响患者预后的透析质量指标进行重要性排序,切实帮助临床医生评估患者预后并制订个体化治疗方案。
小结:指标达标时长比和指标波动指数可作为透析质量持续达标的评估方法。基于透析质量指标达标时长比的机器学习模型对HD患者预后具有良好的预测效果。
参考文献
来源:肾脏病与透析肾移植杂志订阅号
查看更多