查看更多
密码过期或已经不安全,请修改密码
修改密码壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
CART算法在原发性肝癌放疗后HBV再激活的应用
本文作者:山东省肿瘤医院 黄伟
摘要:为了建立乙型肝炎病毒(Hepatitis B virus,HBV)再激活的预测模型,提出CART(classification and regression tree)特征选择方法应用在原发性肝癌患者精确放疗后HBV再激活的危险因素分析中,进而建立基于CART和Bayes算法的HBV再激活预测模型。实验结果显示:CART算法划分了多组具有优秀分类能力的特征节点集(危险因素),尤其当特征节点集为HBVDNA水平、外放边界、放疗总剂量、V20和KPS评分时,在CART和Bayes预测模型中的分类正确性分别为88.51%和86.69%,得到HBV再激活正确性贡献度的排序为KPS评分>全肝平均剂量>V20>放疗总剂量>V10;当甲胎蛋白AFP出现时,增加了HBV再激活的预测正确性。
关键词:CART;特征选择;乙肝病毒再激活;危险因素;Bayes
原发性肝癌[1-3]是全球第5大肿瘤疾病,中国原发性肝癌(primary liver carcinoma,PLC)患者众多,近年来精确放疗逐步成为治疗原发性肝癌的重要手段。2013年,黄伟等[4]采用logistic回归分析69例经精确放疗的PLC患者发现基线血清HBVDNA水平是影响HBV再激活的独立危险因素,精确放疗后导致患者发生乙型肝炎病毒(Hepatitis B virus,HBV)再激活率达25%,发生再激活的患者死亡率为25%,HBV再激活严重影响患者的生活质量以及生存周期。2014年,Huang等[5]又将临床剂量体积等因素纳入研究当中,发现NLV(正常肝体积),V20,和D-mean(平均剂量)与HBV再激活重要相关。2014年,汪孟森[6]对山东省肿瘤医院治疗的53例原发性肝癌患者进行研究,推测肝功能Child-Pugh分级可能是发生HBV再激活的危险因素。2015年,张晶晶等[7]研究发现HBV再激活患者和HBV未激活患者的Child-Pugh分级构成和HBV DNA水平差异具有统计学意义。吴冠朋等[8]对90例经精确放疗的原发性肝癌患者研究发现HBV DNA水平、外放边界和肿瘤分期TNM是致使HBV再激活的危险因素,并建立了基于BP和RBF神经网络的预测模型。随后Wu等[9]使用遗传算法应用在原发性肝癌患者精确放疗后的HBV再激活危险因素特征选择上,并建立了贝叶斯和支持向量机预测模型。临床上对原发性肝癌放疗后导致HBV再激活的危险因素有待进一步探究,且亟需建立更多的HBV再激活预测模型。
决策树算法包括CART、ID3、C4.5等,CART(classification and regression tree)算法是由Breiman等[10]提出的,是决策树中典型的二叉树,CART算法有着较强的模式识别能力,并广泛应用在复杂的生物数据分析中。陈磊等[11]将CART算法用在肺癌微阵列数据上,并得到优秀分类能力的CART树模型。Kong等[12]将CART算法用在乳腺癌分类上,提高了对乳腺癌的治疗质量。Gasparoviga-asite等[13]将CART算法用于降低蛋白质维度特征,并得到分类任务中最有效的特征子集。本文把划分CART树的特征节点集作为HBV再激活的危险因素,然后用这些特征节点集建立基于CART和Bayes的HBV预测模型,最后得到基于CART和Bayes的HBV再激活预测结果。
1 数据与相关原理
1.1 数据
实验数据来自山东省肿瘤医院收治的90例经精确放疗的原发性肝癌患者的临床资料,数据包含:年龄、HBV DNA水平、外方边界、甲胎蛋白AFP和肿瘤分期TNM等28项特征属性。90例患者中20例发生了HBV再激活,HBV再激活率达22.22%。对本组数据研究的意义在于如何从这些数据中找出HBV再激活的危险因素,并建立HBV再激活预测模型,从而指导个体病人在治疗过程中采用抗病毒治疗方法,避免发生HBV再激活,提高病人的生存质量及延长病人的生存周期。
1.2 CART算法
1.2.1 构建CART决策树
CART[14]算法采用二分递归分割方法把数据中的特征作为二叉节点,CART算法可建立带有特征选择的分类树和回归树,本文用于判别HBV是否激活,因此本文建立的是带有特征选择的分类树。
显然,本文数据中m=28,c=2。根据所给数据集I建立并划分一棵二叉树,CART算法使用GINI指数[15]划分一棵二叉树,对于一个c类样本集,用混合度impurity(P)来衡量节点的纯度(只包含同一类别的节点)。
当节点n是“纯”时GINI指数为0,否则为正。对CART树而言,当节点n不满足属于同一类别或只有一个样本时,就需要对节点n进行划分,而划分时将混合度最大的进行划分,则得到最优分支。
其他节点亦重复以上划分过程,当CART树遇见以下情况时,停止划分为:
1)节点是纯的,即节点包含的样本属于同一类别。
2)属性集已划分完毕。
3)CART树达到最大深度。
4)每个节点已达到允许划分的最小记录数。
1.2.2 CART决策树的修剪
CART决策树所选择的特征会影响预测结果,为了得到分类性能最好的CART树,对CART决策树的特征节点进行修剪,而修剪的方法包含前剪枝和后剪枝。前剪枝控制树的深度与叶子限制树的生长,后剪枝是在树完全生长后进行叶子与深度的再调整,较符合树的完全生长,本文以代价复杂性作为后修剪的策略。
1.3 Bayes分类模型
Bayes[16]分类器是基于先验概率求后验概率的一种统计分类器。假定总体样本第i类样本的先验概率Pi,样品x属于i类样本的条件函数。
1.4 Hold-out与K折交叉验证
为保证选取的特征以及预测结果不失泛化性,先采用不同p的Hold-out选择出划分CART的特征节点集,本文的p分别设为:0.7、0.8、0.9。例如,本文90个原发性肝癌数据,则有90×p个数据用于划分CART的特征节点集,每次为不同p的Hold-out运行50次,特征节点集用于建立CART和Bayes预测模型,随后再采用K折交叉验证取预测结果的平均Ak。
1.5 预测模型性能评估
选用3个标准正确性(Accuracy)、灵敏性(Sensitivity)和特异性(Specificity)来评价所选特征的分类性能为:
Accuracy=(TP+TN)/(TP+TN+FP+FN),
Sensitivity=TP/(TP+FN),
Specificity=TN/(TN+FP).
2 结果与分析
文献[9]的正确性已经达到82%以上,因此为了保证特征的意义,本文中预测结果选取正确性达到80%的特征节点集,且将正确性达到85%以上的特征节点集记为具有优秀的分类能力。
2.1 Hold-out的p为0.7时CART选择的特征节点集及CART预测结果
运行了50次Hold-out(p为0.7)划分CART树所选择的特征节点集在10折交叉验证下的CART预测结果。
在CART的特征选择中,CART构建了易于理解的划分规则。例如第1组特征节点集:HBVDNA水平(x9),外放边界(x17),KPS评分(x3),V10(x19)和年龄(x2)的分类规则,并最终得到激活(reactivation)和正常(normal)两种预测结果,其预测正确性达到87.55%,灵敏性更是高达98.49%,特异性达到77.61%。
第2组特征节点集:HBV DNA水平(x9),外放边界(x17)和KPS评分(x3)的正确性为85.16%,其分类规则如图3所示。第3组特征节点集:HBV DNA水平,外放边界,V20和甲胎蛋白AFP的正确性为84.12%,第4组特征节点集:HBV DNA水平,外放边界和V20已在文献[5]和文献[8]中证明是影响HBV再激活的危险因素,其正确性为83.18%,即“甲胎蛋白AFP”的加入增加了HBV再激活正确性。
第5组特征节点集:HBV DNA水平,外放边界和V10的正确性为81.31%。综合比较,显然特征节点“KPS评分”比特征节点“V20”和特征节点“V10”更能提高特征节点集的HBV再激活正确性,因此判定“KPS评分”是影响HBV再激活的危险因素,且存在对HBV再激活的正确性贡献度:KPS评分>V20>V10。
2.2 Hold-out的p为0.8时CART选择的特征节点集及CART预测结果
运行50次Hold-out(p为0.8)划分CART树所选择的特征节点集在10折交叉验证下的CART平均预测结果。
第1组特征节点集:HBV DNA水平(x9),外放边界(x17),放疗总剂量(x10),V20(x21)和KPS评分(x3)的分类规则如图4所示,其正确性为88.51%,灵敏性为97.74%,特异性为74.54%,该组特征节点集的正确性最好。
第2组特征节点集:HBV DNA水平,外放边界,全肝最大剂量和甲胎蛋白AFP的分类正确性为86.73%,表明该特征节点集也具有优秀的分类能力。
第3组特征节点集:HBV DNA水平,外放边界和全肝平均剂量的正确性为84.01%,高于第4组特征节点集:HBV DNA水平,外放边界和V20的正确性,但低于第2组特征节点集:HBVDNA水平,外放边界,KPS评分的正确性,即存在对HBV再激活的正确性贡献度:KPS评分>全肝平均剂量>V20。
2.3 Hold-out的p为0.9时CART选择的特征节点集及分类预测结果
运行50次Hold-out(p为0.9)划分CART树所选择的特征节点集,特征节点集在10折交叉验证下的CART平均预测结果。
第1组特征节点集:HBV DNA水平(x9),肿瘤分期TNM(x6),外放边界(x17),Child-Pugh
(x7)的分类规则如图5所示,其正确性为87.01%,灵敏性为97.95%,特异性为73.14%。
第2组特征节点集:HBV DNA水平,外放边界,肿瘤分期TNM和KPS评分的正确性为86.47%,表明该特征节点集也具有优秀的分类能力。
第3组特征节点集:HBV DNA水平,外放边界和放疗总剂量的正确性为81.52%。低于第4组特征节点集:HBV DNA水平,外放边界和V20的正确性,但高于第5组特征节点集:HBV DNA水平,外放边界和V10的正确性,由此推出:对HBV再激活的正确性贡献度:V20>放疗总剂量>V10。
综上所述,得到一组对HBV再激活正确性贡献度的排序:KPS评分>全肝平均剂量>V20>放疗总剂量>V10。
2.4 特征节点集的Bayes预测模型结果
Bayes不考虑所选特征节点的先后顺序,因此可用于判定某些特征节点的加入或者替换对HBV再激活的影响。其初始特征集和特征节点集的结果。
在Bayes预测模型中,特征节点集的分类性能相比初始特征集的都得到提高。但在相同特征节点集条件下,CART的分类性能略优于Bayes的分类性能。
第1组特征节点集:HBV DNA水平,外放边界,放疗总剂量,V20和KPS评分在Bayes模型下的分类性能最好,正确性为86.69%,灵敏性为96.36%,特异性为74.86%,相比初始特征集其正确性,灵敏性和特异性分别提高:16.69%、21.36%和22.36%。并且该组特征节点集高于已知危险因素:HBV DNA水平,外放边界和V20的正确性、灵敏性和特异性。证明了特征节点“放疗总剂量”和“KPS评分”的加入提高了HBV再激活分类预测性能。
第2组特征节点集:HBV DNA水平,外放边界,KPS评分,V10和年龄的正确性为86.51%。第3组特征节点集:HBV DNA水平,肿瘤分期TNM,外放边界和Child-Pugh的正确性为85.65%。第4组特征节点集:HBV DNA水平,外放边界,肿瘤分期TNM和KPS评分的正确性为84.95%。前4组特征节点集的正确性达到或接近85%,即认为是具有优秀分类能力的特征节点集。
第4、5组特征节点集中同时包含个特征节点:HBV DNA水平,外放边界和肿瘤分期TNM3时,Child-Pugh比KPS评分更能提升正确性,即存在对HBV再激活的正确性贡献度:Child-Pugh>KPS评分。
第7组特征节点集含有“甲胎蛋白AFP”,其正确性略微高于没有“甲胎蛋白AFP”的第9组;第8组特征节点集也存在“甲胎蛋白AFP”,其正确性也略高于没有“甲胎蛋白AFP”的第10组,这证明了“甲胎蛋白AFP”增加了对HBV再激活正确性,与之前CART中的“甲胎蛋白AFP”增加了分类性能结论一致。
第6组特征节点集:HBV DNA水平,外放边界和KPS评分的正确性为84.24%;第9组特征节点集:HBV DNA水平,外放边界和全肝平均剂量的正确性为83.04%;第10组特征节点集:HBVDNA水平,外放边界和V20的正确性为82.74%;第11组特征节点集:HBV DNA水平,外放边界和放疗总剂量的正确性为80.95%;第12组特征节点集:HBV DNA水平,外放边界和V10的正确性为80.03%。由此推出对HBV再激活的正确性贡献度:KPS评分>全肝平均剂量>V20>放疗总剂量>V10,这与之前CART得出的正确性贡献度一致。特征节点KPS评分越高则表明放疗后身体所能承受的副作用越强,致使HBV再激活的可能性越低,即预测结果表现为正常(Normal),反之为激活(Reactivation)。剂量参数V20、V10等代表了放疗与肝损伤的关系,V20、V10分别指接受20Gy或10Gy以上放疗的体积占全肝体积比例,放射性损伤不仅与受到的肝放射性耐受剂量存在着紧密联系,而且与HBV再激活存在紧密联系。对HBV再激活影响越大的危险因素被CART选作特征节点的可能性越大,实验中特征节点以及出现的次数。
综上所述,不同特征节点集的分类性能不同,得到一个正确性较高的特征节点集:HBV DNA水平,外放边界,放疗总剂量,V20和KPS评分,并对实验中特征节点集的正确性比较后得到一组对HBV再激活正确性贡献度的排序:KPS评分>全肝平均剂量>V20>放疗总剂量>V10。特征节点“甲胎蛋白AFP”也增加了HBV再激活的正确性。已知的危险因素:HBVDNA水平和外放边界在所有CART特征节点中都出现,证明了CART算法特征选择的有效性。
3 结论
1)本文提出的CART算法应用在原发性肝癌患者精确放疗后致HBV再激活的特征节点集(危险因素)分析中,并建立了CART和Bayes预测模型。实验结果显示两种预测模型对原发性肝癌患者精确放疗后HBV再激活有着较强的模式判别能力,且CART的分类性能优于Bayes的分类性能。CART选择的特征节点集提高了HBV再激活分类性能,尤其特征节点集是:HBV DNA水平、外放边界、放疗总剂量、V20和KPS评分时的分类性能达到最优。经过实验结果的比较,得到了对HBV再激活正确性贡献度的排序:KPS评分>全肝平均剂量>V20>放疗总剂量>V10。“甲胎蛋白AFP”也会增加HBV再激活的正确性。已知的危险因素:HBV DNA水平和外放边界在所有CART特征节点中都出现,证明了CART算法特征选择的有效性。
2)CART的划分规则、特征节点的正确性贡献度、两种预测模型以及特征节点出现次数都可帮助医生对精确放疗的肝癌患者进行指导性治疗,并配合抗病毒和肝保护药物,防止HBV发生再激活,对提高患者的治疗效果,甚至防止HBV再激活导致的患者死亡具有重要意义。今后将继续研究其他特征选择方法和分类算法,致力于提高预测模型准确度。
查看更多