壹生大学

壹生身份认证协议书

本项目是由壹生提供的专业性学术分享,仅面向医疗卫生专业人士。我们将收集您是否是医疗卫生专业人士的信息,仅用于资格认证,不会用于其他用途。壹生作为平台及平台数据的运营者和负责方,负责平台和本专区及用户相关信息搜集和使用的合规和保护。
本协议书仅为了向您说明个人相关信息处理目的,向您单独征求的同意,您已签署的壹生平台《壹生用户服务协议》和《壹生隐私政策》,详见链接:
壹生用户服务协议:
https://apps.medtrib.cn/html/serviceAgreement.html
壹生隐私政策:
https://apps.medtrib.cn/html/p.html
如果您是医疗卫生专业人士,且点击了“同意”,表明您作为壹生的注册用户已授权壹生平台收集您是否是医疗卫生专业人士的信息,可以使用本项服务。
如果您不是医疗卫生专业人士或不同意本说明,请勿点击“同意”,因为本项服务仅面向医疗卫生人士,以及专业性、合规性要求等因素,您将无法使用本项服务。

同意

拒绝

同意

拒绝

知情同意书

同意

不同意并跳过

工作人员正在审核中,
请您耐心等待
审核未通过
重新提交
完善信息
{{ item.question }}
确定
收集问题
{{ item.question }}
确定
您已通过HCP身份认证和信息审核
(
5
s)

文章速递 | 基于近邻成分分析算法的原发性肝癌精确放疗后HBV再激活分类预测

2022-11-24作者:赵梦雅资讯

基于近邻成分分析算法的原发性肝癌精确放疗后HBV再激活分类预测


本文作者:黄伟 山东省肿瘤医院


摘 要:原发性肝癌(PLC)患者在精确放疗后乙型肝炎病毒(HBV)再激活是一种常见并发症,及时的预测防护能降低发病率、死亡率。研究表明:多余的特征变量会影响HBV再激活的预测精度。通过提出基于近邻成分分析(NCA)的特征选择方法找出HBV再激活的危险因素及特征组合。之后分别建立经Bayes优化前后的支持向量机模型(SVM)对这些关键特征子集及初始特征集进行分类预测。实验结果表:明HBVDNA水平、KPS评分、分割方式、外放边界、V25、肿瘤分期TNM、Child-Pugh等都是影响HBV再激活的危险因素。其中经NCA特征选择之后发现的V25是在乙型肝炎病毒再激活研究中首次提出的危险因素。10折交叉验证下特征组合HBVDNA水平、外放边界、V25的预测精度高达86.11%。支持向量机分类器可以很好地应用于乙型肝炎病毒再激活的研究,特征选择后的关键特征组合具有更优越的分类性能。


关键词:乙型肝炎病毒(HBV);近邻成分分析(NCA);特征选择;支持向量机


原发性肝癌(Primarycarcinomaofliver)是我国常见的恶性肿瘤之一。中国的原发性肝癌患者约占世界的55%,这类患者常伴有较高的死亡率。而原发性肝癌在接受精确放疗后易引起乙型肝炎病毒(HBV)再激活,所以找到HBV再激活的危险因素并通过进一步建立分类预测模型来进行研究对感染HBV的原发性肝癌患者具有重要的临床意义。国际上关于HBV再激活的研究不是很多,在国内,韩聚强等人指出HBV再激活与肿瘤直径大小及是否术前规范抗病毒治疗等因素有关[1]。汪孟森通过研究比较基线特征差异筛选出HBV再激活的可能危险因素,结果显示性别、年龄等指标无明显差异,肝功能Child-pugh分级可能是HBV再激活的危险因素[2]。黄伟在69例原发性肝癌患者接受精确放疗后致使乙型肝炎病毒再激活研究中发现基线血清HBVDNA水平和放疗剂量是HBV病毒再激活的独立危险因素[3]。吴冠朋在以前发现的危险因素的基础上随后又建立了RBF神经网络模型,识别率提高到80%[4]。随后在论文[5-7]中通过遗传算法发现HBVDNA水平,肿瘤分期TNM,Child-Pugh,外放边界,外放边界编码,V45和全肝最大剂量是乙肝病毒再激活的危险因素。王会娜[8-11]研究表明利用随机森林方法选取的HBVDNA水平、TNM肿瘤分期、V10、V20、外放边界这5个关键特征作为致使乙肝病毒再激活的危险因素组合,进行小波变换后,3折交叉验证下预测精度最高达到82.96%。采用顺序后向选择方法发现KPS评分、HBVDNA水平、外放边界、TNM、全肝最大剂量是乙肝病毒再激活的危险因素,采用3折交叉验证,预测精度达到85.68%。而采用顺序前向选择方法发现性别、KPS评分、HBVDNA水平、HBeAg、外放边界两分类编码是乙肝病毒再激活的危险因素,5折交叉验证下的贝叶斯分类预测精度达到84.06%。

 

特征选择是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤[12]。通过近邻成分分析法(NCA)来对原发性肝癌患者的原始数据集进行特征选择,然后通过分别建立经Bayes优化前后的支持向量机分类器(SVM)对特征数据集进行分类预测。

 

1 NCA算法原理

NCA算法就是一种简单有效的距离测度学习算法[13]。一个样本空间SD={(xi,yi),i=1,2,3,4,…,n},xi是输入样本,yi(1,2,3,…,c)是分类标签。本研究中由山东省肿瘤医院提供的患者临床数据集中,n=90,(90例患者样本),c=2(2分类问题),D=28(28个特征)。标签数据y1表示HBV未激活,代表良性,标签数据y2表示HBV再激活,代表恶性。

 

首先考虑一个随机分类器,随机从S选取一个点Ref(x),作为x的参考点,类似于1-NN分类器,参考点就是点X的最近邻。概率P(Ref(xi)=xj|s)表示从S中选取的点xj是离xi最近的那个点,也就是xj是xi的参考点。这是由距离函数来判断的。

 

wr表示第r个特征向量的权重系数。k是一个内核函数,K(z)=exp(-zσ),σ是内核的宽度,而这个σ值就影响每个数据点被选为参考点的概率。当σ值→0时,则只有离样本点最近的那个数据点被选作参考点,当σ值→!时,S中所有的点都有相同概率被选作为参考点。

 

使用随机分类器正确分类的平均概率F(w)值取决于权重向量w。近邻成分分析的目标就是最大化F(w),λ是正则化参数,作为一个重要的参数,在接下来的研究中,经优化的λ值将作为NCA预测分类的重要指标。

特征选择

2.1 数据选取

研究数据是采取的山东省肿瘤医院的90例经过精确放疗后原发性肝癌患者的临床资料作为研究样本,90例样本中20例发生HBV再激活。每个样本包含性别、放疗前TACE次数、TNM、V20、HBVDNA水平、外放边界、分割方式等28个特征[14],组成90×28维大小的数据集。


 

2.2 参数调整

建立NCA模型训练预测计算λ值对应的损失函数值采取近邻成分分析(NCA)对原始特征空间进行特征选择,选出致HBV再激活的危险因素[14],组成新的关键特征子集。在这之前先采用k折交叉验证来调整NCA的正则化参数λ,具体工作如图1所示。


本文采取的λ值是从0开始到10/n(5折交叉验证,4/5样本数据作训练,n=72)的等间距的20个点,步长就是10/n/(n-1),λ值如下表2所示:

 

构建支持向量机(SVM)预测模型

3.1 模型训练

支持向量机(SVM)[15]是一种可用于二进制分类或回归的监督学习算法,属于一种机器学习算法,也称为内核机器。支持向量机(SVM)训练有两个阶段:

 

(1) 将样本数据的特征向量转化为高维特征空间,这个过程就是内核技巧。


(2) 求解二次优化问题以适应最优超平面将变换后的特征分为两类。变换特征的数量由支持向量的数量确定。所谓支持向量是指那些在间隔区边缘的训练样本点。如图2所示。

 

在SVM理论中,需要考虑的就是能够让所有点中离它最近的点具有最大间距[16-17]。本文中乙型肝炎病毒激活人群的样本数量为20,此类样本标记为Y=1,未激活人群的样本数量为70,此类样本标记为Y=2。样本数量P=90,超平面为wx+b=0;样本点到超平面距离为:


采用不同的核函数将导致不同的SVM算法。常用的核函数有:线性核函数,sigmoid核函数,RBF核函数,多项式核函数,二层感知器核函数等。本文通过分别建立优化前后的支持向量机(SVM)模型进行比较,前后采用的都是RBF核函数。

 

3.2 Bayes全局优化算法

贝叶斯全局优化算法目的是将有界目标函数F(X)最大化,F(X)可以是确定的,也可以是不确定函数。根据已有采样点来构建一个高斯过程回归模型(Gaussianprocess)预估函数最大值的一个算法[18]。假设未知点也都服从多变量高斯分布,根据多变量高斯分布的一些性质,可以计算出这些点的均值μi(x)和标准差σi(x)。根据加和公式(9)选择均值μi(x)和标准差σi(x)的加和最小输入位置点作为下一个取样点。如果标准差值σi(x)大,表示我们对该点了解甚少,多去采样类似点可以更好地确定目标函数形态。如果均值μi(x)大,表示该点可能是最大值位置,多去采样类似点可以帮助我们尽快锁定最大值[19]。而贝叶斯优化算法就是协调确定目标函数形态以及确定目标函数最大值这两个目标之间的矛盾。前期算法会采样标准差大的点来尽量确定目标函数形态。随着采样点增多,对函数大致熟悉之后,标准差值会下降。所以后期采样点会尽量选取均值大的点,这样就会有更大概率接近最大值[20]。贝叶斯全局优化算法寻找最优点过程图3所示。

 

最小化F(X)的关键因素包括以下几个方面:

(1)F(X)是一个高斯过程模型

(2)通过先验值,可以决定下一个采样点所对应的y值

(3)已知点服从多变量高斯分布,假定A={(xi,yi)},i=1,2,3…,m,xi∈Rv,yi∈R.m表示训练样本个数,v代表特征向量的维度,本文在3折、5折、10折交叉验证下m分别取60,72,81,v=28,贝叶斯优化是根据加和公式(9)来选择下一个采样点xi+1。

 

进行贝叶斯优化调整的SVM的参数主要有两个‘sigma'及‘box'[20]。在高斯RBF核函数中,‘sigma'的值就是内核的规模,Sigma值越大,分离面就越平滑;Sigma值越小,分离面就越细致。‘box'的值就是框式约束范围。这两个参数初始值设置的尽量广泛,因为具体的最优值不能确定。本文中‘sigma'及‘box'的初始范围都设置在10-4~104



3.3 分类性能度量

本文主要采用三个分类性能指标,分别是准确性、特异性、灵敏性。准确性是指分类的正确预测值占样本实际值的比重。特异性是将实际无病的人正确判定为真阴性的比例。灵敏性是将实际有病的人正确判定为真阳性的比例。

 

实验结果及分析

利用近邻成分分析法(NCA)进行特征选择,得出所有最优特征子集规模为1-5的所有特征组合。分别将特征选择之后的最优特征子集代入优化前后的SVM分类器进行分类预测。为了验证特征选择对提高分类准确率的重要性,本实验加入对初始特征集的预测以求与最优特征子集的结果形成对比。实验分别采用3折、5折、10折交叉验证的方法对程序运行50次之后,选取每一个分类性能度量标准的平均值作为最终数据,具体实验结果见表3~表5。表3是优化前的SVM分类器针对最优特征子集的分类预测结果,加黑的数据代表分类性能比较好的特征组合。表4是优化后的SVM分类器针对表格3中分类表现比较好的几个特征子集分类预测的结果。表5列出了优化调整后的参数值。表格中出现的特征编号及所对应的医学参数详见表6。






表6中列出的这些医学参数就是经NCA特征选择出的对HBV再激活有着重要影响的危险因素。表1所列出的特征子集组合中,原始数据集下的分类预测精度、特异性、灵敏性都是最低的,预测精度在77%左右。特征编号9出现的频率是最多的,也就是说HBVDNA水平是影响适型放疗后HBV再激活的最关键因素。表3中在5折交叉验证下,特征子集组合9、17的分类预测精度为84.33%,特征子集组合3、9的分类预测精度为83.67%,特征子集组合9、17、22的分类预测精度为84.00%。在10折交叉验证下,特征子集组合3、9的分类预测精度为83.78%,特征子集组合9、17、22的分类预测精度可达86.11%。以上这几个特征子集组合的预测精度要明显高于其他特征子集组合的预测精度,由此可见影响HBV再激活的关键危险因素除了HBVDNA水平外还有KPS评分、分割方式、外放边界、V25等。而通过临床灵敏度水平来看,特征子集组合为9、17、22的表现要优于其他特征组合,在10折交叉验证下平均精确度可达47%。

 

表4是关键特征子集在经Bayes优化之后的SVM模型中的分类表现,由数据可知,当HBVDNA水平作为独立危险因素来表现时,经过优化之后的SVM预测准确度在3折、5折、10折交叉验证结果下都要高于未优化的SVM预测准确度。其中5折交叉验证下,优化后比优化前提高了2.66个百分点。由KPS评分、HBVDNA水平、外放边界组成的危险因素组合在10折交叉验证下,优化后比优化前提高了2个百分点。由KPS评分、HBVDNA水平、分割方式组成的危险因素组合在10折交叉验证下,优化后比优化前提高了2.89个百分点。而由HBVDNA水平、外放边界组成的危险因素组合在10折交叉验证下,优化后比优化前提高了4个百分点。从临床灵敏度来看,在10折交叉验证下,所有关键特征子集组合在优化后的预测精度明显高于优化前,可见Bayes优化调整支持向量机参数对于提高真阳性病人的正确诊断率是十分必要的。综上所述,HBVDNA水平可以当作影响HBV再激活的最危险因素,KPS评分、外放边界、V25是影响HBV再激活的关键因素,而分割方式、肿瘤分期TNM、Child-Pugh也是影响HBV再激活的重要因素。

 

结束语

前预防乙型肝炎病毒再激活,降低其发病概率,延长患者生命就需要找出原发性肝癌患者在接受精确放疗之后乙肝病毒再激活的关键特征,本文就是通过近邻成分分析算法发现HBVDNA水平、KPS评分、分割方式、外放边界、V25、肿瘤分期TNM、Child-Pugh等都是影响HBV再激活的危险因素。再通过建立的优化前后的支持向量机模型分别对提取出的所有不同特征的组合进行分类预测,结果表明HBVDNA水平、外放边界、V25组成的特征子集的分类表现要优于其他组合。10折交叉验证下特征向量HBVDNA水平、外放边界、V25组合的预测精度高达86.11%。近邻成分分析法是一种有效的特征选择方法,可以对临床医学的研究提供一定的帮助。


参考文献(References)

[1]韩聚强,任永强,李国安.原发性肝癌微创介入治疗术后HBV再激活及相关影响因素研究[J].中国医学前沿杂志:电子版,2014,6(3):27-30.

HANJuqiang,RENYongqiang,LIGuoan.StudyonreactivationHBVandrelatedinfluencingfactorsafterminimallyinvasiveinterventionaltherapyforprimaryhepaticcancer[J].ChineseFrontiersofMedicine:ElectronicEtion,2014,6(3):27-3.

[2]汪孟森.原发性肝癌三维适形放疗致乙型肝炎病毒再激活相关研究[D].济南市:济南大学,2014.

WANGMengsen.StudyonreactivationofhepatitisBvirusbythreedimensionalconformalradiotherapyforprimaryhepaticcarcinoma[D].Jinan:UniversityofJinan,2014.

[3]HUANGWei,ZHANGWei,FANMin,etal.RiskfactorsforhepatitisBvirusreactivationafterconformalradiotherapyinpatientswithhepatocellularcarcinoma[J].CancerScience,2014,105(6):697-703.DOI:10.1111/cas.12400.

[4]WUGuanpeng.ApplicationofBPandRBFneuralnetworkinclassificationprognosisofhepatitisBvirusreactivation[J].JournalofElectricalandElectronicEngineering,2016,4(2):

35.DOI:10.11648/j.jeee.20160402.16.

[5]WUGuanpeng,LIUYihui,WANGShuai.TheclassificationprognosismodelsofhepatitisbvirusreactivationbasedonBayesandsupportvectormachineafterfeatureextractionofgeneticalgorithm[C].InternationalConferenceonNaturalComputation,FuzzySystemsandKnowledgeDiscovery,2016,572-577.DOI:10.1109/FSKD.2016.7603236.

[6]吴冠朋,刘毅慧,王帅.基于遗传算法特征选择的HBV再激活分类预测模型[J].生物信息学,2016,14(4):243-248.DOI:10.3969/j.issn.1672-5565.2016.04.08.

WUGuanpeng,LIUYihui,WANGShuai.ClassificationmodelofHBVreactivationbasedongeneticalgorithmfeatureselection[J].ChineseJournalofBioinformatics,2016,14(4):243-248.DOI:10.3969/j.issn.1672-5565.2016.04.08.

[7]吴冠朋,王帅,黄伟.基于BP神经网络的肝癌放疗致乙型肝炎病毒再激活分类预测模型[J].智能计算机与应用,2016,6(2):43-47.

WUGuanpeng,WANGShuai,HUANGWei.ClassificationmodelofhepatitisBvirusreactivationbasedonBPneuralnetworkforradiotherapyoflivercancer[J].SmartComputersandApplications,2016,6(2):43-47.

[8]WANGHuina,LIUYihui,HUANGWei.TheapplicationoffeatureselectioninhepatitisBvirusreactivation[C].IEEEInternationalConferenceOnBigDataAnalysis,2017.DOI:10.

1109/ICBDA.2017.8078767.

[9]WANGHuina,HUANGWei,LIUYihui.ClassificationofhepatitisBvirusreactivationafterradiotherapyofprimarylivercancerbasedonrandomforest[C].InternationalConferenceonNaturalComputation,FuzzySystemsandKnowledgeDiscovery(ICNC-FSKD),20171th.

[10]王会娜,黄伟,刘毅慧.原发性肝癌放疗后乙肝病毒再

激活预测模型的特征降维分析[J].中国生物医学工程学报,2017(6):697-701.DOI:10.3969/j.issn.0258-8021.

2017.06.009.

WANGHuina,HUANGWei,LIUYihui.ThecharacteristicdimensionreductionanalysisofhepatitisBvirusreactivationpredictionmodelafterradiotherapyforprimarylivercancer[J].ChineseJournalofBiomedicalEngineering,2017(6):697-701.DOI:10.3969/j.is-sn.0258-8021.2017.06.009.

[11]王会娜,黄伟,刘毅慧.基于连续小波和随机森林的原

发性肝癌放疗后乙肝病毒再激活的分类预测[J].智能

计算机与应用,2017,7(3):30-33.

WANGHuina,HUANGWei,LIUYihui.ClassificationpredictionofhepatitisBvirusreactivationafterradiotherapyforprimarylivercancerbasedoncontinuouswaveletandrandomforest[J].SmartComputersandApplications,2017,7(3):30-33.

[12]KIMBY,DONGWC,WOOSR.Recurrence-associated

pathwaysinhepatitisBvirus-positivehepatocellularcarcinoma[J].BMCGenomics,2015,16(1):1-15.

[13]YANGWei,WANGKanquan,ZUOWangmeng,etal.

Neighborhoodcomponentfeatureselectionforhigh-dimensionaldata[J].JournalofComputers,2012,7(1):161-168.

DOI:10.4304/jcp.7.1.161-168.

[14]WANGShuai,WUGuanpeng,HUANGWei,etal.The

predictivemodelofhepatitisBvirusreactivationinducedbypreciseradiotherapyinprimarylivercancer[J].JournalofElectricalandElectronicEn-Gineering,2016,4(2):31-34.

DOI:10.11648/j.Jeee.20160402.15.

[15]ZHANGS,ZHANGS,JINZ,etal.AnovelSVMbycom-

biningkernelprincipalcomponentanalysisandimprovedchaoticparticleswarmoptimizationforintrusiondetection[J].SoftComputing,2015,19(5):1187-1199.

[16]宋晖,薛云,张良均.基于SVM分类问题的核函数选择

仿真研究[J].计算机与现代化,2011(8):133-136.DOI:

10.3969/j.issn.1006-2475.2011.08.037.

SONGHui,XUEYun,ZHANGLiangjun.ResearchonselectionofkernelfunctionbasedonSVMclassificationproblem[J].ComputerandModernization,2011(8):133-136.

DOI:10.3969/j.issn.1006-2475.2011.08.037.

[17]SARTAKHTIJS,ZANGOOEIMH,MOZAFARIK.Hepa-

titisdiseasediagnosisusinganovelhybridmethodbasedonsupportvectormachineandsimulatedannealing(SVM-SA)[J].ComputerMethods&ProgramsinBiomedicine,2012,108(2):570.

[18]ZHANGJ,CHENH,ZHOUH.Freewaytraveltimepredic-

tionresearchbasedonadeeplearningapproach[C].InternationalConferenceonAdvancedMaterialsandInformationTechnologyProcessing,2016,21-27.DOI:10.2991/amitp-16.2016.97.

[19]MARTINEZ-CANTINR.BayesOpt:aBayesianoptimization

libraryfornonlinearoptmization,experimentaldesignandbandits[J].JournalofMachineLearningResearch,2014,15:3735-3739.

[20]CARPINM,ROSATIS,RIMOLDIB,etal.UAVsusing

BayesianOptimizationtoLo-cateWiFiDevices[C].Bayesopt2015,2015.

200 评论

查看更多