查看更多
密码过期或已经不安全,请修改密码
修改密码壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
集中阅片是指在临床试验中独立、非现场、盲法回顾或阅读影像学资料,该方法在多种疾病领域应用了几十年,直到近10年才在炎症性肠病(IBD)的临床试验中应用。
2006年,Feagan等在会议摘要中首次报道在IBD临床试验中采用集中阅片方法评估内镜的研究终点。集中阅片较单中心内镜评分可以提高研究终点的客观性、降低人为评估的差异性及安慰剂效应,还可以增加有效样本量,但具体实施仍然存在一些问题。因此,Klaus Gottlieb等从内镜数据的获取、内镜评分系统、集中阅片的流程及结果处理等方面总结了内镜集中阅片方法在IBD临床试验中的实施现状、存在的问题,以及未来的发展趋势。
获取高质量的内镜图像
在IBD临床试验中,尤其是在溃疡性结肠炎(UC)的研究中,内镜的肠道准备与检查方式是影响图像、视频质量的重要因素。肠道准备质量不佳可能导致所录制的视频在集中阅片时无法评估;同时也可能导致集中阅片过程中阅片人员对内镜结果出现不一致的解读。
目前肠镜检查肠道准备指南认为分次口服泻药较单次服药有更好的肠道准备效果。但是在实际临床工作中,超过一半在上午10点前开始检查的患者无法按医嘱进行分次口服清肠药。另外,IBD临床试验中部分患者需要在疾病活动期进行内镜检查,选择有效、安全的肠道准备药物也是非常重要的。
目前发表的研究认为,聚乙二醇(PEG)有良好的耐受性及良好的肠道清洁效果。同时在活动性IBD的患者中,基于PEG的肠道准备方案不容易引起肠道准备导致的黏膜异常。因此,在IBD临床试验中,肠镜检查前推荐行分次口服PEG进行肠道准备,同时尽量避免过早安排受试者检查,以获得更良好的肠道准备依从性及效果。
与结直肠癌的肠镜筛查类似,UC临床试验中也存在全结肠镜或乙状结肠镜检查的选择问题。有研究认为,高达27%的UC患者接受全结肠镜检查时发现降结肠病变较乙状结肠、直肠更严重,单纯使用乙状结肠镜可能会无法评估降结肠病变情况;在EUCALYPTUS试验中,使用乙状结肠镜可能会低估了内镜Mayo评分(eMS)为0或1的患者的疾病活动程度。因此在IBD的试验中,应该常规进行全结肠镜检查。
对于集中阅片来说,各研究者提供均一、高质量的内镜视频是保证阅片结果准确的前提。视频质量参差不齐有多种原因。尽管目前高清白光内镜已在临床广泛应用,但是视频录制并没有做到全高清,部分录制过程会将视频分辨率降低,损失了高清内镜的质量。在结肠癌筛查肠镜中,退镜时间与腺瘤发现率、间期癌的发生率相关,与此类似,退镜时间同样是IBD临床试验中结肠镜检查必不可少的质量指标之一。因此在IBD临床试验中,为了保证内镜视频的质量,内镜医生需要保证视频录制清晰度,并且在检查过程中充分冲洗黏膜并适当充气,按试验规定的退镜时间退镜观察黏膜,与黏膜保持适当距离,准确记录相关病变,按试验方案留取活检组织。
IBD内镜活动性评分
在IBD临床试验中,内镜活动性评分往往是研究终点之一。
UC内镜活动性评分较CD应该更早且更为广泛,目前UC主要有内镜Mayo评分(eMS)和溃疡性结肠炎内镜炎症程度指数(UCEIS)2种。
eMS由于应用较为简便,是UC活动程度的最常用内镜评分工具。eMS最早在1987年用于UC的临床试验,根据内镜下病变的特征(包括黏膜红斑、血管情况、黏膜脆性、糜烂、溃疡和自发性出血等),使用0-3分对疾病活动性程度进行分类。但是对于集中阅片来说,eMS存在一定的局限性,例如自发性出血只能在内镜检查的进镜阶段观察到,黏膜脆性需要退镜时对内镜操作引起的黏膜损伤进行评估确定,这些指标都难以在集中阅片时确定。
UCEIS根据结直肠黏膜的血管情况、糜烂、溃疡及出血等进行0-8分的评分,与eMS相比,UCEIS显示出更好的可重复性。但是UCEIS的评分仍然是基于eMS所包含的指标,基本上也是基于主观的特征分类,与eMS的4分评分相比,UCEIS的评分更为复杂,在临床应用中存在局限性。
在大部分的UC临床试验中,受试者需要接受内镜基线评估,治疗后需复查内镜并与基线数据进行对比。但是目前UC活动性的评分系统多数只针对最严重的病变部位进行评估,并不考虑疾病受累范围,无法代表黏膜炎症负荷程度。在集中阅片时,部分病例尽管黏膜炎症负荷程度减少了,但是最严重部位的病变程度并未减轻,其炎性活动程度评分并不会有改变。
克罗恩病内镜严重程度指数(CDEIS)及克罗恩病简易内镜评分(SES-CD)是CD临床研究中应用较为广泛的内镜活动性评估系统。
CDEIS评分在5个部位进行评估(直肠、乙状结肠和左半结肠、横结肠、右半结肠和回肠),评分基于四方面:深溃疡、浅溃疡、疾病累及范围和溃疡累及的范围。在单个节段的总分除以评估节段的数量后,加上是否存在狭窄得出总的评分,评分分数在0到44之间。SES-CD与CDEIS类似,但是每一部位的评估略为简化,得分范围为0-56分。因为评估过程较为复杂,并且需要换算过程,这2种评分在临床中均没有得到广泛应用。尽管CD的2种评分在不同研究者的评估中一致性非常好,但是目前尚无法确认评分高低与疾病活动程度的一致性,因此CD内镜活动性评分不能很好地反映疾病活动性的变化程度,从而无法用于评估药物的疗效反应。
人工智能在病理以及内镜图像的辅助诊断中进行了大量的探索,依靠计算机无监督学习可能可以发现内镜的新特征,突破评分系统的局限性,提高IBD内镜活动性评分与疾病活动程度的一致性。因此,可以尝试通过人工智能辅助进行IBD内镜活动性评分的改良,设计更客观、准确的内镜活动性评分系统。
集中阅片
培训可以显著提高阅片人员评分的一致性。Daperno等人使用了一个模板化的培训方案,进行类似于集中阅片专家库所需的资格培训,通过培训eMS评分的评分者间一致性分别从kappa 0.51(95%CI 0.48至0.55)增加到0.76(95%CI 0.72至0.79),Rutgeerts评分在训练前后分别从0.45(95%CI 0.40至0.50)增加到0.79(0.74至0.83)。
基于集中阅片的临床试验需要大量有经验、经过认证的内镜阅片人员来完成阅片工作。一般来说,根据阅片人员在IBD诊治的年资、经历等进行认证,但是具体需要进行了多少例内镜诊断才符合要求目前仍没有确定的标准。临床研究发起人应该在研究前对集中阅片的人员进行标准化培训,并且根据阅片人员自身、人员之间的评分一致性差异的变化情况来组织再培训计划,以保持阅片质量的一致性。应积极培训参与临床试验的分中心内镜操作医师作为集中阅片人员,以增加阅片人员数量。阅片资质的培训可以由胃肠病学相关学会机构组织进行。
人工智能机器学习(ML)应用到图像分析中,可以提供高重复性、准确性和精密度的类似专家水平的内镜评分,仍存在一些需要解决的困难,例如人工智能无法处理不同的肠道准备情况、无法辨认自发性还是操作相关的黏膜变化(如出血)、不能处理不同的退镜模式。人工智能模型的构建需要依托训练集,尽量减少偏倚和对真实事件的错误理解。
鉴于阅片的过程与内镜评分过程是存在差别的(阅片过程包括评分系统选择、阅片人员评估影像资料、进行最终结果评定等),同一段视频或图片往往是由2个或以上的人员进行评估,最终的结果把每个阅片人员的评估结果综合起来,采用统计数据聚合方法(平均法或投票法),可以提高数据的准确性。
集中阅片质量控制
集中阅片人员的再培训及测试应定期进行,并根据需要进行定期学习,定期学习可以与新阅片任务或新的临床试验开展同时进行。
阅片质量通常通过阅片人员间结果的一致性来评估,图像质量、结肠镜检查的肠道准备不理想和冲洗不充分,对阅片人员间结果一致性有很大影响。图像质量或肠道准备质量目前在IBD临床试验中很少被关注,并且没有定义标准的图片质量或肠道准备质量的阈值。近年来,人工智能可以自动评估肠道准备质量,并且可以被用于集中阅片的流程中,是值得采用的一项新的技术,通过人工智能可以在阅片开始前对肠道准备质量进行质控,提高集中阅片的质量。
评论
IBD临床试验中内镜集中阅片可以使试验的终点数据更加准确,但仍有许多问题有待解决。单中心阅片模式存在一定偏倚,集中阅片模式可以使研究终点的评估更贴合临床试验的设计,减少评估人员间的差异。良好肠道准备、规范的退镜时间及方法、高清视频录制是提高集中阅片质量的前提;更准确的炎症活动性评估系统可以提高临床试验研究终点的准确性;研究发起者和学术组织应该推动阅片资质培训;人工智能可以提高阅片的客观性,并可用于开发更准确的炎症活动性评分系统。
文章首发自IBD学术派(北京医学奖励基金会)
查看更多