查看更多
密码过期或已经不安全,请修改密码
修改密码壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
随 机 对 照 试 验 (randomizedcontrolledtrials, RCT)是评价干预效果的金标准 。但由于伦理、可行性等原因,RCT有时难以开展,此时非随机干预性研究(Non-randomised studies of the effects of interventions,NRsI),可以作为RCT的有效补充 ,而且NRsI在某些方面有其独特优势 ,人群特征更接近于真实世界 ,尤其适合研究长期的结局指标、不良反应等 ,近些年在医药卫生领域的应用日益广泛。NRsI包括观察性研究以及类实验 ,前者主要有队列研究和病例对照研究等。在这些研究设计中,由于干预措施不是随机分配的,研究结果更容易受到各种潜在偏倚的影响。因此 ,利用评估工具对NRsI的偏倚风险进行评价显得尤为重要,它可帮助使用者科学谨慎地筛选出高质量NRsI研究 ,再进一步推广应用或者进行证据整合 ,从而有效促进循证决策。
孙凤 教授
北大循证医学中心副主任
中国医师协会循证医学专业委员会副主任委员
国际考科蓝中国协作网之北京大学循证医学中心机构主任
世中联临床疗效评价专业委员会副会长
一、制定背景
目前,观察性研究的质量评价工具应用最广泛 的是2008年Newcastle-ottawascale(Nos)量表和 1998年 Downs-Black清单,其中前者多是针对经 典的队列研究和病例对照研究设计 ,但是对这两类研究的多数衍生设计并不适用;后者可同时评价RCT与NRsI,但其涵盖方法学质量和报告质量共计五个方面27个问题,使用过于繁琐。两个工具的评 价内容既包含了内部真实性也涉及了外部真实性。在R0BINs一I(Risk ofBiasIn Non-randomised studies-ofInterventions)之前,也有不少研究人员采用Cochrane协作网研发的偏倚风险工具RoB1.0从随机序列产生、分配隐藏、盲法、结果数据不完整、选择性报告等方面评价NRsI研究的偏倚风险,但由于RoB1.0是针对RCT开发的,并不能完全适用于NRsI。因此,学者们一直在致力于制定一个更加令人满意的工具,以更好地完成NRsI的质量评价。
2016年10月sterne等在BMJ上发表了关于NRsI的更普适的偏倚风险评估工具R0BINs一I,适用干预效果评价的多种非随机研究类型 ,主要包括:队列研究、病例对照研究、类实验等 ,是一个领域评估式的工具。该工具的发布对于NRsI领域的质量评价具有里程碑式的意义 。R0BINs一I工具由"Cochrane Bias Methods Group"和"Cochrane Non-RandomisedstudiesMethodsGroup"两个学组成员在 Cochrane协作网研发的偏倚风险工具RoB1.0基础上共同开发,从2011年的立题会议到最终发布历时5年,经历了数次专家论证,,其间曾在2014年9月推出了1.0.0网络版本(即ACR0BAT-NRsI,ACochraneRiskofBiasAssessmentTool:for Non-RandomizedstudiesofInterventions) ,随后根据专家和用户的反馈建议完成了进一步的修订。2016年R0BINs一I制作组将所有相关资料发布在其官方网站。
二、工具解读
R0BINs一I工具的解读归纳为4个方面:
1.评价领域的设置:R0BINs一I工具共包括7个评价领域,在领域设置上与平行设计RCT的RoB2.0工具基本相似,但R0BINs一I进一步把评价领域分别归人到了干预前、干预中和干预后3部分,即 : (1)干预前(①混杂偏倚 、②研究对象选择的偏倚);(2)干预中(③干预分类的偏倚);(3)干预后(④偏离既定干预的偏倚、⑤缺失数据的偏倚、⑥结局测量的偏倚、⑦结果选择性报告的偏倚)。
每个评价领域都由多个信号问题(signaling question)组成,共计34个信号问题。具体与RoB2.0 工具内容对比:①使用者先对各领域的信号问题作出回答 ,继而汇总形成各领域偏倚风险的判断 ,最后根据7个领域的评价结果对单个NRsI的特定结局作出整体的偏倚风险评价;②从内容上来看 , R0BINs一I工具关于干预后的4个评价领域与平行设计RCT的RoB2.0工具的评价领域多有重合 ,因此理解这后4个评价领域时,也可以参考该工具; ③此外,在R0BINs一I中无"其他偏倚"这一领域 ,即不再考虑增删偏倚来源的相关领域,但可以适当调整每个领域里的信号问题。
2.评价流程:R0BINs一I工具操作流程主要包括3个阶段:①第I阶段:定义研究问题;②第Ⅱ阶段:首先构造出一个假想的实用性随机化"目标"试验("target"pragmaticrandomizedtrial),将所研究的NRsI看作这个"目标"试验的模拟和近似;在评定每个评价领域时,通过信号问题帮助判定者进行判断; ③第Ⅲ阶段:每个领域的偏倚风险等级分为"低(low)、中(moderate)、高(serious)、极高(critical)和未获得评估信息(NI,即不清楚)"5个等级 。
基于NRsI研究制定系统综述时,若推荐用 R0BINs一I工具对原始研究进行偏倚评价,则每个NRs1研究均需要完成第Ⅱ阶段的6个步骤, 其中步骤3~6是针对具体结局的,即对不同的结局需要分别完成步骤3~6的评价。步骤1:通过构建随机化"目标"试验,定义效应指标。步骤2:定义待评价的结局和结果。步骤3:对每个研究结局,分别描述混杂因素和伴随干预。步骤4:回答7个偏倚领域的信号问题。步骤 5:对各信号问题的偏倚风险给出评判 ,继而形成各个领域的偏倚风险的判断。步骤6:对单个NRs1的特定结局作出整体的偏倚风险评价。
3.各领域的评估标准及其信号问题的设置: R0B1Ns-I明确地为每个领域设置了数个信号问题,要求评估者先对信号问题作出"NA/Y/PY/PN/N/ N1"的判断。通过对信号问题的回答,作者可了解偏倚来源的信息,即相关"信号",然后依据这些"信号"进一步对各领域的偏倚风险进行评估。需要强调的是,R0B1Ns-I整体偏倚这一领域是对单个研究单个结局水平的评价,即对同一个NRs1研究,不同的结局可能会有不同的整体评估结果。
(1)混杂偏倚:相关术语:分配偏倚;病例混合偏倚;引导偏倚。
在NRs1中,不同干预组间研究对象的特征很可能有较大的差别。当一个或多个重要的预后因素可能影响个体是否接受某干预措施时,干预效应的估计就会产生偏倚。因此对尚未控制的混杂引起的偏倚进行风险评价是R0B1Ns-I的重要部分。
基线混杂可能是大多数NRs1普遍存在的问题, 当某个或多个预后变量影响到患者试验开始时接受何种干预措施的选择时就会发生 。例如一个比较罗格列酮和毗格列酮药物疗效的非随机试验,应当考虑药物治疗前的基线血糖,因为该指标是与心血管病结局发生的很强的预后因素,且可能会影响药物 选择 。控制可测量的混杂的适用方法包括:分层、回归、匹配、标化、G谱估计(g.estimation)和逆概率加权(inverseprobabilityweighting) 。这些方法可以对个体变量或倾向评分值加以控制。R0B1Ns-I也适用于评价时依混杂造成的偏倚。当NRs1研究者根据个体随访时间对不同干预进行划分时,即评价干预的依从效应时,时依混杂的控制尤为重要。若所接受的干预措施会改变某种预后因素,而变化后的这种预后因素又会反过来影响干预措施的选择 ,这种随时间改变的预后因素则会产生时依混杂。 例如 ,降糖药物治疗开始后测量的血糖水平( 一个基线调查后的预后因素)的升降可能会引起药物种类的选择 。当基线调查后的预后因素本身就受到干预措施的影响时(如降糖治疗会影响基线后血糖水平),在统计分析中用常规的调整方法来控制时依混杂显然是不恰当的。但应注意的是, 当研究对象的干预措施发生改变时,应当进行比较的是试验中所依从干预的效应而非初始分配干预的效应。
(2)研究对象选择的偏倚:相关术语:观察性研 究中的选择偏倚 ;初 始 偏 倚;领先时间偏倚;恒定时间偏倚。
当排除的部分合格研究对象、初始随访时间或部分结局事件与干预措施和结局有关时,即使各干预措施的效应实际并无差别,此时所得到的结果仍会提示干预措施与结局之间存在联系。这就称为选择偏倚,不同于混杂。例如 ,关于补充叶酸防止神经管畸形的研究就存在偏倚,因为研究只局限于活产儿 ,由于死产和治疗性流产(从样本中排除)同时与干预和结局有关。另一个例子是NRs1证实的新型口服避孕孕激素会显著增加静脉血栓的风险,与服用旧剂型的受试者相比 ,服用新剂型的受试者开始治疗的时间更近 ,而在治疗过程中,早期发生静脉血栓的风险最大。需要强调的是,在非随机研究中应纳人某医疗措施的新近应用者,随访应从决定使用治疗措施时开始 ,而不应该从治疗措施实施时开始, 这是为了避免恒定时间偏倚。
我们所指的选择偏倚仅针对研究内部真实性, 不涉及外部真实性的问题(外推性、适用性或可传递性等)。例如 ,在一项仅纳入无合并症患者的研究中,其结果不一定能外推到有并发症的人群中。但是这样并不会影响对在无合并症人群中的干预效应的估计。
(3)干预分类的偏倚:相关术语:错分偏倚 ;信 息 偏 倚 ;回忆偏 倚 ;测量偏倚;观察者偏倚。
在RCT中干预措施的错分问题较小,但在NRsI中很容易出现。例如降糖药处方记录缺失不能代表未服用降糖药。无差异错分与结局无关,通常会使效应估计值偏向无效假设。当干预状态的错分与结局或结局风险有关时,就会发生差异性错分。因此,干预的分组应该在不知晓结局的情况下进行,这一点尤其重要。典型的例子是病例对照研究中的回忆偏倚,已知病例或对照的状态可产生对暴露情况的回忆偏倚。如果结局对干预状态的信息有影响时,错分偏倚同样也会出现在队列研究中。例 如,一个老年人的队列 ,研究结局为痴呆 ,一些观察对象在最初可能有中等程度的认知损害,因此在研究开始时对先前暴露情况的回忆可能会受到影响。
(4)偏离既定干预的偏倚:相关术语:实施偏倚;时依混杂。
偏离既定干预的偏倚(有时称为实施偏倚),除了试验组和对照组所研究的干预措施以外 ,若其他伴随干预在组间存在系统性差异,此时会产生偏离 既定干预的偏倚。例如,当研究对象知道他们所接受的干预措施,或研究者对试验组和对照组间的差异有所假设时,偏离既定干预的偏倚就有可能会发生。此外,出现以下情况时 ,也可能会产生偏离既定干预的偏倚:各干预措施并不一定能成功实施(例如 若实验室检查出现错误 ,那么就无法按既定方式给 药),或研究对象不依从干预措施,或是重要的共同干预措施在各组间不均衡等。
依从性差或共同干预是否会导致偏倚取决于所研究的效应。对于干预分配效应来说 ,这两者不会引人偏倚。相反 ,若研究关注的是干预措施的依从效应(如调查药物不良反应),就会产生偏倚。例如, 一个比较食管癌低侵袭性和开放性术后呼吸道感染率的研究 ,两组间在共同干预措施上存在巨大差异。首先 ,单肺机械性通气应用于开放性手术组,而低侵袭性治疗组采用的是双肺通气。其次 ,硬膜外 麻醉在开放性手术组运用的更多:通常用硬膜外麻醉的患者的移动性较差,因此也更容易有呼吸道感染。
需要注意的是一些常规的临床护理也会造成干预措施的差异(例如由于药物急性毒性而停止用药),可以被认为是既定干预的一部分。
(5)缺失数据偏倚:相关术语:失访偏倚;观察性研究中的选择偏倚。
数据缺失的原因包括数据损失(失访)、错过预约、数据收集的不完整、进行分析时排除部分研究对象。在NRsI中 ,所接受的干预措施、混杂或结局的测量过程都可能发生数据缺失。各组间数据缺失的程度和原因很重要。若缺失数据的比例较低,且各组缺失的原因相近 ,则偏倚的风险较小。反之,偏倚风险会随之增大。
(6)结局测量的偏倚:相关术语:检出偏倚;回忆偏倚;信息偏倚 ;错分偏倚;观察者偏倚 ;测量偏倚。
结局测量的偏倚是由于结局错分或测量误差导 致的。 若错分和测量误差与所接受的干预无关时, 则为无差异错分。与干预或结局无关的随机误差 (无差异测量误差)不太可能产生偏倚。有差异的测 量误差(与干预状态有关)会使得效应估计值存在偏 倚。当结局评估者知晓干预措施时,若对各组采用 不同的结局测量方法,或测量误差与干预状态和效 应有关,就会产生检出偏倚。该问题在主观性结局 的测量中更为明显 。对结局测量采用盲法可降低各 组间的系统性差异。但在实际操作中 ,相比起RCT, 盲法在非随机研究中通常很难实施。
(7)结果选择性报告的偏倚:相关术语:结果报告偏倚;分析报告偏 倚。
若基于结局效应的方向、大小和统计学显著性进行报告 ,则容易产生选择性报告偏倚。该偏倚有3种常见类型:①从多个测量结果中选择某种测量进行报告,例如从多个时间点测量数据选择某个时间点的测量值,或从多个疼痛量表中选择其中一个量表的得分;②从多种方法估计的效应值中选择一 个进行报告,例如,某研究同时计算了变化值以及调整基线后的终点值,或用多种分析方法调整各类混杂 ,研究者只选择了其中一个结果进行报告;③选择某个亚组人群的结果进行报告 ,这种情况在大型队列数据中较为常见。
4.整体偏倚评估:在完成信号问题的回答与评估后 ,评估者需要根据回答的情况对相应领域的偏倚风险按照事先制定的标准给出"低、中、高、极高或不清 楚"的风险评估。最后 ,根据所有单个领域的评估结果对"整体偏倚"这一综合领域作出评价。本文的实例部分将详细说明每个信号问题和领域如何评价。关于评估标准细则,感兴趣的研究者可进一步参阅R0BINs-I官方指南文件了解。整体偏倚评估原则为:所有7个评价领域为低偏倚风险则整体偏倚风险为"低",所有7个评价领域为风险低或中则总体偏倚风险为"中",至少一个评价 领域风险高但无任何评价领域为极高风险则整体偏 倚风险为"高",若至少一个评价领域风险极高则整体偏倚风险为"极高",若缺乏关键评价领域的相关信息,则整体偏倚风险为"未获得评估信息(不清楚)"。
四、讨论
整体上来说 ,ROB1Ns一1内容丰富、翔实,完善了NRs1研究各个偏倚评估重要组成部分的细节,强调了偏倚评估在证据整合与评价过程中的重要地位。相比于NOs等之前常用的观察性研究偏倚风险评估工具 ,ROB1Ns一1有一些明显的优势:①针对性较强 ,ROB1Ns一1所针对的观察性研究主要是以评价干预效果为目的的 ;②评估内容更全面, ROB1Ns一1所设置的评估领域和信号问题涵盖了这类观察性研究常见的偏倚来源;③评估过程程序化 , ROB1Ns一1细化了具体领域的评估过程,将评估中易于产生困扰和分歧的项目 ,均使用信号问题进行明确指示,有助于提高评估结果的可重复性和一致性;④ROB1Ns一1不仅提供了偏倚风险评估,还提供了可能的偏倚方向评估,后者将有助于综述读者判断干预的真实效果方向。
然而 ,ROB1Ns一1尚处于初步使用和不断完善阶段 ,目前仍存在一些问题有待开发团队后续改进。首先 ,ROB1Ns一1的可操作性相比NOs等量表明显下降。根据我们的测试,完成ROB1Ns一1的时间相比NOs、RoB1.0等都有显著增加 ,判断各领域的偏倚风险时流程复杂。好在这个问题在开发团队公布程序化工具后已有所改善,目前已有规范的指 导手册展示评估步骤和结果解读。其次,与 RoB2.0新工具一样 ,ROB1Ns一1许多条目涉及大量方法学专业知识和专业词汇 ,非方法学专业的综述作者可以参考开发团队已制定的使用说明手册,详细了解一些方法学词汇定义及使用方法。再次,工具中一些细节可能需要进一步统一,某些条目中,回答"是"或"可能是"对应的是"低风险",而另一些条目中同样的回答却是"高风险",这很容易给评估者造成困扰并增加出错的机会。这些不一致完全可以通过转变信号问题的提问方式进行统一。此外 ,现在还没有能够方便进行ROBINs-I评估的软件工具,但ROBINs-I团队正在努力,目前已经开发了ACCEss表单填写模板,挂在其官方网站可供下载使用。期待未来能像 RoB1.0那样 ,将ROBINs-I整合至下个版本的ReviewManager软件中,或者开发一个界面友好的专用ROBINs-I评估软件。相信在开发这些专门的软件以后,评估过程将更加快捷,并会有更好的结果展示方法。最后 ,ROBINs-I中一些条目的设置从方法学角度来说可能仍有待商榷 。特别是对于两种不同综述目的(干预的分配效应和依从效应)下分别有不同的信号问题 ,如何提高这两类问题的区分度 , 可能需要开发团队进一步说明并讨论。
此外,对ROBINs-I的使用者来说,还应明确该工具与另一个简称为TREND的清单之间的区别。后者是2003年由美国CDC组织制定的关于非随机 对照设计的报告规范。该报告规范强调 ,非随机对照试验的研究报告要详细报告研究的假设(理论基础)、干预措施和组间比较的条件 ,研究设计以及为调整可能的偏倚所采用的方法等 。TREND针对 的是报告质量,而ROBINs-I针对的是偏倚风险。
综 上 所 述 ,我 们 建 议 综 述 作 者 持 续 关 注 ROBINs-I的更新,以及 Cochrane手册和Review Manager的相应更改的内容。在有条件的情况下 , 可积极地与开发团队沟通,及时反馈在理解、使用 、方法学等方面遇到的问题与建议,使得ROBINs-I 能够更好的在证据整合乃至循证医学工作中体现其意义和价值。
查看更多