壹生大学

壹生身份认证协议书

本项目是由壹生提供的专业性学术分享,仅面向医疗卫生专业人士。我们将收集您是否是医疗卫生专业人士的信息,仅用于资格认证,不会用于其他用途。壹生作为平台及平台数据的运营者和负责方,负责平台和本专区及用户相关信息搜集和使用的合规和保护。
本协议书仅为了向您说明个人相关信息处理目的,向您单独征求的同意,您已签署的壹生平台《壹生用户服务协议》和《壹生隐私政策》,详见链接:
壹生用户服务协议:
https://apps.medtrib.cn/html/serviceAgreement.html
壹生隐私政策:
https://apps.medtrib.cn/html/p.html
如果您是医疗卫生专业人士,且点击了“同意”,表明您作为壹生的注册用户已授权壹生平台收集您是否是医疗卫生专业人士的信息,可以使用本项服务。
如果您不是医疗卫生专业人士或不同意本说明,请勿点击“同意”,因为本项服务仅面向医疗卫生人士,以及专业性、合规性要求等因素,您将无法使用本项服务。

同意

拒绝

同意

拒绝

知情同意书

同意

不同意并跳过

工作人员正在审核中,
请您耐心等待
审核未通过
重新提交
完善信息
{{ item.question }}
确定
收集问题
{{ item.question }}
确定
您已通过HCP身份认证和信息审核
(
5
s)

洞察统计策略应用应对RWD挑战

2024-07-19作者:贺鹏资讯

前 言

随着医疗大数据的快速发展,真实世界数据(Real-World Data, RWD)在肿瘤临床研究中扮演着越来越重要的角色。与传统随机对照试验(Randomized Controlled Trials,RCTs)相比,RWD来源广泛,可提供更接近真实医疗环境的证据,为医学和健康相关研究提供更多信息。但RWD具有数据杂乱复杂、完整度低、异质性强并存在多种偏倚等特点,导致其在应用过程中存在诸多挑战。因此,在应用RWD时,需综合考虑上述影响因素间的相互关系,充分利用合适的统计方法以发挥RWD的力量。

混杂偏倚,拨云见日,平衡研究,精准把控

真实世界研究(Real-world study,RWS)是一种在现实环境中进行的研究,依赖于收集RWD来获取真实世界证据(Real-world evidence,RWE)。RWS提供了与日常医疗实践相关的证据,在解决临床问题研究中尤为重要。然而,在进行真实世界研究时,研究者需面对和解决多种偏倚问题,以确保研究结果的准确性和可靠性。而真实世界研究中常见的偏倚可分为选择偏倚、信息偏倚以及混杂偏倚三类。

图1  真实世界研究中常见的偏倚类型

选择偏倚主要发生在研究对象选择阶段,由于选取样本方式不当,导致样本不能代表目标人群,从而影响研究结果的普遍性。采用随机抽样、设定明确的纳入和排除标准,并尽量减少失访率可在一定程度上控制选择偏倚。

信息偏倚源于数据收集过程中的系统误差,研究实施过程中,由于测量或资料收集方面存在缺陷,最终得到的信息与真实情况有差异。在研究设计之初,需要对暴露和结局变量设定严谨、客观的定义,力求指标定量化。此外,通过严谨设计调查问卷的问题、尽量采用“盲法”收集资料、资料类型尽量选取客观指标、采用调查技巧等方法减少或者避免信息偏倚的产生。

混杂偏倚是由于预后因素在不同组间的分布不均衡导致的,这可能会扭曲暴露与疾病或结局之间的真实关联性。随机化是控制混杂偏倚的有效方法,但在实际中可能需要结合分层随机和统计调整方法,如倾向性评分等进一步减少混杂偏倚。

除上述三种主要偏倚外,真实世界研究中还存在其他类型偏倚,在进行真实世界研究时,始终应遵循以下基本原则以避免或减少偏倚带来的影响。首先,确保样本能够代表目标人群,以提高研究结果的外推性。其次,准确测量暴露与结局,以确保数据收集准确性,减少信息偏倚,可以选择随机化、分层分析、倾向性评分等合适的统计方法对混杂偏倚进行控制。此外,采用定量偏倚分析系列方法了解未测量混杂偏倚和其他偏倚(包括选择偏差和时间偏差)可能对结果所产生的潜在影响。

生存分析,透视生死,删失处理,精准揭示

在肿瘤临床研究中,无论是新药还是新的干预措施,最终目的是让患者获得更长、更优的生存获益。通常以总生存率(OS)、无疾病生存率(DFS)或无进展生存率(PFS)等时间-事件数据为主要终点。

 图2  肿瘤临床试验研究终点

在真实临床研究中,受限于各种原因(研究对象更换联系方式、拒绝治疗、退出研究、研究结束等)并非所有受试者都能随访到研究终点发生,导致无法明确研究对象是否发生预期结局事件以及发生的具体时间。或者直至研究随访结束,预期结局事件仍然没有发生。因此,这部分未能观察到结局事件发生的受试者数据,也被称为删失或截尾。

3  删失和截

生存删失数据可以进一步被分为三种类型,包括右删失、左删失和区间删失。右删失指在随访过程中,研究对象的起始观察时间点已知,但结局事件发生的具体时间点未知,即真实生存时间大于观察记录时间。左删失为起点无法确定。区间删失是在多次的随访观察过程中,已知在两次随访区间发生结局事件,但具体时间点未知。一般在肿瘤临床研究中,以OS、PFS、DFS、EFS等为研究终点常视为为右删失数据。而右删失根据确定研究开始、结束的方式不同,又可分为I型、Ⅱ型及Ⅲ型删失。

图4 右删失分类

这类事件终点常用生存分析方法进行分析。生存分析(survival analysis)是将终点事件的出现与否及出现终点事件所经历的时间结合起来的一种统计分析方法,已形成一套较为完善的理论体系,包括生存过程的描述,生存过程的比较及影响生存时间因素的分析。当前,生存分析已广泛运用于恶性肿瘤、慢性疾病或其他情况的随访研究中事件分析。肿瘤临床试验中最为常用的分析策略包括Kaplan-Meier曲线描述生存状态,Log-rank检验比较生存过程,Cox比例风险模型进行效应量(相对危险度)的估计。

Kaplan-Meier法是一种描述性分析方法,通过每个个体的生存时间和是否发生事件(如死亡、复发或失败等)来构建生存函数和生存曲线,用于估计个体在特定时间点上的生存概率,适用于研究事件发生时间或生存时间的数据。生存函数S(t)表示在给定时间t之前个体存活的概率,而生存曲线则是以生存时间为横轴,生存率为纵轴,将各个时间点对应的生存率连接在一起的曲线图。KM曲线法可以直观地描述单组或多组的生存率。但仅描述数据是不够的,还需要进行组间的统计比较。

Log-rank检验,洞悉差异,统计分析,精确评估

Log-rank检验是一种常用的生存分析方法,通过比较观察到的事件发生数与预期的事件发生数之间的差异,来评估两个或多个生存曲线间差异是否显著。在Log-rank检验中,首先假设各组生存曲线不存在差异(同质),然后计算出每个时间点上的观察值和期望值的差异,再基于上述差异进行卡方检验。若计算得到的统计量的P值小于预先定义的显著性水平(通常为0.05),则认为存在组别间的生存差异。

图5  Log-rank检验

Log-rank检验基于生存曲线比较,结果易于理解和解释,适合用于呈现比较组别间生存差异的结果、评估预后因素的影响等,对大样本和小样本都具有较好的统计性能。且不依赖于对数据分布的假设,因此适用于各种类型的生存数据。但Log-rank检验也有一些局限性。首先,它对数据的要求较高,需要满足生存数据的基本假设,如独立性、右侧截尾等。其次,只考虑事件是否发生,而忽略了生存时间的连续性,可能导致信息损失。此外,当数据存在时间依赖性或重复事件时,Log-rank检验可能不适用,需要使用其他统计方法进行分析。最后,Log-rank检验只能比较两个或多个组别之间的生存差异,无法考虑其他因素的影响。

Cox模型,风险评估,洞察生存精算未来

Cox比例风险模型是一种常用的生存分析法,基于半参数模型,假设危险函数(即事件发生率函数)能够分解为基线危险函数和危险因素的乘积形式,用于研究危险因素对生存时间的影响。

与Kaplan-Meier方法类似,Cox比例风险模型也能够处理截尾和不完全观测的数据。但Cox比例风险模型作为一个半参数模型,不需要对生存时间的分布进行特定的假设,增加了灵活性和适用性。且Cox比例风险模型可以同时考虑多个危险因素的影响,将危险因素的非线性效应及时间依赖性纳入考虑范畴,通过估计危险因素的系数来量化不同因素对生存时间的影响,计算各个因素风险比HR,评估其对生存时间的相对影响,常用于评估药物的疗效、预测患者存活率以及探索各种危险因素对生存时间的影响,尤其是在大样本量、多个危险因素和时间相关性较强的研究中。

然而,Cox比例风险模型也存在一些局限性。首先,模型需满足等比例风险假设,无法准确描述非等比例情况下变量对风险的影响。其次,该模型对样本量和事件数的要求较高,对于小样本量和少事件数的数据可能不适用。此外,该模型仅能进行相对风险的比较,并不能直接估计绝对风险。

风险检验,明辨真伪,生存分析,精准导航

Log-rank检验和Cox回归模型均需满足等比例风险假定,简称等比例风险假定。然而在实际肿瘤临床研究中,是否满足该假定常被忽略,不满足等比例风险假定时Log-rank检验、Cox回归模型的检验统计量效能下降,最终得到的统计结论可能会掩盖治疗效果的真实性,进而影响研发决策。

故比例风险检验是生存分析过程中的重要步骤,需根据检验结果来选择相应的统计分析方法。比例风险假定的检验方法主要分为图形检验法和假设检验法。其中,常用的图形检验法主要包括:生存曲线图法、Schoenfeld残差图法和Martingale残差图法。

生存曲线图法:以生存时间为横坐标,以生存概率为纵坐标即可绘制Kaplan-Meier生存曲线图,或者利用Log(-Log(生存概率))与Log(生存时间)作图。若图形交叉,等比例风险假设不成立。

图6  生存曲线图法1

Schoenfeld残差图法:如果等比例风险假设成立,Cox模型估算后的残差,即schoenfeld残差理论上应随时间在一条水平线上下波动。如这一线性函数的斜率不等于0(P<0.05),则不符合等比例风险模型。

图7  schoenfeld残差图显示等比例风险假设成立1

Martingale残差(鞅残差)图法:如果等比例风险假设成立,累积风险率残差(即Martingale残差)与生存时间作图,同样应该观察到该残差随时间在一条水平线上下波动。

图8  Martingale残差图示不满足等比例风险假设1

假设检验的方法有时协变量法、线性相关检验法、加权残差Score法、Score检验法、Omni-bus检验法等。其中,时协变量法、线性相关检验法和加权残差Score法在进行比例风险假定检验时,有较高的准确率且3种方法的检验效能相近。最常用方法是采用时间依赖变量(time dependent covariates)的Cox模型检验变量与时间交互项:在经典Cox模型的基础引入一个协变量与时间的交互项,即将该协变量与时间相乘,在等比例风险假设满足的条件下,该交互项应该没有统计学意义。


时间效应,非比风险,临床洞察,精准辨析

若风险比随时间变化,则为非比例风险。在临床试验中常见的非比例风险模式有延迟效应、交叉生存和递减效应。

图9  常见的风险模式1

非比例风险的可能来源于以下几个因素:首先,治疗与时间的交互作用,即随着时间的改变,治疗效应大小发生改变;其次,可能来源于亚组效应,即根据不同的特征将研究人群划分为不同的亚组进行分析,不同特征人群的治疗效果可能不同,出现治疗效果的异质性;此外,非比例风险还可能来源于不可观察或不可测量的随机效应。

在肿瘤临床研究中,试验药物的延迟效应、患者的疾病进展转组治疗及不同亚组人群的疗效差异是非比例风险的主要来源。在不满足比例风险的条件下,主要有两种方法对生存曲线组间差异进行假设检验,一类是基于Log-rank检验的衍生方法,另一类为基于Kaplan-Meier的衍生方法。

图9  非比例风险生存过程比较的常用方法1

图10  非比例风险生存分析方法1

结 论

真实世界数据为肿瘤临床研究提供了宝贵的信息资源,但其应用也伴随着偏倚、不满足等比例风险假设等挑战。通过精心设计的研究方案和严谨的统计分析,研究者可以最大限度地减少偏倚对结果的影响以及模型错误选择的影响,从而获得更准确、更可靠的研究结果。同时,研究者应保持警惕,不盲目接受初步结果,尝试从不同角度审视数据,以确保研究的科学性和客观性。


(本文由李群审校)


参考文献:

[1]黄丽红,等.中国循证医学杂志, 2023, 23(7):826-833.


声明:

本资讯由默沙东医学团队支持,旨在用于医学专业人士间的学术交流,请勿随意转发或转载。文中相关内容不能以任何方式取代专业的医疗指导,也不应被视为治疗建议。医学专业人士对文中提到的任何药品进行处方时,请严格遵循该药品在中国批准使用的说明书。默沙东不承担相应的有关责任。

审批编号:MI-PD1-6259-CN

审批有效期:2025年7月18日


200 评论

查看更多