查看更多
密码过期或已经不安全,请修改密码
修改密码壹生身份认证协议书
同意
拒绝
同意
拒绝
同意
不同意并跳过
诊断自身免疫性疾病是一个复杂而严谨的过程,需要结合患者的病史、身体检查和实验室测试,并依赖专业医生的丰富经验。然而,许多患者常常表现出非特异性或不典型的症状,这些特征难以归入标准的诊断框架,导致诊断推迟甚至误诊的情况时有发生。尽管自身抗体一直是诊断自身免疫性疾病的重要工具,但它们很少是单一特异性疾病的生物标志物。在健康人群中也可能检测到低水平的自身抗体,而其中只有极少数会进一步发展为临床疾病。这一现象表明,亟需更精确的诊断方法,以从根本上改善疾病的早期识别能力,并筛选出真正的高风险个体。近期 Nature Reviews Rheumatology 发表文章介绍了将机器学习和免疫受体整合分析应用于疾病诊断的巨大潜力。
在免疫系统中,T细胞和B细胞是适应性免疫的核心,同样也是自身免疫性疾病的重要参与者。它们通过专门的抗原受体---T细胞受体(TCR)和B细胞受体(BCR)识别入侵物质。TCR由α链和β链组成,BCR则由轻链和重链组成。通过基因重组,这些受体的可变区(V)、多样性区(D,TCRβ和BCR重链所特有)和连接区(J)生成了巨大的序列多样性。此外,细胞还通过在连接区引入随机核苷酸的插入或缺失进一步提高多样性。B细胞在活化后,还会通过体细胞高频突变不断强化抗体的亲和力。这种复杂的机制赋予了免疫系统极高的抗原识别能力,而活化的T细胞和B细胞的扩增则会保留这些特异性受体的分子特征,为研究免疫系统“记忆”提供了独特的窗口。
通过解读TCR和BCR的多样性和模式,人们已经开始在疾病诊断与免疫治疗研发领域取得突破。越来越多的研究表明,可基于免疫受体序列识别与感染、癌症、自身免疫性疾病相关的特征。然而,目前的疾病分类方法主要针对单一疾病,未能全面捕捉免疫系统更广泛的模式及其复杂的相互作用。此外,绝大多数分类器仍仅依赖TCR或BCR的单一数据来源,未能充分利用两者的整合信息。
在这一背景下,Zaslavsky等人开发出一种高度创新的机器学习框架,称为“用于免疫诊断的机器学习”(Mal-ID)。该框架基于TCR和BCR序列的整合分析,从大规模RNA测序数据中提取TCR β链(TRB)和免疫球蛋白重链(IgH)序列,以识别与疾病相关的特征。Mal-ID结合三个核心模型:第一个模型针对BCR的V基因使用情况及其突变率进行量化分析;第二个模型根据TCR互补性决定区3(CDR3)的序列相似性进行聚类,CDR3是一段决定抗原特异性的关键区域;第三个模型则利用从多种蛋白质中训练的自监督语言模型,深入学习每个受体序列的底层特征,超越了以往对免疫受体的传统认知。研究整合了这三个模型的输出,用以预测个体属于某种疾病的概率,并根据最高概率分配疾病类别。
图:基于BCR和TCR的疾病分类。免疫学诊断的机器学习(Mal-ID)整合了可变(V)基因的使用、B细胞受体(BCR)突变率、互补决定区3(CDR3)的聚类,以及BCR重链(IgH)和T细胞受体(TCR)β链(TRB)的蛋白建模,用于对各种疾病患者进行分类。该方法成功识别了系统性红斑狼疮(SLE),并且在受试者工作特征曲线下面积(AUROC)评分中表现出色,突显了基于免疫受体诊断在疾病预测中的潜力。
研究团队利用大规模数据测试了Mal-ID的性能。这些数据涵盖了220名健康个体、63名COVID-19患者、37名接种流感疫苗后第7天的个体、95名HIV感染者、86名系统性红斑狼疮(SLE)患者以及92名1型糖尿病患者,总计1620万条IgH序列和2350万条TRB序列。为了确保模型性能的真实评估,研究将个体数据分为三个交叉验证折叠(folds),并确保同一供体的数据不会出现在训练集和测试集中,从而避免过拟合。
Mal-ID的表现非常突出。在同时使用BCR与TCR数据训练时,该框架的受试者工作特征曲线(AUROC)达到0.99,作为通用疾病分类器,其准确率达到85.3%。将两种数据结合使用的效果明显优于单一数据来源。当作为一个针对系统性红斑狼疮(SLE)的分类器时,Mal-ID的AUROC也达到了0.98,同时其敏感性和特异性分别达到93%和90%。这一结果尤其令人瞩目,因为SLE具有高度的病程异质性,而研究中仅有64名SLE患者的数据用于模型开发。
为了进一步检验模型的适用性,研究者使用包含其他自身免疫性疾病和感染患者样本的外部TCR数据集对Mal-ID进行了训练。总体上,该模型表现依然良好,但也存在挑战。例如,12%的健康个体被错误诊断为患有某种疾病。这一问题并非Mal-ID的独有缺陷,而是疾病低患病率背景下普遍的高假阳性率问题。因此,要实现基于免疫受体的精准诊断,还需要针对这一局限性进行优化。
此外,Mal-ID目前采用的是二分类框架,每次预测只能为个体分配单一疾病标签,而不能应对临床中常见的多种疾病并存、疫苗接种或感染共存的复杂情况。未来的发展需要专门设计机制来解决这些竞争性诊断的可能性,同时优先考虑共病条件的处理能力。
时间维度是另一个值得关注的方面。Mal-ID的预测基于单一时刻的免疫受体数据,而免疫反应本质上是动态的。如果将大规模免疫受体测序与人工智能驱动的纵向数据相结合,有可能突破目前局限,预测疾病风险、指导个性化治疗并评估患者的长期预后。尽管如此,这类模型仍需克服混杂因素,并通过严格验证才能应用于临床。
Mal-ID的意义还不限于疾病分类。在COVID-19患者的研究中,Mal-ID成功分配较高的疾病概率给已知具有SARS-CoV-2结合能力的BCR,这说明该框架有潜力识别与疾病密切相关的受体。这表明,疾病相关的免疫细胞可能会活跃循环于血液中,而不仅局限于病灶组织。这些循环细胞究竟是旁观者,还是直接参与疾病机制的介导者,仍需通过更深入的研究加以明确。如果能够进一步将免疫识别特征与具体疾病机制相结合,未来或许会发现更多关键的免疫治疗靶点。
总之,Mal-ID展示了将机器学习和免疫受体整合分析应用于疾病诊断的巨大潜力。尽管还存在一些挑战,如假阳性问题、模型动态性以及对共病情况的考虑不足,但其在泛疾病分类和个体化诊断上的突破性表现,充分证明了未来在精准医疗中的应用前景。这些研究进展不仅为疾病诊断带来了革命性变化,也为优化治疗策略和改善预后提供了重要的新方向。
来源:神经科的那些事
查看更多