壹生资讯-世界首次！高占成教授、康禹研究员团队建立首个端粒到端粒汉族中国人全基因组|中国之声

您已通过HCP身份认证和信息审核

(

世界首次！高占成教授、康禹研究员团队建立首个端粒到端粒汉族中国人全基因组|中国之声

2024-04-26作者：论坛报小璐资讯

原创

点击图片查看

专家介绍

背景介绍

人类的二倍体细胞中一共有46条染色体（44+XY），共由60亿个碱基对组成，其中单倍体染色体含30亿个碱基。30多年前，科学家们为了在医学领域实施个性化精准医疗干预，启动了人类基因组计划，极力追求一个完整和精确的人类单倍体参考基因组。

经过全球科学家10余年的不懈努力取得了重大进步，2001年完成了人类首个参考基因组草图，但仍存在约8%区域的序列未知。之后，端粒到端粒（T2T）联盟又历经近20年的努力取得重大突破，在2022年组装出了新的参考基因组T2T-CHM13。它成为了第一个覆盖人类基因组中未知8%的高重复区域的完整单倍体人类基因组，提供了生物医学研究的一个更加完善的参考序列。

尽管如此，T2T-CHM13单倍体基因组（22+X）来源于一个纯母本葡萄胎细胞系，无Y染色体，因此，它并非一个真实的个体基因组。即便后期将其与欧洲犹太裔个体HG002的Y染色体结合，作为高加索人种的这一基因组仍难以成为全面代表人类不同族群的标准参考模板，亚裔人种完整基因组的特殊性仍旧是一个未解之谜。

为了探究人类基因组的多样性，弥补参考基因组对不同人群代表性的不足，人类泛基因组参考联盟（HPRC）收集了全球不同种族个体的基因组数据，揭示了大量的单核苷酸多态性、小插入缺失和结构变异。中国泛基因组联盟对36个民族的人群进行泛基因组研究，结果同样表明人类不同种群创建独特参考基因组的必要性，这对于进行更深入的基因组学研究和发展精准医学至关重要。

2023年8月，来自北京大学人民医院的高占成教授研究团队和中国科学院北京基因组研究所的康禹教授研究团队在《基因组蛋白质组与生物信息学报》（Genomics,Proteomics&Bioinformatics）杂志上发表了关于T2T-YAO（唐尧）基因组的论文。这个基因组不仅是世界上首个构建的从端粒到端粒完整高质量无间隙人类二倍体（44+XY）全基因组参考序列[即完成了人类基因组近60亿个碱基（5932414760bp）的染色体基因序列]，而且建立的单倍体端粒到端粒参考基因组（22+XY）精准性也是首次处于世界领先。同时，是世界上首次为具有汉族特征的中国人提供了高质量基因组数据，并有望成为亚裔人群广泛应用的潜在参考基因组。

这个参考基因组命名为T2T-YAO，以反映其与古代尧帝传说的地理和文化联系。“唐尧”基因组的加入，极大丰富了人类参考基因组的多样性，也体现了不同人群之间遗传差异的重要性，这对未来的遗传学研究和精准医疗具有深远的影响。

研究设计

该研究运用先进的测序技术、分阶段组装、精细校对和祖先遗传性标记分析等技术，构建了一份高质量的二倍体汉族人基因组，并系统评估了其质量，验证了其作为参考基因组的高度适合性。具体的研究设计可归纳如下。

样本采集和测序选择了中国最新一次大规模迁移的起点作为采样地点，样本来源于山西古老村落的一位健康男性居民，通过染色体核型分析排除了染色体疾病。提取患者的外周血单个核细胞（PBMC），用HiSeq、ONT和高保真测序技术（HiFi）等多种测序平台进行文库构建和测序。

组装策略结合亲本HiSeq数据和子代HiSeq、ONT和HiFi高深度测序数据对YAO基因组进行组装，并使用Verkko自动化管道完成二倍体草图。通过超长ONT读取和特异HiFi读取闭合大多数重复序列产生的空隙。通过一系列软件工具进行SNV样和SV样拼接错误识别纠正，并人工检查。最终确保了46条染色体端粒到端粒的序列完整性，得到完整高质量的T2T组装。

质量评估使用Merqury来确定组装的完整性、组装错误和单倍型间的混杂错误。利用液滴数字聚合酶链式反应（PCR）对T2T-YAO中的rDNA等多拷贝基因及X染色体卫星序列进行了拷贝数和长度验证。

注释分析使用随机森林模型和Y染色体单倍型分析（yHaplo）工具，分析祖源标记并识别Y染色体单倍群。注释重复和非重复基因组区域的基因，并将CHM13和YAO中的父本及母本这三个单倍型进行比较分析，发现独有序列和基因。

研究结果

该研究构建了一个完整且准确的二倍体汉族人类基因组，包括父母本常染色体、X染色体、Y染色体和线粒体基因组的完整序列，其母本和父本单倍体的质量值（QV）分别达到Q70.49和Q72.28。另外，研究团队选择父母本中QV较高的常染色体以及性染色体组成一套单倍体参考基因组（22+XY），其质量高达Q74.69。至此，T2T-YAO的二倍体和单倍体基因组版本的组装质量均高过目前已发布的其他基因组。

YAO基因组与CHM13相比较，在多数染色体区域显示出高度的序列匹配和同一性，同时发现父/母本基因组各自有326.6/319.7Mb和CHM13基因组不同，序列差异高达11%，颠覆了传统的人类个体之间基因组差异＜1‰的错误认知。此外，还有3000多个差异基因和数万个大小不等的结构差异，说明中国乃至亚裔种族与高加索族人种之间基因组存在有较大区别。YAO单倍体中发现了一些与CHM13不同的排他性蛋白质编码基因和非编码基因，尤其在着丝粒和染色体末端等高变异区域。

此外，YAO基因组中还鉴定出一些功能未知的新型蛋白质，这些可能代表了汉族人群基因组的独特遗传特征。对YAO和CHM13单倍体的比较揭示了两种单倍体之间存在一定数目的碱基变异（SNV）和结构变异（SV）。这些变异的分布显示了中国与欧洲人群之间的遗传差异。研究还揭示了重复序列的复杂性和同源性嵌合区域的变异，以及rDNA基因拷贝数在个体间的巨大变异性，这些都为理解人类基因组结构和功能多样性提供了重要信息。YAO-Y的全基因组组装显示，Y染色体有51Mb，其中Yq12区域由重复序列组成且长度比CHM13的相应区域短约10Mb，结构对比强调了Y染色体的复杂性和个体间的长度多态性。

下一步展望

T2T-YAO中包含的独特新型蛋白质提供了进一步研究汉族基因组独特功能和特征的潜在新方向文中提到78个新型独家蛋白质编码基因可能强调了汉族基因组的特殊性，这些新发现的蛋白质的功能和重要性尚待未来的生物医学研究进一步探究，进一步功能注释和表型关联研究将有助于揭示人类遗传差异在健康和疾病中的作用。

T2T-YAO基因组的高质量和完整性提供了一个新的标准未来的基因组研究可能会采用与T2T-YAO类似的方法，以构建其他族群的参考基因组，促进对全人类遗传多样性的了解，并有助于个性化医学和精准医疗的发展。

该研究为构建单倍体参考基因组提供了新的技术路线图涉及高质量的二倍体基因组构建、误差更正以及质量评估，并成功结合了HiFi测序和ONT超长读长测序等多种技术。这种整合多技术平台的方法可以应用于未来的基因组测序项目，以实现更高的准确性和完整性。

由于族群特有的基因组特征和祖先标记，因此在构建T2T-YAO的基础上，可进一步探索汉族及相关族群的历史迁徙、人口混合和演化过程。此外，用T2T-YAO来研究汉族人群的遗传疾病以及其他健康特征，了解这些基因组变异和祖先特异标记如何影响表型，可以为医学和人类遗传学研究提供全新视角。

综合来看，T2T-YAO的构建不仅为今后汉族及其他族群的基因组研究工作提供了模板和工具，也为探索族群特色基因的功能、推进个体化医疗、增进对人类遗传多样性的理解奠定了坚实的基础。随着技术的进步和研究的深入，T2T-YAO对于未来人类遗传学和精准医学研究的贡献将愈发显著。

研究者说

1956年，印尼华人蒋有兴（TjioJH）和他的同事莱文（LevanA）首次鉴定人类基因组的二倍体46条染色体，由此敲开了人类基因组学的大门。1990年，国际基因组联盟启动人类基因组计划，并在2001年构建完成人类参考基因组草图。2022年，人类首次完成端粒到端粒完整准确的单倍体人类参考基因组（22+X）。2023年，中国科学家首次完成端粒到端粒完整高质量人类二倍体（44+XY）参考基因组，建立世界领先的端粒到端粒高质量单倍体参考基因组（22+XY），首次为具有汉族特征的中国人提供了高质量的基因组数据。基因组学的不断深入发展，使得基于最全面、最准确的遗传信息的精准医疗成为可能。

精准医疗可以提供更加针对个体的医疗服务，提高治疗效果和患者生活质量。它有助于预防疾病发生、早期发现和干预疾病、减少不必要的医疗成本，对于推动医学进步和促进人类健康具有重要意义。精准医疗的一个目标是根据每个人的基因组来调整预防、诊断和治疗方法。构建准确的参考基因组对于精准医疗至关重要，它需要与真实人群的相关性，并不断更新以反映全球种群的多样性。因此，精准医疗的一个关键要求是高质量的参考基因组，用作识别遗传变异的模板。高质量的参考基因组可以帮助识别与特定表型或疾病相关的遗传变异，并指导个性化医疗。通过与参考基因组比较个人的遗传数据，医疗保健提供者可以根据个人的基因组成和疾病风险定制个性化治疗。

回顾既往研究，基因组学虽然已经取得巨大进步，但其中的不足也显而易见。T2T-CHM13基于具有近乎纯合基因组的葡萄胎细胞系，而不是真正的二倍体人类基因组。对于大量发现的遗传变异，其具体的生物学功能和对健康影响仍不清楚。现代基因组学产生了大量的数据，但我们仍然缺乏对遗传多样性的完整了解，尤其是非欧洲血统和少数民族群体的基因变异。此外，泛基因组研究揭示了种族群体和亚群之间的差异，在整理后发现重复区域比以前认为的要多。因此，团队深知，对于实现我国的精准医疗而言，建立反映中国人遗传特征的高质量分层参考基因组是迫切而关键的需求。

构建中国人自己的参考基因图谱，目的是更好地服务现代医学，所以样本需要更好地代表现代中国人的基因组特征。因此，团队选取洪通迁徙起点的原住民住区作为取样点，它代表了具有明确祖先标记的汉族亚群的高质量基因组，可用于追溯该地区的早期定居点。在我们的研究中，根据祖源分析，“唐尧”基因组的绝大部分为东亚人群特征。该样本的Y染色体分型在中国除了新疆、西藏等地外都有广泛分布，极具代表性。经国际通用的评估基因组质量的重要工具Merqury评估，“唐尧”的质量值达到了参考基因组的质量标准，质量值为Q74.69，而T2T-CHM13的质量值为Q73.94。此外，团队对于“唐尧”的分析概述了中国和欧洲人群之间的遗传差异，其中包括~320Mb（~11%基因组）差异序列和~3000个中国人的差异基因，以及许多结构变异，远比我们曾经认为的要多。这种差异反映了中国种群的遗传特征，将来对于这部分基因组变量的功能注释非常重要，团队也将深入挖掘。此外，团队希望“唐尧”的方法和技术也可以服务于其他物种的高质量基因组组装，进一步推动生命科学研究的全面发展。

中国科学院院士陈润生说，“唐尧”弥补了汉族高质量基因组的空白，完整的中国人基因组序列的发布，也将改变以往认为不同人种基因组之间只有千分之一区别的认知。

未来，团队将对“唐尧”进行进一步的解析和注释，以期基于自己的参考基因组发展出服务华人的靶向测序、基因组分析和诊疗技术，并推动未来的新药研发，让“唐尧”更好地应用于临床。

200 评论

知情同意书

世界首次！高占成教授、康禹研究员团队建立首个端粒到端粒汉族中国人全基因组|中国之声

热门资讯

关于我们

中国医学论坛报微信矩阵

助力乡村振兴帮扶行动

友情链接