【推荐阅读】人类基因组计划最后剩余的 8%基因组终于被破译

来源:仪征中学 时间:2022-04-06
 

   在高中生物教材当中讲到:人类基因组计划1990年启动,并已于2003年完成。但是实际当中并不准确,因为当时只完成了92% 的人类基因组进行了测序,而剩下的 8% 的人类基因组由于其复杂性,多年来一直困扰着科学家。


   这 8% 的基因组并没有因为缺乏重要性而被忽视,而是因为技术限制。高精度长读长测序终于消除了这一技术障碍,能够对整个人类基因组的基因组变异进行全面研究,预计这将推动人类基因组健康和疾病的未来发现。


   2022年3月31日,端粒到端粒 (T2T) 联盟Science 在线发表题为“The complete sequence of a human genome”的研究论文(该文章入选为Science封面文章),该研究针对剩余 8% 的基因组,提供了人类基因组的完整 30.55 亿碱基对序列 T2T-CHM13,其中包括除 Y 之外的所有染色体的无间隙装配,纠正了之前的参考序列,并介绍了近 2 亿个碱基对序列,其中包含 1956 个基因预测,其中 99 个预测为蛋白质编码。完成的区域包括所有着丝粒卫星阵列、最近的节段重复和所有五个近端着丝粒染色体的短臂。




剩余 8% 的基因组


   一方面它包含具有多次重复的 DNA 区域,这使得使用以前的测序方法以正确的顺序将 DNA 串在一起具有挑战性


   对 DNA 进行测序就像解决拼图游戏一样。科学家们必须首先将 基因组DNA“化整为零”, 分解成更小的部分,然后使用测序仪以正确的顺序将其拼凑在一起。以前的测序工具一次只能对一小部分 DNA 进行测序。



   对于 10,000 块拼图,当它们看起来相似时,很难正确排列小拼图,就像对重复 DNA 的小片段进行测序一样。但是对于 500 块拼图,排列较大的块要容易得多——或者,在这种情况下,是较长的 DNA 片段。


   当前的人类参考基因组由基因组参考联盟 (GRC) 于 2013 年发布,最近一次修补是在 2019 年 (GRCh38.p13)。该参考基因组可追溯到人类基因组计划 ,并且在过去的二十年中不断改进。几个 GRC 组装间隙由于其侧面不兼容的结构多态性而无法解决,并且许多其他重复和多态性区域未完成或组装不正确。GRCh38 参考组装包含 151 兆碱基对 (Mbp) 的未知序列,分布在整个基因组中,包括着丝粒周围和亚端粒区域、扩增基因阵列和核糖体 DNA (rDNA) 阵列,所有这些都是基本基因组细胞过程所必需的。




   长读长鸟枪法测序克服了基于 BAC 的组装的局限性,绕过了基因组之间结构多态性的挑战。PacBio 的多千碱基单分子读取被证明能够解决 GRCh38中的复杂结构变异和间隙,而 Oxford Nanopore 的 >100-kbp “超长”读数能够完整组装人类着丝粒(染色体 Y),然后是组装整个染色体(染色体 X)。然而,这些技术的高错误率 (>5%) 对长的、几乎相同的重复阵列的组装提出了挑战。PacBio 最新的“HiFi”循环共有测序提供了 20-kbp 读取长度的折衷方案,错误率为 0.1%。


   研究人员依靠过去十年出现的两种 DNA 测序技术使该项目取得了成果:牛津纳米孔 DNA 测序方法可以一次对多达 100 万个 DNA 字母进行测序,但会出现一些错误,以及 PacBio的高保真DNA 测序,该方法可以读取 20,000 个字母,准确率达到 99.9%。


   另一方面是寻找到仅包含一个基因组的细胞。标准人类细胞包含两组 DNA,一个母体副本和一个父系副本,但该团队使用的 DNA 来自一组称为完整“葡萄胎”(hydatidiform mole的细胞,其中包含父系 DNA 组的副本。完全性葡萄胎是一种罕见的妊娠并发症,由源自胎盘的细胞异常生长引起。这种方法简化了基因组,因此科学家只需要测序一组而不是两组 DNA。


   由于研究小组使用了一组重复的 DNA,科学家们最初无法对 Y 染色体进行测序。根据主要研究作者美国国家人类基因组研究所基因信息学部门的负责人Adam Phillippy的说法,该团队已经成功地使用一组不同的细胞对 Y 染色体进行了测序。现在圣克鲁斯大学基因组浏览器上提供了一套完整的 24 条已测序染色体(https://genome.ucsc.edu/cgi-bin/hgGateway)。


这些数据扩展了对塑造人类基因组的重复区域的多样性、分布和进化的洞察力。提供了一个框架,可以用来研究人类基因组中最难以捉摸的区域,从而深入了解表观遗传调控。能够对整个人类基因组的基因组变异进行全面研究,预计这将推动人类基因组健康和疾病的未来发现。




 
打印本页】【关闭窗口