还记得之前的文章介绍英国生物样本库ukbiobank在对其招募的50万名志愿者进行全基因组测序吗?由英国研究与创新(UKRI)、惠康信托基金和制药公司安进、阿斯利康、葛兰素史克和强生公司资助了该计划,在惠康基金会Sanger研究所和deCODEgenetics进行了UKB的全基因组测序。 今天的nature文章发表了UKB50万人全基因组测序分析的第一个版本,包含了UKB中150,119个基因组的序列。这是对单个群体基因组序列多样性的最广泛分析。 我们知道,要了解人类基因组序列的多样性如何影响包括健康在内的表型特征,就需要对遗传和表型变异进行详细分析。在过去的十年中,从大量人口研究中获得了对这种关系的见解。UKB包含来自英国各地的50万人的深入表型信息。以前对生物库的一些研究集中在单核苷酸多态性(SNP)上,但SNP阵列通常只捕获基因组中常见变异的一小部分。随后进行的全外显子组测序(WES)也仅限于蛋白质编码区,仅揭示一小部分(23)的序列变异。WES数据也遗漏了编码外显子之外的遗传变异,而大量证据表明这些变异却可能具有重要的生物学功能。因此,UKB全员的全基因组序列将为研究这种多样性如何影响人类疾病和其他特征提供一个独特的机会。 文章表征了一组广泛的变异类型:SNP、插入和缺失(indel)、微卫星重复以及结构变异。deCODEgenetics的团队发现了这些变异类别中的每一个都在表型变异中起作用的例子,并且发现WES遗漏了许多功能上重要的变异。通过WGS识别出的变异比相同样本WES数据识别出的变异多40倍。WES确实不是完整的外显子组,因为它错过了大多数转录但未翻译的变异,甚至错过了10的翻译变异。https:decode。comsummarydata提供了关联数据;而通过https:decaf。decode。com可获取变异等位基因频率。 deCAF截图,提供了供公众使用的变异等位基因频率资源 文章发现了许多与SNP和indel的关联,包括迄今为止发现的GWAS研究中与身高、少女的第一次月经来潮年龄的最大影响关联。还发现了许多与SV和微卫星的关联,包括影响胆固醇水平的PCSK9第一个外显子的14kb缺失、ALB启动子的4kb缺失和完全去除与甘氨酸水平相关的GCSH的2个外显子的16kb缺失。 这一大组变异使作者能够通过其称之为耗尽等级(DR)分数的度量来表征群体内的序列保守性自然选择维持序列的程度。DR分数是识别具有重要功能的基因组区域的重要资源。DR分析表明,编码外显子仅代表基因组中受强序列保守性影响的一小部分区域。在GWAS中发现的大多数变异都是非编码的,而全基因组DR评分使得能够确定这些非编码变异中的哪些位于保守区域。现在可以开始表征重要的非编码功能区,无疑是令人兴奋的。 英国人口的遗传血统是多样化的,包括出生在全球各地的人。文章能够根据遗传血统在UKB中定义三个队列:一个大型的英国爱尔兰队列和较小的非洲和南亚队列。非洲和南亚的队列各包含9,000多人,代表了这些祖源的最大的可用全基因组序列集。这些数据对识别与疾病和其他特征有关的变异会很有价值。 当然,文章也讨论了一些后续努力的方向,如文章中使用的WGS技术还是会遗漏一些变异,包括一些重复区域和最近才被人类基因组组装捕获的区域。此外,继续努力为UKB的所有50万名参与者完成WGS并进一步丰富表型数据,这有望大大增加我们对非编码基因组功能的理解。然而,UKB绝大多数包含的还是来自英国和爱尔兰血统的个人的数据,因此对世界各地的不同人群进行同样详细的WGS和分析也同样重要。 参考文献: https:nature。comarticless4158602204965x https:www。nature。comarticlesd41586022019846 声明: 以上只代表个人的观点,不包含任何投资建议;本人与文中所提及的公司无任何利益往来;文中信息不当或不准确的地方,欢迎留言或私信指正。文中图片来自于公开渠道可获取的资料,若侵权请联系删除。