大数据首次揭示中国人基因特征，具有怎样的意义？

作为这个项目的核心成员之一，看到知乎朋友们谈及了这个项目的意义，我来回答一下。对于意义，总的来说有如下几个：1. 中国第一次真正意义上拥有了一个属于自己的大规模组学背景数据库先说一下背景哈，我们来看一下下面这个图全球主要的大规模基因组学计划发现了吧？如我图中红字“缺少中国身影”！要知道差不多二十年前，中国曾是“人类基因组计划”的6个参与国家之一，自那之后，测序技术发展快速，成本也不断下降。其带来的一个结果就是，世界上一些有远见的发达国家和地区——主要是美国和英国——曾经人类基因组计划的两个重要参与国，就不断由政府、研究机构或者企业推出一系列基因组学“大手笔”项目（上图），这里面比较有名的有：美国All of US（计划测100万美国人群）、英国UK biobank（50基因芯片数据，这一部分的数据已经可以授权给全球的研究者）、英国10万人基因组计划（GenomicsEngland）等，其中GenomicsEngland截至9月份已经测完了8.7万人！今年国庆期间听说他们又把第二期启动了！是惊人的500万人，并且要在5年内完成！就连最近的韩国、新加坡、澳大利亚也已经在积极发起属于他们自己的基因组学计划。可以说，全球大规模的组学计划，正在随着测序成本的下降，逐渐成为一种新的常态。而走的最快的英国和美国，他们的一些项目的成果我们已经看到了，其带来的好处不仅是推动了本国的基因组学研究和精准医学的发展，我觉得更重要的还在于它们逐渐树立起了强大的国际影响力和领域话语权。中国是世界上第一大人口国和第二大经济体，也是曾经人类基因组计划的参与者之一，拥有着至少56个不同的民族，遗传资源丰富，想必也很独特，但一直以来，由我们主导的中国人基因组学研究成果却比较有限。好在这两年来，这个情况正在发生改变，咱们国家也开始推动大人群项目了，包括：哈工大“中国十万人基因组计划”，当时我还对这个计划做了一点评价，感兴趣的小伙伴可以移步到《我如何看，今日央视宣布我国启动“中国10万人基因组计划”》、金力教授发起的泰州人群队列项目（这也是一个10万级别的人群队列项目）等。另外，也有远在牛津大学的陈铮鸣教授发起的CKB项目——含有约10万人的基因芯片数据，还有就是企业机构发起的大人群项目，这其中就包括我们华大。但由于很多项目才刚开始不久，因此，直到今日被广泛使用并作为中国人代表的基因组数据集依然仅有“国际千人基因组计划”中的三百余个样本。不得不说，在国家级人群基因组学研究以及该领域的影响力方面，我们略有落后。精准医学计划也搞了好几年了，但起色甚微，其中很重要的一个方面是缺少大规模的地区性人群遗传基线数据研究——这是精准医学和基因诊断的基础。当然，这方面的原因有很多，包括：大型项目的设计、大规模样本采集相当困难、测序成本也还不是真正的“白菜价”，一个上万人规模的基因组学项目依然需要不小的经费支持。再次拿英国的GenomicsEngland来举例子，他们在几年前定下要测10万人——截至2018年9月已经测了8.7万人（10月份就全部完成了），前期的项目投资就高达7,800万英镑，折合人民币是7个亿！而它国庆期间宣布的二期项目更是一个500万人的组学计划，这里的资金投入将是多高，可见其决心！！面对国际这样的形式，按照正常的路径我们其实是很难在短时间内赶上的，如果要实现一定程度的弯道超车就需要另辟蹊径。我们国家很幸运，你如果回过头来看，会惊讶地发现中国在基因技术的应用方面走得很快。特别是近年来，无创产前基因检测（NIPT）技术的发展和推广，其实已经让中国成为了地球上拥有最多可分析基因数据资源的国家之一。那些数据已经产生了，它并不需要你重新去测序！如果能够以这样的数据为突破口，完成大规模的组学研究，那么不但有赶上的机会，还有机会开拓一个新的组学大数据研究思路——因为这个数据和通常高深度测序数据极为不同——数据条件也很恶劣，唯一的好处是数据已经存在了。截至2018年，全球的NIPT测序数据估计已经超过了1200万例，其中大约70%的检测数据发生于我国。由于没有找到官方的报道，所以这个数字是我根据去年的情况推算的。我们这篇文章中所完成的14万人组学项目正是源自于这样的一个数据，而且很巧的是这个数量大约为全国人口的万分之一，样本数据也广泛分布于全国各地（覆盖中国31个省级行政单位和36个少数民族）——如下图，再加上NIPT检测的样本来源的随机性是有保证的，所以不难看出这将会是一组很有代表性的中国人群体数据。