计算机工程师利用大数据技术发现遗传病病因

2015041013392740555477

大数据:一个我们经常看到、听到的词语,但却难以理解。华盛顿大学(Washington University)工程与应用科学学院(School of Engineering & Applied Science)的计算机科学家们处理了有关一种重要蛋白质的一些大数据,并发现这种蛋白质在人类历史上的联系网及在复杂神经疾病中所起作用的线索。

计算机科学研究助理教授Sharlee Climer博士和计算机科学及医学院遗传学教授Zhang Weixiong博士通过一种新颖的大数据分析方法发现14号染色体上包含有桥尾蛋白基因(gephyrin gene)的区域在几千年前向两个完全相反的方向分裂之后经历了快速的进化。这些被称为阴阳(yin and yang)的相反方向在今天世界上不同的人群中仍很明显。

他们同人文与科学学院(College of Arts & Sciences)生物学系(Department of Biology)Charles Rebstock荣誉退休教授Alan Templeton博士共同完成的该项研究结果发表在3月27日的Nature Communications上。

桥尾蛋白是脑中传递信息受体的主调节因子。该蛋白的功能失调会导致癫痫、阿尔茨海默病(Alzheimer’s disease)、精神分裂症(schizophrenia)及其它神经疾病。此外,没有桥尾蛋白我们的身体就不能合成必要的微量营养素。

该研究团队利用了来自国际人类基因组单元型图计划(International HapMap Project)以及千人基因组计划(1000 Genomes Project)的大数据。国际人类基因组单元型图计划是一个有世界范围内人群遗传数据的公共资源,旨在帮助研究者找到同人类疾病相关的基因。千人基因组计划是另一个已测序人类基因组的公共数据库。他们一共研究了3,438名个体的遗传数据。

分析这些数据时,他们在一个被称为单元型的包含桥尾蛋白的标记物序列中有了一个有趣的发现:高达80%的该单元型都要么完美结合的阴阳型,要么是彼此完全相反的类型,即阴型和阳型。他们可以追踪此分裂到称为单元型始祖单元型(Ancestral haplotype),或是最近的人类共同祖先。

Climer说:“我们观察到始祖单元型分裂为两个不同的单元型后继而经历了快速的进化,每一个单元型都拥有大约140个不同于始祖单元型的标记物。数量众多的突变将会产生大量的中间单元型,但这些中间类型几乎全部消失了,而不同的阴、阳单元型在代表每一个重要人类祖先的种群中都普遍存在。”

利用来自单元型图计划(HapMap Project)的数据,他们研究了几个不同人群的桥尾蛋白区域,其中包括欧洲、东南亚和非洲后裔,找到每一人群中单元型频繁变化的变异体。那些来自非洲的一般有更多的阳单元型,而那些欧洲起源的则有更多的阴单元型。那些亚洲血统的有着几乎相等数量的阴、阳单元型。

人类携带有成对的染色体,30%的日本人携带两个阴单元型或两个阳单元型。另30%个体拥有一个阴单元型和一个阳单元型,反映出大致相同的遗传概率。

为在巨大的数据集中发现这个模式,研究团队使用一种新的方法来评估单核苷酸多态性(single nucleotide polymorphisms, SNPs)或SNPs的遗传标记物中的相关性。SNPs是使人类彼此各不相同的DNA序列中的变量元素。

该团队的方法,称为“BlocBuster”,即计算每一对SNPs间的相关性,并建立一个这些相关性的关系网。通过观察这一关系网,研究者可以找到很多相互关联的标记物。

Climer说:“例如,你可以利用你脸谱(Facebook)上的所有朋友建一个脸谱网络。如果你的朋友中有两个彼此也是朋友,你就可以在网络中把他们联系起来。如果你看到有一群人彼此都互相联系起来,他们可能有某些共同点,比如亲属关系、同上一所学校或者某些类型的社会交往关系。类似地,通过有效的算法和足够的处理员和时间,我们可以研究每一对SNPs,建立这样的关系网并观察许多互相联系的SNPs。”

Zhang表示:“‘BlocBuster’方法是全基因组关联研究(genome-wide association studies, GWAS),或广为人知的GWAS传统方法的范式转变,传统方法中一次只有一个或几个标记物被研究。新方法确实是应对如单元型图计划和千人基因组计划这样大数据的数据探矿挖掘式技术。”

研究者也可以对该方法进行设计来研究复杂性状和复杂疾病。

Zhang说,“‘BlocBuster’能够检测网络化的、复杂性状典型的遗传标记物组合。该方法适用于分析诸如体重这样由多个遗传因子决定的性状,以及种群中的遗传模式,例如我们发现的阴-阳单元型。”

最终,他们希望这种方法将阐明疾病的遗传根源。

Climer说,“最复杂疾病是由一组遗传变异一起相互作用而引发的。患有某种疾病的不同人群可能是受不同组变异体的影响。当一次研究一个标记物时没有足够的力量来看到这些复杂的关联。我们正采用一种混合的方法,同时研究这些标记物的组合,这样才能搞清楚那些模式。”

via:科学之家

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部