您当前位置: 首页 > 新闻中心 > 科学新闻 > 生物技术领域

美国ENCODE计划取得重要进展

来源: 发布日期:2012-10-30

据美国国立卫生研究院(NIH)下属的国家基因组研究所(NHGRI)网站2012年9月5日报道,由该所主导的“DNA元件的百科全书(ENCODE)”计划取得重要进展,产生了海量的数据,发表了30篇相互关联的论文,其中有6篇发表在2012年9月6日的Nature杂志上。

1 ENCODE计划介绍

NHGRI于2003年启动了“DNA元件的百科全书(ENCODE)”计划。该计划的目标是识别人类基因组的所有功能元件。最初,该计划被作为试验项目,开发新方法和策略对人类基因组的1%进行研究,2007年扩展到整个人类基因组。到目前为止,来自美国、英国、西班牙、新加坡和日本的32个实验室、440多个研究人员参与了该计划。2003年以来,NHGRI同该计划投资高达2.88亿美元,包括1.25亿美元用于相关的技术开发和模式生物研究。

总的来说,ENCODE计划提供了由147种不同细胞类型产生的1640个数据集,共产生了15万亿字节的原始数据。在众多重要的研究成果中有一项尤为突出:超过80%的人类基因组组成部分被至少确定了一项生化功能。

2 ENCODE的重要影响

ENCODE计划的研究结果将对生物学的许多领域将产生重要影响:

1)为基因组研究提供了数据盛宴

ENCODE计划开展了广泛的研究,主要包括:(1)研究了DNA甲基化和组蛋白化学修饰程度对DNA转录成RNA的影响;(2)研究了远程染色质相互作用,如染色质形成环状,从而改变不同染色体区域在三维空间的相对接近程度(proximities),同时也影响转录;(3)描述了转录因子蛋白的结合位点以及基因调节的DNA元件的结构(位置和序列),其中包括了开始转录RNA分子位点上游的启动子区域以及更远的远程调控元件;(4)测试了DNA裂解蛋白DNase I可到达的基因组,这些可到达的区域,称为DNase I敏感位点,这些位点显示出特定的序列,在此转录因子和转录器蛋白结合引起核小体置换;(5)列出了非编码区和蛋白质编码区的RNA转录本的序列和数量(见图1)。该计划提供的相关信息远远超出了人类基因组计划提供的DNA序列信息。

ENCODE未来面临的挑战包括:(1)加上时间维度,捕捉基因调控动态,但这需要依赖于技术的发展;(2)确定各基因组组成元件如何合作,组成基因网络,形成能够发挥复杂功能的生物化学通路;(3)如何利用快速增长的基因组测序项目产生的海量数据来理解各种人类表型(特性)。

2)表达控制

ENCODE计划在基因组层面,提出了调控通路的新见解,识别出许多调控元件,尤其是DNase I高敏感位点(DHS)和转录因子的DNA结合位点。这些都是具有细胞类型特异性的增强子,通常远离启动子。ENCODE研究论文显示,每个细胞有20多万个DHS,远远超过启动子数量,而且不同类型的细胞其所含的DHS有差异。利用ENCODE计划产生的数据,可以绘制转录网络的逻辑与结构图。由于不同类型的细胞存在不同的调控元件,因而研究时需要使用合适的生物学材料。未来面临的挑战包括在特定的发育通路中了解调控的动态变化,以及理解在含有不同种细胞的组织中的染色质结构。

3)非编码但有功能的基因组区域

人类基因组的大部分不编码蛋白质。ENCODE计划的研究结果显示,在这些非编码区域大多数与蛋白质和RNA分子结合,他们相互合作,调节编码蛋白的基因的功能和表达水平。ENCODE计划绘制了详细的、人类基因组中拥有额外功能的非编码单元目录。这些研究意味着在解释全基因关联研究结果时,需要考虑非编码区域,那些聚焦于编码区序列有可能漏掉了重要部位,从而难以识别出真正的致病变异。

尽管ENCODE计划提供了许多重要信息,但科学家们在寻找致病变异方面仍有一些挑战有待解决:获得与所研究疾病相关的细胞类型和组织的数据;理解这些非编码的功能单元如何影响远处的基因;需要将这类结果推广到整个机体。

4)演化与编码

进化生物学中巨大挑战之一是要了解物种间的DNA序列差异如何决定其表型差异。改变蛋白质编码序列或通过基因序列变化改变基因调控,都可能引起演化发生变化。越来越多的研究人员认识到调控演化的重要性。然而,目前有关哪个或哪些基因组区域有调控活性的信息很少。ENCODE计划草拟了各种细胞类型中关于这些调控元件的“部分清单”。

另外,ENCODE开发出新方法,改良了对调控元件的鉴定工作,大大加快了该领域的发展。这些数据也可以让研究人员识别同时在多个基因组区域发生的序列变化。

尽管ENCODE和其他研究取得了重要进展,但是仍然很难识别研究所假定的调控区区中哪个变异会产生功能变化,以及产生何种变化。另外,后转录调控或许也会产生演化变化,还有待进一步探索。

5)从目录列表到功能

人类基因组计划、ENCODE计划产生了前所未有的海量数据,产生了新的计算和数据分析挑战,成为驱动基因组学中计算方法发展的主要动力。人类基因组计划中每个DNA碱基对产生一点信息,引起了序列匹配和比对算法的发展。在ENCODE计划产生的1,640个全基因组数据集中,为每个碱基对提供了可到达必性、甲基化、转录状况、染色质结构以及结合分子等信息。处理该研究计划的原始数据以便获得功能信息需要巨大的努力。

ENCODE研究人员使用各种分子鉴定方法,开发了新颖的处理算法去除异常值和特定偏倚,以确保产生的功能信息的可靠性。这些处理方式和质量控制措施已经被研究界进行了调整,从而作为这类数据分析的标准。

此外,ENCODE计划整合了多种数据类型的计算方法。使用这些计算方法,整合相关蛋白质、RNA和染色质组成部分的定量分析模型,可以在特定时间和特定条件下不直接测量而能够预测基因组的功能。

3 ENCODE的运作经验

ENCODE联盟的总领导和协调人Ewan Birney讨论了大型研究联盟开展科学研究面临的机遇和挑战。他总结ENCODE计划的运作经验指出,研究联盟要想取得成功,需要创建一个人人参与的、透明的管理架构,需要针对一些共同的问题制定参与人员一致同意的、书面和公开的行为守则,参与者要为共同的利益密切合作。

另外Nature专门开辟了一个网页1,将ENCODE计划发表的30篇论文分成相互联系的13个主题,每个主题对应几篇文章。

(信息来源:中国科学院)

分享到: