AWS使研究人员可以立即访问AWS上完整的1000个基因组计划
亚马逊网络服务(AWS)和美国国立卫生研究院(NIH)宣布,完整的1000个基因组计划现已在AWS上公开发布。AWS和NIH在3月29日的白宫大数据峰会上宣布了这一消息。这一宣布使全世界的研究人员可以免费获取最大数量的人类遗传学信息。AWS官员表示,“ 1000个基因组计划”是一项国际研究工作,由75个公司和组织组成的财团协调建立最详细的人类遗传变异目录。
该项目的基因组数据已增长到200 TB,其中包括来自1,700多个个体的DNA序列,研究人员现在可以在AWS上访问这些DNA进行疾病研究。“ 1000个基因组计划”旨在包括来自全球26个人群的2,600多个个体的基因组,NIH今年将继续将剩余的基因组样本添加到公共数据集中。
AWS告诉eWEEK,“ 1000个基因组计划”从2008年的试点阶段开始,仅包含几TB的数据。2010年,NIH将其中的一小部分数据作为公共数据集在AWS上提供,由于科学家的积极反馈,NIH决定使“ 1000基因组计划”保持目前的状态??数据?可以在AWS上完全访问。美国国立卫生研究院官员说,“ 1000基因组计划”产生的数据量在生物医学研究中是空前的。NIH是美国卫生与公共服务部的一部分,是1000个基因组计划的数据协调员之一。
以前,想要访问诸如1000个基因组计划之类的公共数据集的研究人员必须将它们从政府数据中心下载到他们自己的系统中,或者将数据以物理方式发送到它们的光盘上。美国国立卫生研究院(NIH)的国家人类基因组研究所的遗传变异计划项目主任丽莎·布鲁克斯(Lisa D. Brooks)博士在一份声明中说。这个过程花费了很长时间,并且假设实验室拥有下载数据的带宽以及足够的存储和计算基础结构,以在拥有数据后就可以保存和分析数据。我们很高兴能在AWS上找到1000个基因组计划数据,以便为世界各地的研究人员提供一种访问数据的简单方法,以便他们可以将数据用于他们的研究中。
对于希望研究大规模人类遗传变异但缺乏计算机能力的世界各地的研究人员,将数据放入AWS云中提供了巨大的机会。理查德·德宾(Richard Durbin)博士说,该博士是“千人基因组计划”的共同主任,也是英国欣克斯顿的Welcome Trust Sanger研究所的人类遗传学联合负责人。
AWS表示,要让研究人员在自己的服务器上下载完整的1000个基因组计划,这将需要数周至数月的时间,这是假设他们有足够的带宽来下载数据以及足够的硬件和存储空间来保存数据。AWS官员说,为了对数据进行有意义的分析,研究人员经常需要访问非常大的高性能计算资源,这需要数十万美元,有时甚至数百万美元。NIH被选为“ 1000基因组计划”的数据协调员之一,它希望消除这种摩擦并使数据尽可能地易于访问,因此研究人员即使没有这样做,也可以立即开始分析和处理数据。 AWS说,这种级别的数据分析通常没有传统上所需的大量预算。
AWS上的公共数据集提供了存储在Amazon Simple Storage Service(Amazon S3)和Amazon Elastic Block Store(Amazon EBS)中的公共数据的集中存储库。然后,可以从AWS服务(例如Amazon Elastic Compute Cloud(Amazon EC2)和Amazon Elastic MapReduce(Amazon EMR))直接访问数据,从而无需组织内部移动数据,然后购买足够的技术基础架构来分析数据。 AWS表示,数据有效。
就AWS而言?高度可扩展的计算资源被用于为大数据和高性能计算应用程序提供动力,例如科学和研究中发现的那些应用程序。NASA的喷气推进实验室,纽约大学Langone医学中心,联合利华,Numerate,Sage Bionetworks和Ion Flux都是利用AWS进行科学发现和研究的组织。AWS正在免费向社区存储公共数据集。研究人员仅需为进一步处理或分析数据所需的其他AWS资源付费。
测序和出版第一个人类基因组花费了十多年的时间和数十亿美元。基因组测序技术的最新进展使研究人员能够通过更快地收集更多数据来应对1000个基因组之类的项目。Deepak Singh博士说 声明中还提到了Amazon Web Services的首席产品经理。
这就产生了对功能强大且即时可用的技术基础结构以分析数据的日益增长的需求。我们很高兴通过将其提供给任何可以访问Internet的人来帮助科学家访问此重要数据集。这意味着各种规模和预算的研究人员和实验室都可以访问完整的1000个Genomes项目数据,并且可以立即开始分析和处理数据,而无需通常需要在硬件,设施和人员上进行的投资。研究人员可以专注于促进科学发展,而不是为其研究提供所需的资源。
AWS说1000个基因组是“大数据”的典型例子。数据集变得如此庞大,以至于很少有研究人员能够利用自己的数据中心中的计算能力来分析和处理数据。然而,关键是1000个基因组数据将紧挨研究人员从数据中获取价值所需的计算能力。在短短几分钟内,科学家就可以提高处理庞大数据集所需的计算能力。AWS说,研究人员将只为进一步处理或分析数据所需的额外AWS资源付费。