研究人员开发了新的开源系统来管理和共享复杂的数据集

金融2020-03-23 15:27:19
导读数据往往是科学的核心——研究人员跟踪速度,测量恒星发出的光,分析心率和胆固醇水平,扫描人类大脑寻找电脉冲。但是,通常情况下,与其他

数据往往是科学的核心——研究人员跟踪速度,测量恒星发出的光,分析心率和胆固醇水平,扫描人类大脑寻找电脉冲。

但是,通常情况下,与其他科学家——或同行评审的期刊编辑或资助人——共享这些数据是困难的。该软件可能是专有的,而且购买起来非常昂贵。要让一个人能够管理和理解软件可能需要多年的培训。或者,开发该软件的公司可能已经破产。

一个研究小组开发了一个开源数据管理系统,科学家们希望这个系统能解决所有这些问题。研究人员今天在《公共科学图书馆·综合》杂志上概述了他们的系统。

“我们想要创建一个文件格式和数据集模型,来封装我们在实验室所有仪器上处理的大部分数据集,”俄亥俄州立大学(Ohio State University)的化学教授、该论文的资深作者菲利普·格兰迪内蒂(Philip Grandinetti)说。“有一个长期存在的问题,在科学家中很普遍,你买了一个价值数百万美元的仪器,而制造这种仪器的公司有他们自己的专有格式,与其他人分享是一场噩梦。”

大型数据集很难共享,一方面是因为软件通常是专有的,另一方面是因为文件通常太大,很难通过电子邮件或基于云的服务器共享。即使可以将文件导出为可共享的文件类型,重要的元数据(解释数据集实际内容的内容)也常常丢失。

他们的系统被格兰迪内蒂和同事们命名为“核心科学数据模型”,旨在方便地共享复杂的数据集,没有占用大量带宽和硬盘空间的大文件,也不会丢失元数据。考虑一个包含气温、气压、风速和太阳通量的数据集——这个系统可以处理它。或者考虑来自遥远星系的一颗恒星的光的大小和颜色——这个系统可以处理。

“你需要一个非常灵活的数据集,它能够以一种文件格式保存所有这些东西而不丢失信息,”Grandinetti说。“所以我们的想法是,我们创建了一个模型,我们认为它足够灵活,可以做到这一点。”

俄亥俄州立大学的团队与丹麦奥尔胡斯大学(University of Aarhus)的托马斯·沃瑟加德(Thomas Vosegaard)教授和法国奥尔奥尔大学(University of Orleans)的多米尼克·马西奥特(Dominique Massiot)博士合作,开发了可以在Mac或PC机上运行的软件。他们将其上传到网上,并将代码开源(这意味着任何人都可以查看、使用并免费下载)。《公共科学图书馆·综合》杂志的出版是有意为之:任何人都可以免费获得这本杂志。

而且,研究人员希望,该系统能够成为一种简单、自由的方式,将多种类型的数据合并到一个地方。

“作为科学家,我们研究多个数据集,而作为一名科学家,我希望能够从所有这些文件中获取数据,并以一种我可以使用的方式把它们放在一起,”格兰迪内蒂团队的博士后研究员迪潘什·斯里瓦斯塔瓦(Deepansh Srivastava)说。

“如果我们可以简单地将数据导出为这种文件类型——作为核心科学数据文件类型——而不是寻找数据并从数据集中提取数据,那么我们将能够在一个公共系统中工作。”

免责声明:本文由用户上传,如有侵权请联系删除!