免费的数据集存档帮助研究人员迅速找到大海捞针
假设你正在做一项需要数百万个地理标记的推特的研究。或者也许你是个记者想把2001年到现在芝加哥的谋杀案拍下来。您需要找到大型时空数据集-但在哪里?
虽然有数百个公开的数据集,定位它们可能需要几个月的搜索。当找到潜在的来源时,他们很少提供足够的信息供研究人员决定集合是否实际包含他们需要的那种数据,而不需要下载通常很大的文件并首先对其进行排序。
多亏了加州大学河滨分校(University of California,Riverside)的一位计算机科学家,现在找到正确的数据集就像给一个网站书签一样容易,而且它绝对不值钱。
Marlan和Rosemary Bourns工程学院的计算机科学助理教授Ahmed Eldawy和他的小组在过去三年里对互联网上的公共时空数据集进行了梳理,研究了它们的属性,并在交互式地图上总结了每组数据的结果,这些地图显示了用户的确切信息。
Eldawy说:“从事数据科学工作的人需要数据集,但可以花很多时间去寻找它们。”“我想建立一个他们能轻易找到的档案。”.
称为UCR时空活动存储库,或UCRSTA R,存档可作为一项服务提供给研究社区,以通过交互式探索接口提供对大型时空数据集的方便访问。用户可以搜索和过滤这些数据集,就像为他们的研究而购物一样,除了一切都是免费的。
埃尔达维说:“地图界面将数据可视化,这样你就可以看到它是否很适合。“这就像是数据集的目录。”
在UC R星的核心,地图为数据集提供了一个交互式的探索性接口。类似于谷歌地图或其他网络地图,用户可以放大、缩小和浏览,以快速了解数据的分布、覆盖范围和准确性。
一旦选择数据集,将显示重要的详细信息,如原始主页、原始下载源的链接、以字节为单位的大小、记录数量、文件格式和其他有用信息。子集下载功能允许用户在给定的地理区域内快速下载数据,减少了下载规模..他们还可以在网页上嵌入他们的定制视图,或者通过社交媒体共享链接,并将其书签,以便稍后重新访问。
UCR STAR包含102个数据集和50亿条记录。数据集是使用达芬奇映射的,达芬奇是一个开源框架,它建立在Apache Spark的基础上,Eldawy设计用于处理空间数据。UCRSTA R网站最好通过桌面浏览器访问,但也有一个有限的移动友好界面。