大数据筒仓是什么以及如何应对它们
大数据的时代给我们带来了大量新的方式来呈现信息和解决问题。在过去的几十年中,我们已经看到传统的大型机计算开始成为我们的IT系统可以聚合大量数据并使用它来为业务或政府目标以及其他目的提供关键见解的场景。
然而,在此过程中一直存在挑战和障碍,其中最大的一个是大数据孤岛。
如果您对大数据孤岛感到困惑,可以考虑一个物理孤岛:一个充满资源的金属塔,可以安全地锁定以防止篡改或未经授权的访问。
这就是技术世界中的一个孤岛,尽管它有点不同。
什么是大数据筒仓?
在数字世界中,数据的自由流动至关重要。数据是该系统的“生命线” - 任何架构的存在理由。数据以无限的新颖和引人注目的方式“提供给用户” - 但这一切都取决于相互联系。
当这种自由流动的数据因任何原因受到阻碍时,专业人士将其称为“数据孤岛”。
同样,数据被锁定远离一般使用或通用访问。它存在于某个地方,但它无法到达有用的地方。
回到以前的物理筒仓类比,大多数农场筒仓都有玉米或其他产品用于动物或人类饲料。但除非你能将它从筒仓搬到世界,否则没有人会吃那些东西 - 同样的原则也是大数据孤岛问题所固有的。解决方案是能够将数据移动到软件基础架构的隔离区域之外,以便可以将其用于其预期目的。
结构筒仓
就在几年前,我们中的许多人都认为大多数大数据孤岛都是结构性的。
这个想法是编程和设计不足以允许数据的自由流动。企业系统将大量数据“卡在”更大架构的角落,并需要中间件和特定解决方案将其拉出并将其运行到需要的位置。
IT世界最近在结构数据孤岛方面取得了很大进展,但我们也看到结构孤岛并不是唯一的问题。
请看2016年12月的哈佛商业评论文章 “打破数据孤岛”。作家Edd Wilder-James将主要类型的数据孤岛分为四类:结构,政治,增长和供应商锁定。这是开始讨论孤岛如何发生以及可以采取哪些措施的好方法。
政治数据孤岛
数据孤岛如何具有政治性,这对科技行业意味着什么?
我们询问了Friend的联合创始人兼首席技术架构师Hogne Titlestad,这是一个挪威出生的互联网操作系统,称其为“大技术孤岛的急需替代品”。
“今天计算面临的主要挑战之一是'大科技'公司正在创造更多的孤岛,”Titlestad说。“从这些大型企业中,我们已经看到政治进入软件项目,这意味着世界其他地方出现的许多混乱现在已经开始影响技术领域。”
Titlestad建议项目将在2019年看到更多此类活动,包括他所谓的“新兴软件技术和协作平台的收费,这些平台将通过提供与其中最好的功能和用户体验相媲美来挑战大型技术寡头垄断。”
他说,开源在更频繁地接管IT资源和政治数据孤岛的解决方案中起着重要作用 - 开放数据接口。
“随着互联网世代的成熟,个人必须开始利用在全球范围内运营的机会,将熟练的人聚集在一起,”Titlestad说。“凭借Github,Gitlab,Sourceforge和其他公司提供的如此出色的开源项目的背景目录,新的颠覆性应用程序肯定会出现在世界各地 - 建立在几十年过去的基础之上......其中一个个人可以做的重要事情就是继续表达他们对大技术的蔑视以及为追求利润而利用个人数据。“
供应商锁定数据孤岛
在某些方面,供应商锁定也可以与“政治”数据孤岛类别一起使用。
“软件供应商是最早知道数据访问权力的人之一,他们的策略可以挫败用户输出数据[包含]在应用程序中的愿望,”Wilders-James写道。“对于软件即服务应用程序而言,这尤其危险,因为供应商希望将您置于其云平台之内。供应商也努力创建以软件为中心的整个工作职能和职业道路。从这个世界的任何暗示可能会威胁到经过培训和认证的软件专业人员的生计。“(有些人通过雇用多人来避免供应商锁定。在10个关于多云数据管理的神话中了解更多信息。)
增长数据孤岛
除了这些类型的障碍,你还有Wilders-James和其他人称之为“增长”的孤岛。
“行政协调是整合数据孤岛的关键,”Adobe平台工程副总裁Anjul Bhambhri在1月12日对Techopedia进行了讲述,阐述了与业务规划相关的一些问题。“实现数据孤岛整合的最佳方式是首先实现业务成果的执行一致性。在同意业务成果之前解决数据整合的步骤就是把车推到马前。如果业务目标和结果不一致,那么很有可能在创建客户的整体观点时忽略标记,而不是为技术投资产生投资回报率。“
处理数据孤岛
通过查看以上类别的数据孤岛,您可以看到如何实际处理每个数据孤岛。公司可以更好地规划增长和可扩展性,确保供应商不会将数据作为人质,从寡头技术的角度开放接口,最后但同样重要的是,设计他们的系统,以便数据不会被卡在角落,或阁楼或地下室。这些是许多工程师和设计团队在尝试面向未来并防止数据孤岛妨碍业务功能时所拥有的行军命令。