数据目录与机器学习市场的成熟

资讯2020-08-28 08:04:19
导读这是大数据的时代。我们被信息所淹没,企业发现管理和从中提取价值是一项挑战。今天的大数据流不仅包括数量,种类和速度,还包括复杂性

这是大数据的时代。我们被信息所淹没,企业发现管理和从中提取价值是一项挑战。

今天的大数据流不仅包括数量,种类和速度,还包括复杂性。正如SAS在大数据历史和当前注意事项中所确定的那样,这是来自多个来源的流的一个因素,这使得难以跨系统链接,匹配,清理和转换数据。

寻找有价值的洞察力不仅仅是简单地积累尽可能多的数据,而是寻找正确的数据。通过手动流程完成所有工作是不可能的。这就是为什么越来越多的企业“转向数据目录以使数据访问民主化,使部落数据知识能够策划信息,应用数据策略以及快速激活所有数据以获取商业价值”。

这是数据目录(有时也称为信息目录)输入图片的地方。根据这里的定义,它们使“用户能够探索他们所需的数据源并理解所探索的数据源,同时帮助组织从他们目前的投资中获得更多价值。” 其中一种方法是通过在可以利用或贡献它的不同类型的用户之间实现更大的数据访问。

信息通用势在必行

注意到2017年底对数据目录的需求急剧增加,Gartner称他们为“新黑人”。它们被认为是一种快速而经济的解决方案,“对组织日益分散和混乱的数据资产进行盘点和分类,并映射其信息供应链。” 由于“infonomics”的兴起,出现了这种情况的必要性,“infonomics”要求对跟踪信息应用与管理其他业务资产相同的一丝不苟。(有关供应链的更多信息,请参阅机器学习如何提高供应链效率。)

Gartner 采用Forrester Wave™:机器学习数据目录,2018年第二季度。该报告中超过一半的调查参与者表示他们正计划建立他们的数据目录实施。可能他们的动机主要在于每个组织中至少有七个数据湖。正如Gartner对数据目录的解释所解释的那样,数据目录对于提取数据湖中未分类形式的“数据的上下文,含义和价值”特别有用。

Forrester报告称,超过三分之一的数据和分析决策者在2017年处理1,000TB或更多数据,一年前报告的数据仅为10%至14%。管理这种规模的数据是一项日益严峻的挑战,或者特别是两项挑战:

“1)将现有业务流程与源数据合并,以对其进行分析并实施洞察力; 2)在数据增长时采购,收集,管理和管理数据。”

哪些数据目录可以为企业做些什么

Gartner确定了数据目录可以改善组织信息流和生产力的具体方式:

整理和传达组织可用的最新信息资产清单。

创建业务术语的通用术语表,用于定义组织数据的语义解释和含义,从而提供调解和解决定义不一致的方法。

启用动态和敏捷的协作环境,使业务和IT同事能够评论,记录和共享数据。

通过沿袭和影响分析提供数据使用透明度。

监控,审计和跟踪数据,以支持信息治理流程。

捕获元数据以增强对数据使用和重用,查询优化和数据认证的内部分析。

通过捕获,通信和分析存在的数据,存在的位置,使用的上下文,需要的原因,流程与系统之间的流动方式,对此负责的人员,意味着什么,将业务使用中的信息内容化它有什么价值。

Gartner报告称,无法正确地确定组织中关键人员可以正确识别和访问数据,这不仅仅是为了找到“通过数字资产获取数字业务成果的方式”,而是为了遵守法规,无论他们是否为行业 - 具体如健康保险流通与责任法案(HIPAA)或更一般的性质,如通用数据保护法规(GDPR)。

添加机器学习

但没有什么是没有缺点的。对于数据目录,问题一直是手动构建它们所需的所有元数据所需的缓慢而繁琐的过程。这是机器学习组件的用武之地。

Forrester评估的数据目录称为MLDC,因为它们利用机器学习的能力,这是AI的一个组成部分。正如Podium Data博客所解释的那样,这可以“构建一个持久的元数据存储库,然后应用ML / AI来挖掘和揭示潜在的有用的数据资产洞察力。”

如何选择

为了帮助组织评估哪个企业应该选择,Forrester对前12个MLDC应用了29个评估点。它确定了这个市场的领导者:IBM,Relito,Unifi Software,Alation和Collibra。它发现的优秀表现者包括Informatica,Oracle,Waterline Data,Infogix,Cambridge Semantics和Cloudera。Hortonworks独自站在“竞争者”的位置。

但是,不应仅仅依靠整体排名。该报告确实打破了每个人的特殊优势和劣势。因此,如果一个特定的功能,如研究和开发,对于一个组织来说至关重要,它可能会认为Hortonworks在这方面与IBM和Colilbra相同,因为这三个人在这个方面的得分最高,比Alation和Coloudera好两分,比剑桥语义学好四分。

因此,Forrester报告建议那些使用其报告指导的人不要认为排名靠前的公司是每个人的最佳选择。他们应密切关注评估的细分,以找出符合其特定要求的内容。

免责声明:本文由用户上传,如有侵权请联系删除!