K代表知识 使用元数据和知识图进行应用程序和数据集成

人工智能2020-07-23 12:41:04
导读首先,您可以获得软件:操作系统、搜索引擎、浏览器和社交网络。然后,你得到了硬件:手机

首先,您可以获得软件:操作系统、搜索引擎、浏览器和社交网络。然后,你得到了硬件:手机,数据中心,云。然后,你就可以在广告、媒体、医疗保健、自动驾驶汽车、银行等领域逐步拓展立足点。在这一过程中,大科技成功地积累了金钱和权力,在数据驱动的文化和产品上建立了无情的效率。这种给企业灌输的敬畏已经被流行文化中提到的一个名为“红色婚礼”的权力游戏系列节目所俘获。在该系列中,“红色婚礼”指的是一场大屠杀。这个比喻被用来描述AWS公告对软件企业的影响,这些企业看到AWS进入他们的地盘。软件业务一直是第一个感觉到大科技的效果,但它看起来不会是最后一个。今天,每个企业都是一个技术企业,从它运行在技术上的意义上说。然而,与大科技不同的是,大多数企业都有剩余的遗留系统和技术人才的短缺。这使得现代化的风险和成本都很高。大多数企业不能负担多年来建立起来的系统。架构可能已经过时,但业务逻辑已经尝试并且是真实的。

那么,企业要做什么呢?坐等被打乱,投入巨资进行现代化建设,试图超越科技大科技?这些听起来都不是一个很好的解决方案。但赢得这场战斗可能还有另一个选择。首先也是最重要的,每个企业都需要通过利用其竞争优势成为自己的最佳版本:领域业务知识。这是欧洲最具前瞻性的事件之一“大事会议”中最重要的收获。我们过去曾提到过从大数据到人工智能的道路,这也是基于会议上的观察。今年,这项活动本身沿着这条道路发展,更名为“大事情”,并为来自大小组织的众多发言者提供了舞台。正如谷歌首席决策科学家卡西·科济科夫(Cassie Kozyrkov)所指出的那样,谷歌也是其中之一。科济尔科夫为如何利用机器学习进行数据驱动决策提供了一个极好的蓝图。提出的许多观点之一是,没有可信的数据,这是不可能的。没有可信的数据意味着没有数据驱动的决策,这意味着没有效率。

机器学习就是关于数据的。垃圾数据意味着垃圾洞察力。(图片来源:Cassie Kozyrkov/Google)

换句话说,如果你的数据一团糟,那就会毁掉你的生意。这是奥斯卡·门德斯主旨演讲的起点。门德斯是Stratio的首席执行官和联合创始人,他将可信数据定义为干净、安全、准确、有组织、有明确定义的来源和明确的访问指南的数据。正如门德斯所说,大科技监控交互,收集数据,并一直学习一些东西。大多数其他企业不这么做。但这超出了冷启动问题。许多企业已经开始收集数据,遗留系统也是巨大的数据库。但是如何从零到可信数据呢??数据治理是答案的一部分。数据谱系、访问控制和元数据丰富等东西属于数据治理的范畴。在这方面,听取GDP R唤醒呼吁并建立数据治理进程和系统的企业应该已经能够更好地处理这些问题。

门德斯认为,另一个答案是虚拟化。有了一系列系统,每个系统都以自己的格式生成数据,并将其存储在自己的筒仓中,企业怎么可能希望有一个整体的、综合的画面?门德斯提出的解决方案结合了数据目录和虚拟化来创建所谓的可信数据结构。这意味着数据停留在原地,并通过Fabric层访问它,利用数据目录指向潜在的记录系统。

这种概念架构在必要时不排除实际的数据移动。然而,缺少了一些东西:数据的意义或语义。通常,基础数据的含义定义不清或完全缺失。直到最近,应用程序开发一直是业务的主要关注点,而数据并不是一等公民。结合企业中典型的流失和项目交付环境,这导致了记录数据的偷工减料。这反过来又导致不知道您的数据在哪里,它意味着什么,以及它如何映射到彼此和业务概念。门德斯也有一些建议来纠正这一点:本体论。

你不能超过高科技技术。但你可以在你的特定业务领域中不了解它们。(图片来源:Oscar Mendez/Stratio)

他的论点令人信服.CDO,数据管理人员,商业用户,他们都需要投入大量的精力来编目数据.手动这样做容易出错,而且不会缩放。此外,通常情况下,当工作完成时,它必须重新开始,因为数据景观已经改变。为什么不把大部分的努力投入一次,并重用它?根据Mendez的说法,最可重用和最复杂的方法是使用业务术语并构建一个捕捉业务领域和专业知识的本体。因此,可以创建业务术语的正式定义,然后可以用于匹配、机器学习和其他目的。在数据中添加语义可以起到很大的作用。本体是以可重用的方式捕获数据意义和关系的数字工件。您可以将它们视为类固醇上的数据模式,从而带来一系列高级功能。对于一个相对简单,但功能强大且应用广泛的本体的例子,您可以查看sche ma.org,该or g用于对web及以外的内容进行分类..

门德斯分享了演示和用例,说明Stratio如何在生产中使用它来自动化数据映射,以及机器学习的特征选择。他提到了金融业的一位客户,Stratio利用这种方法开发了一种在25%的时间和20%的最初估计成本中在世界范围内发布的产品。门德斯并不是唯一一个传福音的人。摩根士丹利(Morgan Stanley)等公司的高管正意识到本体论方法的好处。在他的著作《软件荒原》(Software Wasteland)中,业内资深人士戴夫·麦康布(Dave McComb)指出,“毛球”的整合如何通过企业隐藏而不是隐藏的成本带来效率低下,并倡导采取类似的方法。为了借鉴更多来自大型会议的材料:Derwen的Paco Nathan在他关于数据治理的演讲中提到了Lyft、Linked In、We Work和Uber等组织。这些组织不仅采纳了元数据和基于知识的方法,而且还发布了开放源码框架,以促进这一点。在商业供应商方面:Gartner刚刚发布了最新的Magic Quadantfor Metadata管理解决方案。第一次,包含了两个利用这种方法的供应商(data.world和语义网公司)。正如McComb这本书的评审员所说:这并不是一个真正的问题,更多的是关于何时发生的问题。

如何解决应用和数据集成问题?通过利用虚拟化、元数据、数据目录、本体。


我们自己已经广泛地使用和写了这些技术,我们觉得在这里有一个最后的观点。在《大事情》中,就像过去几年里几乎到处都是一样,“知识图”一词被广泛使用。举几个例子,CaixaBank和Intel介绍了相关工作。最初,知识图和本体论是近义词。但是,就像所有炒作的术语一样,你可以期望知识图这个词会被使用得令人恶心,直到它变得毫无意义。最近,该术语也被扩展到包括非本体论方法,使用属性图的名称。这些都是相关的,它们确实有好处。然而,它们的好处在这一点上有些不同。例如,数据集成和虚拟化不一定是它们的最强点。再次,McComb概述了属性图和知识图之间的一些区别。在广义笔画中,性质图更适合于分析。知识图更适合整合..有一个持续的努力,以统一属性图和知识图,我们希望看到它的结果。但是,在发生这种情况之前,如果您想从基于知识的应用程序开发方法中获益,请确保为您的用例选择最合适的工具。

免责声明:本文由用户上传,如有侵权请联系删除!