将身份认同理论应用于数据管理

科技2020-11-13 18:36:08
导读如果你更换了锤子的头部和手柄,它会是同一个锤子吗?这个古老的思想实验可以追溯到古希腊的哲学家,它揭示了身份与变化之间的矛盾关系。

如果你更换了锤子的头部和手柄,它会是同一个锤子吗?这个古老的思想实验可以追溯到古希腊的哲学家,它揭示了身份与变化之间的矛盾关系。在保留其身份的同时,某些事情能够改变的程度和程度如何将身份认同理论应用于数据管理这种悖论的解决方案对于实体分析至关重要,实体分析是将信息链接起来以揭示人员,对象,事件和其他有价值的业务和治理内容的科学。这是许多人认为是“ 大数据 ” 愿景的体现- 通过统一来自许多来源的数据,可以从整体上探索事物的集体知识。

实体分析需要能够跟踪事物身份随时间的变化。否则,数据将面临过时或更糟的腐败风险。随着事情的变化,它们与历史记录的链接可能会中断,从而无法确定在不同时间记录的事物是否实际上是相同的。

这个问题的最初解决方案是关系建模 - 用任意固定标识符识别称为“键”的东西,然后通过键引用事物。但仅靠密钥无法满足实体分析。密钥必须属于托管密钥空间。合并来自两个或多个密钥空间的数据时会产生冲突。业务单位和第三方数据提供商(如经销商,分销商,公共记录聚合器或社交媒体服务)都对同一事物有不同的表示。此外,随着非规范化成为可扩展性的基本设计,密钥的使用已经减少。

在企业数据的世界中,身份分散,混乱并且总是在变化。锤子的悖论仍然是一个诅咒。

我为这个悖论提供了一个实用的解决方案:身份作为历史。身份是实体随时间变化的谱系,而不是实体在某个时间点的状态。实体的属性被真实地表示为不可变事件,而不是可变属性,表示实体的变化或缺乏。这些事件的集合揭示了整个实体的身份。让我们探讨这个理论,然后讨论它在数据管理和实体分析中的应用。

理论

一切都有一个能够改变的身份。一个人可以改变姓名,地址,关系或面部结构。一个移动设备可以更改电话号码,IP地址或SIM卡。但即使改变了它的每一个描述属性,所讨论的东西的自我认同也会持久。保持不变的是那件事的变化历史。身份作为实体随时间的变化谱系存在,而不是单个时间点的实体状态。

身份的人

那么什么是实体?什么东西的本质是什么呢?如果没有什么可以识别的话,那么身份是什么?这是无益的思考。它欢迎一堆乱七八糟的概念解构,在这种解构中,事物被分开,以至于没有任何东西可以描述,更不用说是有用的了。实体是一个具有实际目的的概念,我们可以在不进一步解构的情况下感知它。例如,人的概念很容易被察觉,并且在商业和治理中具有明确的用途。而一个人的身份是我们可以归因于我们认为是一个独特的人的事物的变化的历史。

所以,如果你更换了锤子的头部和手柄,它会是同一个锤子吗?根据这个解决方案,它取决于你是否可以追踪锤子的变化谱系。通过顺序更换头部和手柄,您可以将新部件与旧部件相关联,从而保留锤子的特性。通过丢弃头部和手柄并立即更换两者,您已经构建了一个具有自己特性的新锤子。

实践

锤子的身份似乎很容易跟踪。什么是追踪更复杂事物身份的最佳方式 - 比如一个人?

让我们看看如何将这种“身份作为历史”理论应用于数据管理。考虑这两种设计选择。第一个假定具有单个托管密钥空间的环境。第二个假设许多冲突的密钥空间。两者都可以在同一数据管理策略中共存。

1.将属性表示为状态更改。

模式通常一维地表示属性。没有时间的背景。更新记录时,新值会覆盖旧值。这种设计打破了身份的血统,消除了其宝贵的历史。引用旧身份细节的记录可能会失去参照完整性,使得无法将它们与现在存在的事物联系起来。

您想要的是指示实体状态更改的事件的时间轴。将属性视为在某个时间点确实存在的事实。今天我可以如实地写道,“戴夫住在研究三角。”但这个事实可能会过期。永远是真实的是写下来,“戴夫在2016年2月1日住在研究三角区。”这个事实永远铭刻在我的历史中 - 我的身份。它总会形容我。

将属性与实体分离,并将属性与其值分离。将属性与一对多关系中的值相关联。将值表示为在一个时间点描述实体属性的不可变事实事件,而不是仅在当前实体中作为实体的可变属性。让每个事实事件回答这些问题:

哪个实体改变了?

哪个属性改变了?

旧的价值是什么?

什么是新价值?

什么时候发生变化?

根据需要将此模型调整为您的数据架构。但要记住这个原则:属性是一个事实,表示某个时刻某个实体的状态变化。

2.通过实体解析推断状态变化。

前一种方法假设一个完美的数据治理世界。在这个世界上,部门领导者就如何定义和管理数据以及如何实施变革达成一致。数据管理员遵循明确的准入和管理政策。他们知道哪些更改适用于哪些记录。他们一贯行动,没有错误。这个完美的世界享有值得信赖的“单一版本的真相”,只需一个托管密钥空间。随着时间的推移,对组织至关重要的事物的身份将在数据中得到充分体现。

现实从未如此理想。政治,政策,错误和其他人为因素导致混乱数据的封闭孤岛。业务部门最终以不同方式表示相同的信息。从外部世界引入的数据引入了其他表示。对更广泛的组织至关重要的事物的身份变得越来越分散和不连贯。这是实体分析的最大障碍。没有完整的历史血统,你无法解决锤子的悖论。

从不同的数据重建身份需要一种称为实体解析的数据集成的专门方法 - 即使具有相同实体的不等表示,也链接表示同一实体的记录的过程。我们的想法是获取一对记录,确定它们是否类似于同一个实体,如果它们相同则链接它们,并重复每对记录。实体的身份,包括对实体的所有已知变化,在其记录的链接中变得明显。

有效的实体解决系统将迅速揭示对组织至关重要的事物的完整身份。当有关实体的信息分散在大型,多样和无人值守的数据集中时,这对于执行实体分析至关重要。它使您可以自由地分析整个组织中存在的实体的全部范围和历史,而不必违背权力下放和人为错误的现实。

如果您管理大型企业的数据并且可以看到实体分析的价值,那么我建议您认真考虑一下Novetta Entity Analytics。该软件解决了大型,多样化和无人值守数据的身份和变化问题 - 最初是针对国家安全问题,现在适用于Hadoop上的每个人。它是我发现的唯一一个提供通用实体解析框架的软件,它可以在几小时内匹配十亿条记录。

我会留下一些最后的想法。想想你是如何随着时间的推移而改变的。想想每个人和生活中一切的逐渐演变。现在想想拥有一切对你来说至关重要的完整历史是多么有用。这就是实体分析的力量,这就是为什么你应该关心锤子的悖论。

免责声明:本文由用户上传,如有侵权请联系删除!