亚马逊如何利用数据湖解决大数据挑战

商业2020-07-23 15:28:39
导读 过去,杰夫•贝佐斯(Jeff Bezos)在自己的车库里处理订单,亲自把包裹送到邮局,计算成本

过去,杰夫•贝佐斯(Jeff Bezos)在自己的车库里处理订单,亲自把包裹送到邮局,计算成本、跟踪库存和预测未来需求相对简单。快进25年,亚马逊的零售业务在全球拥有超过175个物流中心,超过25万名全职员工每天运送数百万件商品。

亚马逊的全球金融运营团队有一项难以置信的任务,那就是跟踪所有这些数据(想想pb)。在亚马逊的范围内,一个计算错误的指标,如单位成本,或数据延迟会产生巨大的影响(想想数百万美元)。该团队一直在寻找更快获得更准确数据的方法。

这就是为什么在2019年,他们有了一个想法:建立一个数据湖,支持地球上最大的物流网络之一。它后来在内部被称为星系数据湖。银河数据湖于2019年建成,现在所有不同的团队都在努力将他们的数据转移到这里。

数据湖是一个集中的安全存储库,允许您在任何范围内存储、管理、发现和共享所有结构化和非结构化数据。数据湖不需要预定义的模式,因此您可以处理原始数据,而不必知道您将来可能希望探索什么样的见解。下图显示了数据湖的关键组件:

亚马逊在大数据方面面临的挑战与许多其他公司面临的挑战类似:数据竖井、难以分析不同的数据集、数据控制、数据安全以及整合机器学习。让我们仔细看看这些挑战,看看数据湖如何帮助解决这些问题。

公司选择创建数据湖的一个主要原因是打破数据筒仓。在不同的地方有不同的数据块,由不同的组控制,这从本质上掩盖了数据。这通常发生在公司快速发展和/或收购新业务的时候。以亚马逊为例,两者兼而有之。

为了在国际上迅速扩张并创建新的运输程序(例如,免费的当日送达或Amazon Fresh),大多数运营计划团队都控制着自己的数据和技术。因此,数据以不同的方式存储在不同的地方。这种方法允许每个团队解决问题,响应客户需求并更快地进行创新。

然而,在组织和公司层面上理解这些数据是比较困难的。它需要从许多不同的来源手工收集数据。由于有如此多的团队独立工作,我们失去了可以通过共同解决问题来实现的效率。

从数据中获取粒度细节也很困难,因为不是每个人都可以访问各种数据存储库。对于较小的查询,您可以共享电子表格中的数据片段。但当数据超出电子表格的处理能力时,挑战就来了,这在大公司里经常发生。在某些情况下,您可以共享更高级别的数据摘要,但是您实际上并没有得到全部信息。

数据湖通过将所有数据合并到一个中心位置来解决这个问题。团队可以继续作为灵活的单位发挥作用,但是所有的道路都通向数据湖进行分析。筒仓。

使用不同的系统和方法进行数据管理的另一个挑战是数据结构和信息各不相同。例如,Amazon Prime有配送中心和包装商品的数据,而Amazon Fresh有杂货店和食品的数据。

甚至航运项目也因国际而异。例如,不同的国家有时有不同的盒子大小和形状。还有越来越多的非结构化数据来自于“物联网”设备,比如配送中心机器上的传感器。

更重要的是,不同的系统也可能有相同类型的信息,但是它们的标记不同。例如,在欧洲,使用的术语是“单位成本”,但在北美,使用的术语是“单位成本”。“这两个术语的日期格式不同。在这种情况下,需要在两个标签之间建立链接,以便分析数据的人知道它指的是同一件事。

如果您想在没有数据湖的传统数据仓库中组合所有这些数据,就需要大量的数据准备和导出、转换和加载或ETL操作。你必须在保留什么和失去什么之间做出权衡,并不断地改变一个僵化系统的结构。

数据湖允许您以任何格式导入任意数量的数据,因为没有预定义的模式。你甚至可以实时摄取数据。您可以从多个数据源收集数据,并将其以原始格式移动到数据湖中。您还可以在标记不同但表示相同内容的信息之间建立链接。

将所有数据移动到数据湖还可以改进传统数据仓库的功能。您可以灵活地将高度结构化、频繁访问的数据存储在数据仓库中,同时还可以在数据湖存储中保持高达艾字节的结构化、半结构化和非结构化数据。

由于数据存储在如此多的位置,很难访问所有数据并链接到外部工具进行分析。亚马逊的运营财务数据分布在超过25个数据库中,区域团队创建自己的本地版本的数据集。对于某些人来说,这意味着超过25个访问管理凭证。许多数据库需要访问管理支持来执行更改配置文件或重置密码等操作。此外,必须对每个数据库进行审计和控制,以确保没有人有不适当的访问权限。

有了数据湖,在正确的时间将正确的数据提供给正确的人就更容易了。与管理存储数据的所有不同位置的访问不同,您只需担心一组凭证。数据湖具有允许授权用户查看、访问、处理或修改特定资产的控制。数据湖有助于防止未授权用户采取可能危及数据机密性和安全性的行动。

数据也以开放格式存储,这使得使用不同的分析服务更容易。开放格式还使数据更有可能与甚至还不存在的工具兼容。您组织中的各种角色,例如数据科学家、数据工程师、应用程序开发人员和业务分析师,可以使用他们选择的分析工具和框架访问数据。

简而言之,您并不局限于一小部分工具,更广泛的人群可以理解这些数据。

数据湖是机器学习和人工智能的强大基础),因为它们在大型、多样化的数据集中茁壮成长。机器学习使用从现有数据中学习的统计算法,这一过程称为训练,对新数据做出决策,这一过程称为推理。

在培训期间,识别数据中的模式和关系以构建模型。该模型允许您对它以前没有遇到过的数据进行智能决策。你拥有的数据越多,你就可以更好地训练你的机器学习模型,从而提高准确性。

亚马逊全球运营财务团队的最大职责之一是规划和预测亚马逊供应链的运营成本和资本支出,包括整个运输网络、数百个配送中心、分类中心、配送站、全食超市(Whole Foods)门店、新鲜取货点等。

它们有助于回答一些重要的高层问题,比如“明年我们将发运多少个包裹?”以及“我们将在工资上花多少钱?”他们也会提出非常具体的问题,比如“我们下个月在佛罗里达州坦帕市每种尺寸需要多少个盒子?”

你的预测越准确越好。如果你的估价过低或过高,就会对你的客户和你的底线产生负面影响。

例如,在亚马逊,如果我们预测需求过低,物流中心的仓库工人可能没有足够的供应,或者可能没有足够的司机,这可能会导致包裹延误,更多的客户服务电话,订单被取消和失去客户的信任。如果我们的预测过高,你可能会有库存和箱子在仓库里占用宝贵的空间。这种情况意味着高需求产品的空间更小。

大多数组织,比如亚马逊,花很多时间试图预测未来。幸运的是,机器学习可以改善预测。去年,亚马逊运营财务团队做了一个测试。他们选取了一部分预测数据,并将传统的手工流程与亚马逊预测(Amazon Forecast)进行了比较。亚马逊预测是一种完全托管的服务,使用机器学习来提供高度准确的预测。在这次试验中,由Forecast完成的预测平均比由手工流程完成的预测准确67%。

通过将所有数据移动到一个数据湖,Amazon的运营财务团队可以组合数据集来培训和部署更精确的模型。训练具有更多相关数据的机器学习模型可以提高预测的准确性。此外,它解放了那些手动执行这项任务的员工,让他们从事更具战略性的项目,比如分析预测,以推动该领域的运营改进。

亚马逊的零售业务使用了一些早于2006年亚马逊网络服务诞生之前的技术。为了提高可伸缩性、效率、性能和安全性,Amazon零售业务中的许多工作负载在过去十年中都转移到了AWS。星系数据湖是一个更大的大数据平台的关键组成部分,内部称为星系。下图展示了Galaxy依赖AWS的一些方式,以及它使用的一些AWS服务:

Galaxy数据湖是建立在Amazon的简单存储服务(S3)之上的,S3是一种对象存储服务。一些数据还存储在Amazon专有的基于文件的数据存储、Andes和弹性数据交换中,这两个都是Amazon S3之上的服务层。其他一些数据源是数据仓库Amazon Redshift、Amazon关系数据库服务(RDS)和企业应用程序。

AWS Glue是一种完全托管的ETL服务,可以方便地准备和加载数据进行分析,AWS数据库迁移服务(DMSare)用于将各种数据集装载到Amazon S3。Galaxy将来自多个服务的元数据资产(包括Amazon Redshift、Amazon RDS和AWS Glue数据目录)组合到一个统一的目录层中,该目录层构建在Amazon DynamoDB(键值和文档数据库)之上。亚马逊的Elasticsearch服务orestics用于在目录上实现更快的搜索查询。

在对数据进行编目或联机之后,将在客户端层使用各种服务。例如,Amazon Athena,一种交互式查询服务,用于使用标准SQL的特殊探索性查询;Amazon Redshift,提供结构化查询和报告的服务;还有亚马逊的SageMaker,用于机器学习。

亚马逊团队从头开始创建了银河数据湖架构。他们不得不花几个月的时间手工开发许多组件,这与其他公司过去不得不做的事情类似。在2019年8月,AWS发布了一项名为AWS Lake Formation的新服务。

它允许您简化数据湖的创建过程,并在几天内(而不是几个月)构建一个安全的数据湖。Lake Formation帮助您从数据库和对象存储中收集和编录数据,将数据移动到新的Amazon S3数据湖中,使用机器学习算法对数据进行清理和分类,并确保对敏感数据的访问。

通过将数据以基于开放标准的数据格式存储在统一的存储库中,数据湖允许您打破竖井,使用各种分析服务从数据中获得最大的见解,并随着时间的推移以成本效益的方式增加存储和数据处理需求。

对于亚马逊的金融运营团队来说,银河数据湖将为全球用户提供一体化的体验。银河的基础设施是在2019年建成的,现在各种数据库系统正在进入数据湖。使用该工具的团队现在已经看到了它的好处,比如取消了手工流程和笨拙的电子表格,提高了生产率,并有更多时间进行增值分析。

免责声明:本文由用户上传,如有侵权请联系删除!