保持敏捷数据驱动的IT操作
您得到了敏捷应用程序开发方法,以及DevOps、持续集成和发布。您得到了裸金属和虚拟化、私有、混合和公共云的组合。
太好了。如果你做对了,你的应用程序开发周期是快速的和适应性的,这意味着上市的时间是短的,你的部署选项是灵活的和有弹性的,这意味着你可以有效地准备。
集成混合云
随着云计算在企业中嵌入的越来越远、越来越快,仍然存在许多抗云计算的应用程序和服务。
其反面是复杂性和不透明性。这意味着您拥有一个包含许多移动部件的polyglot开发环境,以及大量异构测试和部署环境,其中包含许多不断重新配置的虚拟化层。
那么如何跟踪端到端IT操作呢?通过使用多种监控解决方案:应用程序性能管理、Ops和网络管理等等。
问题是,这些解决方案中的每一个,不管它的功能有多强大,都只给你提供了更大的图景的一部分,并存在于它自己的竖井中。如果你想知道最新的修复应用程序服务器利用率的影响,或了解瓶颈导致停机时间发生,你带着笔记本电脑需要一群人在一个房间里,把他们的集体数据和大脑以一种特别的方式工作。
这就是OpsDataStore发现并要解决的问题。
敏捷性也意味着复杂性。您如何监控您的enb-to-end IT操作?图片:OpsDataStore
OpsDataStore的创始人、绩效管理行业的资深人士贝恩德•哈佐格(Bernd Harzog)处于理想的位置,能够识别问题并采取行动。2004年,Harzog向Citrix公司建立并出售了一个绩效管理解决方案,随后的几年里,他一直在瑞银和瑞士信贷等机构担任绩效管理(PM)顾问。
Harzog精通New Relic、AppDynamics和Dynatrace等解决方案,并帮助客户根据自己的需求选择最佳解决方案,设置并充分利用它们。Harzog没有获得认证——他与大多数PM供应商有非公开协议(NDAs),因为他对他们的产品了如指掌。
用他自己的话说,他“可能是世界上唯一一个知道所有这些竞争对手在做什么,以及他们是如何做的人。”
然而,当事情出错时,就像他们经常做的那样,即使对哈尔佐格来说,修复它们也不是一件容易的事。由于每个PM解决方案都只关注堆栈的一部分,而且其中许多还相互竞争,因此集成根本就不存在。这正是Harzog决定使用OpsDataStore解决的问题,它制定并实现了一个策略来处理每个相关的挑战。
挑战#1:巨大的空间。尽管供应商努力尽可能地扩展他们的产品(Cisco收购AppDynamics是最新的例子),从应用程序开发到基础设施和网络监控的IT操作堆栈是巨大的。
OpsDataStore很早就断定,试图覆盖所有数据是没有意义的。相反,他们所做的是与尽可能多的玩家达成协议,以便能够收集并整合他们的数据和指标。
挑战#2:供应商访问。这个领域的一些供应商,比如AppDynamics,对他们的指标是开放的,甚至有第三方可以使用的文档化api。其他的是神秘的,因此需要特殊的许可和伙伴关系,以便与他们一起工作。
Harzog在这一领域的声誉和关系无疑对OpsDataStore有帮助,因此OpsDataStore与许多关键公司进行了合作。
挑战#3:大数据。OpsDataStore需要做的事情听起来就像一个标准的大数据场景:从各种来源获取、集成和重用数据。这并不简单,但是OpsDataStore能够组织正确的团队来实现这一点。
数据从所有来源收集,并保存在OpsDataStore的平台上,用户可以使用SQL查询、通过Kafka消费或通过Birst、Qlik或Tableau中的可定制仪表板进行探索。
Harzog很清楚:“我们不是监控供应商,我们是集成供应商。如果你问为什么是我们,答案很简单:我们是唯一拥有正确商业模式、供应商关系和平台的公司。”
用新的实例和关系更新自身的图形对象模型?在处理混乱的数据集成环境时,这是有帮助的。图片:OpsDataStore
撇开业务战略不谈,OpsDataStore在底层的工作方式有什么特别之处吗?OpsDataStore构建在Cassandra、Spark、Kafka、AKKA和EXASOL之上。OpsDataStore有一个服务提供者接口(SPI),用于集成来自与之合作的供应商的原始数据和指标。在处理如此多的数据源和数据时,模式和API的演化是一个需要认真考虑的问题。
OpsDataStore本身就在与少数几个供应商进行集成,它的中长期策略是利用它的成功来激励供应商自己承担至少一部分集成工作。
“我们只是告诉他们,我们可以在一年内完成,或者你们可以在更短的时间内自己完成,”Harzog说。获得SPI,插入,获得OpsDataStore的检查和认证,使用程序。
但这只是解决方案的一部分。另一部分是OpsDataStore高度复杂的、正在申请专利的图形对象数据模型。该模型能够每五分钟实时更新OpsDataStore连接到的所有源的实体和关系。
哈尔佐格对此尤其感到自豪,理由也很充分:“我们自动地、持续地、动态地、决定论地这样做——不涉及任何统计数据。没有其他人这么做。”
OpsDataStore还使用统计方法自动计算每个度量状态的日时间和周时间基线。“如果你愿意,你可以把这称为机器学习,尽管我们目前不做预测,”哈尔佐格说。这个想法再次让用户能够使用来自OpsDataStore的数据,并在需要时在自己的应用程序中提供数据。
那么语义层的集成呢?OpsDataStore采取中间路线:“我们简单地标记所有指标来跟踪来源。所以,如果英特尔和VMware对服务器的利用率有不同的定义——实际上它们确实有——我们对此不做任何事,我们只是保留信息,让用户决定如何处理这些信息,”Harzog解释道。
OpsDataStore最近发布了最新版本1.2,提供了一个令人印象深刻的新特性:自动根源检测。“没有人能够将应用程序和事务行为与基础设施行为联系起来,如果不是因为其他原因,仅仅是因为之前没有人能够访问所有这些数据。是的,所以我们可以提供这个。您现在可以做一些事情,比如定义利用率警报并将它们与度量警报关联起来,”Harzog说。
OpsDataStore承诺,自动的根本原因识别不再是白日梦。图片:OpsDataStore
那么,OpsDataStore是惟一的吗?“我们唯一真正的竞争对手是人们和组织传统上做事的方式,”Harzog说。看来他是对的。OpsDataStore成立仅两年,员工总数为10人,它的成就令人印象深刻:与英特尔(Intel)和VMware等关键企业建立了合作关系,与Navis等客户建立了合作关系。
Navis是Cargotec公司的一部分,提供管理货物通过终端的移动的技术,是OpsDataStore目前针对的客户类型的代表:“拥有5000台以上服务器的任何人。”这也决定了OpsDataStore的一些技术决策——最重要的是,它缺乏对Mesos和公共云的支持。
“我们的客户没有足够的需求,”Harzog解释道。“Mesos可能非常受欢迎,我们也在内部使用它,但不是在我们的客户群中。公共云也是如此:我们与客户有直接的联系,而此时他们并不信任公共云来运行他们的业务。他们只是不喜欢。因为他们不相信他们可以从公共云获得他们需要的可靠性和性能。
但是我们支持私有云、协同定位和混合云。随着事情的发展,我们将会跟上。我们已经在与客户讨论,他们将通过云爆发、多云策略将部分工作负载转移到公共云,我们将在这种情况下支持他们。我们的目标是让他们始终能够看到整体的情况。”