阿卡迪亚即时为KSQL流数据分析为大众
了解事物,实时地对真实事件做出反应,是一种自然的倾向。大多数人看他们的体育直播,大多数人也看他们的新闻直播。就像观看现场直播比等着按需观看更令人兴奋一样,许多人认为,最好的数据驱动洞见是在数据——尤其是来自物联网(IoT)的数据——生成时立即采取行动。
一个由流数据驱动的Arcadia仪表板
大数据静态/数据运动divideBut大多数查询机制是基于范例的检索一个子集的数据已经插入到一个数据库,类似于等待晚间新闻播出结束,然后等待下载,然后查看某一段或从本地硬盘的故事。
大多数分析工具,无论是可视化的还是其他的,也都是建立在这个框架之上的:用户将数据拖放到一个可视化的框架中,这些操作会生成一个SQL或MDX查询,返回已经存储在传统数据库中的数据子集。
与此同时,流数据的读取在很大程度上是基于某个引擎,在某个数据到达时触发某个代码段。因此,流数据处理一直基于命令式代码一次处理一行数据,而传统的查询和大多数BI工具则基于声明性代码处理整个数据集。
弥合技术上的这种差异通常被称为阻抗不匹配,这个名称在这里非常合适,因为这种不匹配确实阻碍了业务用户、分析师甚至企业开发人员的数据驱动洞察力。这也阻碍了他们从物联网技术中获益。
最近,各种流数据平台都实现了自己的SQL方言,用于处理尚未到来的数据。这些方言将数据流建模为数据库中的特殊表。从本质上说,查询在到达时就变成了经过筛选的数据视图。
支持开发人员;通过合并查询和流范式,熟悉SQL的开发人员可以更有效地处理流数据。但是,更有价值的部分可能是下游数据技术,如驱动程序/连接器和BI工具本身,也可以更有效地处理流数据。换句话说,通过使流数据处理符合传统的查询机制和语法,相关的数据查询工具和技术生态系统可以通过一些工程工作本身成为流数据工具。
Apache Kafka可以说是最流行的开源流数据平台,它添加了自己的SQL方言和接口,称为KSQL。去年8月,支持Kafka的主要商业实体Confluent在一篇博客文章中首次发布了KSQL,它的一般可用性上个月才发布。与其他类似方言一样,它要求开发人员适应查询的“结果集”将不断变化的思想。如果一个可视化分析工具也可以采用类似的方式,通过不断更新查询返回的可视化结果(而不是静态地呈现它们),它可以成为KSQL强大功能的下游受益者。
也读:Kafka得到SQL与KSQLAlso读:Hortonworks, Confluent和水线试图使大数据更容易
卡夫卡,KSQL和阿卡迪亚数据如何挂钩在一起
随着KSQL的Arcadia Instant的发布,一个分析供应商尝试对其产品进行这样的转换,并使其免费可用。虽然Arcadia Data上个月宣布了KSQL集成,但它仅限于自己的企业产品。今天,Arcadia宣布了与该产品的免费版本Arcadia Instant类似的集成。
虽然这降低了进入的巨大障碍,但对于KSQL来说,Arcadia Instant甚至走得更远——它让用户从一开始就克服了设置Kafka和KSQL的真正困难。Arcadia没有将KSQL功能局限于那些可以将Arcadia Instant连接到运行Kafka和KSQL集群的用户,而是创建了一个Docker容器映像,其中包括这两个容器,以及一个流数据源。
一旦这个容器映像(也是免费下载的)就位,用户就可以立即将Arcadia指向它,并在桌面计算机上测试其功能。Arcadia还创建了一个入门指南,帮助用户让一切运行起来。毕竟,大多数业务用户不是Docker的骑师。在您阅读这篇文章之前,所有三个组件(Arcadia Instant的更新版本、后端Docker映像和入门指南)都应该可以从单个Web页面获得。
除了在今天的发布中为业务用户提供的调整之外,他们和已经在使用Arcadia Enterprise的核心技术人员也得到了一些好处:Arcadia的KSQL集成现在增加了对复杂数据类型的支持,包括地图和数组数据。它还获得了一个全新的特性,称为时间偏差,允许用户指定流中数据的不同时间窗口。这进而允许查看最近的数据,并允许用户“暂停”和“重放”特定时间点的数据。
我(目前)还不能亲自担保这个解决方案,因为Arcadia Data在它发布之前就已经向我简要介绍过它,并允许我撰写相关文章。我很想下载并安装它。多年来我一直在说,流数据处理不会成为主流,除非开发人员和用户能够将其视为常规查询和分析的特例。如果Arcadia在这里成功了,你可以打赌其他供应商也会效仿。然后,也许数字转换和数据驱动的决策可以作为比理想的概念进行。