大数据分析面临的挑战需要注意

财经2020-09-30 17:41:06
导读虽然数据收集和分析已经存在了几十年,但近年来大数据分析已经风靡商业世界。但是,它确实存在某些限制。在本文中

虽然数据收集和分析已经存在了几十年,但近年来大数据分析已经风靡商业世界。但是,它确实存在某些限制。在本文中,我们将讨论公司在不久的将来将面临的大数据分析挑战。

顾名思义,大数据在数量和业务复杂性方面都是巨大的。它有各种格式,例如结构化数据,半结构化数据和非结构化数据,以及各种数据源。大数据分析对于快速,可操作的洞察力非常有用。由于大数据分析基于各种参数和维度,因此确实存在一些挑战,包括:

在有限的时间内处理大量数据

清理数据并对其进行格式化以获得所需的有意义输出

以可视格式表示数据

使应用程序可扩展

选择适当的技术/工具进行分析

在更短的时间内处理大量数据

考虑到每天创建超过2.5个五分之一字节的数据,在有限的时间内处理大量数据是一项重大挑战。最重要的是,我们甚至无法命名创建数据的所有各种来源 - 数据源可以是传感器,社交媒体,基于交易的数据,蜂窝数据或任何其他无数来源。

为了有效地制定关键业务决策,我们需要拥有一个强大的IT基础架构,该架构应能够更快地读取数据并提供实时洞察。因此,我们看到的挑战是如何以成本和时间的方式从庞大的数量中提取数据的洞察力。

如果我们谈论处理复杂数据,首先想到的大数据工具是Apache Hadoop。在Hadoop中,我们有MapReduce,它能够将应用程序拆分为更小的片段。然后,每个片段在集群内的单个节点上执行。Hadoop具有许多方便的功能并且被广泛使用,但我们不能忽视这样一个事实,即组织需要一个具体的解决方案,该解决方案应该能够处理结构化和非结构化数据的阵列,同时允许最小的停机时间。除此之外,Hadoop还面临一些额外的挑战,包括:

IBM InfoSphere BigInsights基于Hadoop构建,能够满足这些关键业务需求。同时它还具有保持兼容性的能力。

清理和格式化数据以获得有意义的输出

数据清理是数据分析的一个组成部分。实际上,清理数据比执行任何统计分析更耗时。在进行统计数据分析时,数据必须通过以下五个步骤:

我们可以看到数据分析阶段的概述。每个框表示数据通过的一个阶段。前三个步骤属于数据清理机制,而后两个步骤属于数据分析。

原始数据 - 这是数据的来源。在这种状态下可能存在三个潜在问题:

数据可能没有适当的标题。

数据可能包含不正确的数据类型。

数据可能包含未知或不需要的字符编码。

技术上正确的数据 - 一旦原始数据被修改以消除上面列出的差异,它就被称为“技术上正确的数据”。

一致的数据 - 在此阶段,数据已准备好接触任何类型的统计分析,并可用作分析的起点。

统计结果和输出 - 获得统计结果后,可以存储它们以供重复使用。这些结果也可以格式化,以便它们可用于发布各种报告。

数据的可视化表示

以良好结构的格式表示数据,这对读者来说是可读和可理解的,这是至关重要的。处理非结构化数据然后以可视格式表示它可能是一项具有挑战性的工作,实现大数据的组织将在不久的将来面临这一挑战。为满足这种需要,可以使用不同类型的图形或表格来表示数据。

应用程序应该可扩展

鉴于数据量日益增加,组织面临的最大挑战是可扩展性因素。为了拥有可扩展的应用程序,我们预计在收集数据时会遇到以下挑战:

数据服务部署在多个技术堆栈上:

用于前端的Apache / PHP

使用编程语言(如Java或Scala)与数据库或前端进行交互

由于数据库和前端之间存在多个层(由不同的技术堆栈组成),因此遍历数据需要时间。因此,当应用程序尝试扩展时,性能会下降。作为解决方案,应该正确设计体系结构和技术堆栈,以避免性能问题并提高可伸缩性。

生产数据服务中应该有最小的延迟。当应用程序扩展时,每个请求的响应时间是主要问题之一。随着数据量的增加,必须通过在数据服务区域中实施最佳实践来正确处理延迟问题。

选择适当的数据分析工具或技术

无论我们收集和存储数据的方法如何,如果我们没有适当的分析工具,那么将这些工具放在适当的位置是没有用的。在选择数据分析工具时,我们需要格外小心。一旦我们完成工具,我们就不能轻易切换到另一个工具。因此,在选择分析工具时,我们应该考虑以下因素:

数据量

交易量

传统的数据管理和应用程序

结论

这里提到的挑战很容易预测,但是谁知道未来可能遇到的其他未预见的挑战呢?在处理大数据时,预测挑战并尝试计划可能出现的任何问题是个好主意。

免责声明:本文由用户上传,如有侵权请联系删除!