如何避免我们的AI痴迷于过度复杂的数据项目
在数据项目中,很多时候下意识的反应是“尽可能多地投掷AI”。
鉴于AI的承诺,这是可以理解的。但这值得我们退后一步,在匆忙前先考虑问题。为了有效地工作,必须以正确的方式将AI用于正确的应用程序。
您不会使用精密的激光来裁缝服装。它可以工作,但是会带来不必要的成本和风险,并且与剪刀相比没有任何实质性的改进。同样,您不应将复杂的AI用于可以简单解决的问题。
如果确实需要处理诸如自动驾驶汽车或Google的图像搜索之类的大量复杂数据,则复杂AI很有用。但通常不是。
根据我的经验,我看到了许多AI实例,因为它是可用的最强大的工具,而不是最合适的工具。充其量,这可能意味着浪费时间和金钱做一些本来可以更快,更便宜的事情。在最坏的情况下,这可能意味着项目失败或用户不信任的难以理解的系统。
AI复杂性/故障问题
AI应用程序不像传统的软件应用程序那样运行,传统的软件应用程序被编程为以某种方式对某些输入做出响应。AI会摄取数据并了解其中的关系。更高的复杂性意味着更多的困惑和失败机会。
常见的情况如下:组织有大量来自机器的传感器数据-振动,温度,运动等。它希望使用它来预测机器何时可能发生故障。它构建了一个神经网络来处理这些复杂的数据集,将其输入并了解哪些传感器测量组合与即将发生的故障相关。这可能是一个很好的方法,但是这种想法的问题在于,它错过了寻找可能更好的解决方案的机会。
每个问题的复杂程度不同,关键是使机器学习解决方案的复杂性与问题的复杂性相匹配。学习过机器学习的任何人都将熟悉问题复杂性,模型复杂性和模型错误之间的权衡。
有时候,复杂的AI是正确的选择。例如,图像识别或自然语言通常具有太多的复杂数据,无法简单地做事。Google的图片搜索效果不错,但任何搜索都将很快开始显示超出我们预期范围的内容。我们可能会接受以下观点:在寻找购物灵感时,而不是在发现需要立即关闭机器的情况时才接受。
绝大多数问题并不那么复杂。“大量数据”与“大量复杂性”不同。更好的方法是“大量相关数据”。通常,解决当前问题所需的数据仅来自几个传感器。如果我们花时间识别那些关键数据集,我们可能会找到一个更准确,更健壮的解决方案,其中包含可以快速构建的简单模型。