人工智能要想成功电脑说不就得死
“电脑说不”是《小不列颠》的笑点,它模仿了最糟糕的客户服务,由一个愚蠢的终端提供帮助和支持。我们也有过类似的遭遇,大家都面带笑容。
然而,随着越来越多的服务实现自动化,“电脑说不”可能意味着在没有任何解释的情况下,工作、抵押贷款甚至医疗服务都会被拒绝。不是闹着玩的。
所有数据科学家(包括我自己)都有责任确保用于训练AI/ML模型的数据集是准确、完整和无偏的。除此之外,我们还要确保算法所使用的因素对受影响的人是透明的。
随着越来越多的政府、医疗和司法系统实现自动化,我预计我们将看到一种向可解释的人工智能的转变,其驱动因素是消费者对支持自动决策的算法的警惕。我们已经看到一个这样的例子,即Foxglove组织对英国政府的签证申请算法发起的挑战。Foxglove是一个旨在促进科技行业道德规范的游说团体。
我预见组织将引入AI治理,或者一种标准化的透明度水平,它将概述出AI算法如何产生决策或预测的因素和途径。随着自动化成为常态,掩盖人工智能的组织可能会失去那些提供透明度的客户。
然而,消费者可能不会要求产品推荐系统具有与医疗诊断系统相同的透明度,或者自动驾驶汽车的实时决策逻辑。
总结的结果CCS Insight的IT决策者工作技术2019年调查,分析师Nick McQuire写道,“人工智能系统的能力,以确保数据的安全性和隐私,和系统如何工作的透明度和训练,现在是两个最重要的需求当投资于机器学习技术。”
对于某些应用程序,例如医疗诊断,我认为能够解释算法背后的逻辑将是一个优势。对于其他领域,区别在于应用程序的运行时间、使用新数据对数据集进行调优和重新学习的频率,以及诸如准确性、真阳性和假阴性等成功度量。
数据集中的偏差和方差是反映现实世界应用程序的常见挑战。例如,汽车保险公司在非洲国家的政策/保费自动化应用方面受到挑战,在这些国家,道路基础设施的差异可能导致好司机因路面差而受到惩罚。这符合分类偏差的范围,对数据科学家来说,这是一个与设计相关的挑战。
为了克服数据模型中的偏见,第一个建议是使用机器学习算法或统计学习方法,而不是深度学习。通常情况下,机器学习方法是特征提取器,当数据集很小或有绝对偏差时非常适合使用。然而,深度学习算法需要一个更大的分类一致的数据集。
第二条建议是增加数据集,这样就可以人为地创建类别以获得统一的数据集。然而,从经验来看,扩展只适用于特定类型的用例——如果设计得不好,可能会对学习过程产生负面影响。
我预见了自动化数据清理、数据分析和预测分析的需求,以使企业用户和消费者能够信任提供给人工智能模型的数据。
使用人工智能来掌握或清理数据需要主题专家来验证预测决策。在我看来,为预测结果提供透明性的最佳方法是显示AI管道和有助于达到预测最终状态的有影响力的数据点或数据属性。这可以以图形或图像的形式显示为可视的关键性能指示器。
深度学习假设算法不一定提供真理,而是解释了准确性的水平,其中每一层提取一个抽象的输入数据,所以深度学习算法中的每一层都有自己的功能,它会扭曲最终的预测决策。算法被设计来“衡量”数据点,并提出一个灵活的函数(如果你愿意),可以适应新的数据点。由此产生的预测是一种可能,它来自于对不同数据点的组合和因式分解。
拥有干净、最新、相关、高质量的数据更有可能产生有效的预测。
我们在人工智能领域观察到的是,组织正在投入大量的时间和金钱,使人工智能更容易被消费者中的不同角色访问。随着我们不断提高人工智能的粘性和投资回报率,我们将开始更多地关注人工智能提出的自动化和前瞻性建议(即指令性分析)。随后,可解释的人工智能将提供一定程度的透明度,说明预测决策是如何产生的。
组织可以采取一些策略,在不暴露其知识产权的情况下,显示达到可预测的最终状态的透明度水平。大多数消费者不一定需要看到AI算法的设计(这是组织的知识产权),而是需要对预测决策是如何产生的基本理解(如链接分析)。
我相信,对于消费者来说,首先了解哪些输入参数影响了预测的决策,其次了解哪些数据点或属性的组合产生了更高的预测决策的可能性,这将是更有益的。
如今,“黑盒逻辑”可能会成为组织面临的主要挑战之一,因为它们要努力解决使用人工智能和机器学习的自动化过程。
自动化对任何组织都是有益的,但我认为,鉴于人工智能模型的当前成熟度,人工智能需要掌控,而且必须始终将主题放在等式的中心。我的建议是使用人工智能进行建议和推荐,并让主题专家验证人工智能算法的结果。
这种策略的好处是,算法暴露在更大的数据集中,从而巩固了它的知识库,随着时间的推移,它将尝试模仿主题专家的响应,从而获得更高的准确性。