提示构建有效的AI生态系统

人工智能2020-08-24 18:44:44
导读 在业务用例和垂直行业中,工程师和领导者不断讨论人工智能可以带来的价值 - 通常,机会似乎无穷无尽。它可以预测您的兴趣,您认识的人

在业务用例和垂直行业中,工程师和领导者不断讨论人工智能可以带来的价值 - 通常,机会似乎无穷无尽。它可以预测您的兴趣,您认识的人或您的下一份工作。

但是,我们经常忽略大规模执行AI供电系统必须采取的步骤。在人才,计算资源和时间方面部署人工智能成本高昂,并且要充分释放人工智能承诺的创新浪潮,开发人员必须得到适当的授权和配备。事实上,成功实施AI所需的许多关键要素与算法细节关系不大,而且更多的是围绕它们的工具和流程。

其中一些工具和流程围绕标准化最常用的工作流程。这可以采用简单的形式,如列出常见功能的电子表格,或者像完整的AI开发人员平台那样复杂。当我们在LinkedIn上扩展我们的AI工作时,我们逐渐建立了后者,创建了我们的“生产机器学习”(简称“ Pro-ML ”)计划,以提高开发人员的工作效率和效率。

以下是我们通过这项工作积累的任何规模的组织的一些关键要点和提示。

清理数据,智能洞察力

部署AI的先决条件是彻底了解您的数据。AI模型的性能与其训练的数据有着内在的联系,因此了解您需要使用干净的数据非常重要。然后,在选择要用于培训的数据集时,与业务合作伙伴协作以了解最终业务目标是有帮助的。例如,如果您想通过新闻Feed“增加参与度”,您是否通过文章和帖子的点击率,或者对帖子的“赞”或评论来衡量?通过共同确定用于支持明确业务目标的最佳数据,您将设计出更有效的模型。

选择训练数据时要考虑的另一个因素是如何标记。数据是否有足够的上下文直接输入模型,还是需要注释?就后者而言,创建“代码簿”或“运行手册”非常重要,它为数据的分类方式设定了标准。我曾经与一个专家团队合作,寻求手工标记数据集,当我们评估成品时,我们意识到它们之间的协议率小于0.2。这意味着专家注释器完全不同意,并且没有理由期望对这些数据进行过培训的模型将表现得令人满意。如果专家无法就如何标记数据达成一致意见,那么期望拥有像CrowdFlower(现在的图八)这样的服务的注释器能够有效地进行标记是不现实的。

在LinkedIn的不同产品线中,不同的团队正在使用人工智能来解决不同的问题(优化饲料,确定招聘人员候选人的适合度,并为您的下一个职业行动建议课程,仅举几例)。每个团队使用不同的管道来生成其机器学习模型的所需功能,因为每个用例都是不同的。然而,在这些团队中,我们一次又一次地看到类似的功能,并决定必须简化流程。

我们创建了功能市场Frame,通过允许团队利用现有功能和知识来帮助解决此问题。Frame充当公共存储库,供团队共享,查找和管理各自机器学习模型的功能。它的关键创新是抽象一个特征如何从其名称和语义中锚定。这允许所有团队从相同的标准化功能模板开始,然后根据特定管道或环境的需要进一步定制。当团队处理不同类型的项目时,市场可以防止重复工作,节省时间和资源。

积极进行模型维护

模型会随着时间而退化; 它是机器学习生命周期中不可避免的一部分。我们通过积极主动的模型维护方法在LinkedIn上克服了这个问题。从一开始,当我们建立模型时,我们会以一种我们知道将使再培训更容易的方式这样做。我们创建和测试的模型不会被视为丢失实验,而是生产级质量,代码审查工件。这样,当重新训练模型的时候,我们有一个坚实的定义可以让训练变得更容易。

我们还参与“预定的再培训”,为我们重新培训模型时执行固定的时间表。这有助于消除建模团队的一些认知负担,并确保在模型完全停止工作之前发现任何模型缺陷。我们还投资了用于健康保障的绩效监测工具。虽然任何程度的监控都优于无,但是努力实现的一个好目标是进行自动监控,以便在某些指标超过预设阈值时发送警报。

实施人工智能部署可能只需要某些元素 - GPU,模型,数据等 - 但是在一个大规模的组织中成功实施AI需要一个强大的支持工具包,为开发人员提供支持。通过为开发人员提供围绕AI工作的最佳实践和工具,我们正在扩展我们以最佳方式应用AI的能力。

免责声明:本文由用户上传,如有侵权请联系删除!