关于在机器学习期刊中解释Hey Siri个性化
在Apple的《机器学习期刊》上的新帖子中,该公司解释了“ Hey Siri”语音激活功能背后的个性化工作原理,以减少误报次数。该期刊指向较早的条目,该条目描述了“ Hey Siri”检测器的一般技术方法和实现细节以及更一般的,独立于说话者的“关键短语检测”问题,并以此作为基础。最新论文重点介绍了苹果公司在开发基本的说话人识别系统中所采用的机器学习技术,以减少附近其他人触发的听起来像“嘿Siri”的误报的数量。
苹果在2014年的iPhone 6首次亮相时推出了“嘿Siri”,尽管该功能最初需要将iPhone连接到电源。直到一年后iPhone 6s首次亮相,“永远在线的Hey Siri”才问世,这要归功于新的低功耗协处理器,它可以提供连续的聆听而不会消耗大量电池。同时,该功能还通过添加新的“培训模式”在iOS 9中得到了进一步改进,以帮助在初始设置过程中使Siri适应特定iPhone用户的声音。
本文继续说明,“ Hey Siri”一词最初被选择为尽可能自然,并补充说,即使在引入该功能之前,Apple发现许多用户在使用了“ Hey Siri”之后自然会以“ Hey Siri”开始他们的Siri请求。主页按钮将其激活。但是,该短语的“简洁明了”是一把双刃剑,因为它也有可能导致更多的误报。正如Apple解释的那样,早期的实验表明,意外激活的数量过多,与正确调用的“合理速率”不成比例。因此,Apple的目标是利用机器学习技术来减少“错误接受”的数量,以确保Siri仅在主要用户说“嘿Siri,
苹果公司补充说,说话者识别技术的“总体目标”是通过语音确定一个人的身份,并提出了可能提供额外个性化甚至是身份验证的长期计划,尤其是考虑到苹果HomePod等多用户设备。目标是确定“谁在说话”,而不是简单地说出什么。本文继续说明“基于文本的说话者识别”之间的区别,其中识别基于已知短语(例如“ Hey Siri”),以及“文本无关”的说话人识别这一更具挑战性的任务,即识别用户而不管他们说什么。
也许最有趣的是,该期刊解释了Siri如何继续“隐式”训练自己以识别用户的声音,即使在明确的注册过程(要求用户在初始设置过程中说出五个不同的“ Hey Siri”短语)完成后也是如此。在初始设置之后,隐式过程将继续对Siri进行训练,方法是分析其他“ Hey Siri”请求并将其添加到用户的个人资料中,直到总共存储了40个样本(称为“扬声器矢量”)为止,其中包括原始的五个明确的培训过程。然后,使用此说话人向量集合将其与将来的“ Hey Siri”请求进行比较,以确定其有效性。苹果还注意到,每个发声波形的“ Hey Siri”部分也本地存储在iPhone上,因此,每当iOS更新中包含改进的转换时,就可以使用这些存储的波形来重建用户配置文件。本文还提出了一个不需要明确的注册步骤的未来,并且用户可以从空的配置文件中开始使用“ Hey Siri”功能,该功能会不断增长和更新。但是,目前看来,显式训练对于提供基线以确保以后的隐式训练的准确性很有必要。
考虑到苹果对隐私的态度,这并不奇怪,但仍然值得注意的是,所有这些计算和用户语音配置文件的存储仅发生在每个用户的iPhone上,而不是在苹果的任何服务器上进行,这表明此类配置文件当前未在设备。但是,随着Apple改进其演讲者识别技术,似乎合理的做法是,将来可以使用某些安全同步方法(例如iCloud钥匙串)来同步此数据,不仅跨iOS设备,而且还可以与诸如Apple HomePod之类的扬声器同步。 。