像苹果Siri另另一个的自己助理进行 完全语言命令来已任务中中。我们我们 ,它我们我们底层组件一般说来说来依赖于监督机器来学习算法 ,某些算法去帮助少量手工注释的训练表现数据。为此会增加收集某些表现数据的时间时和精力 ,苹果的研究成果人员开发了另另一个框架 ,进行 现有用户参与其中下的信号 ,来自美国动创建整体不断提升表现数据的标签。她我们我们报告中他称 ,当用到于譬如多任务中来学习和外部知识库验证等策略时 ,带注释的表现数据显著会增加了生产深度来学习运行系统的准确性。
“我们我们他称 ,这就首次用到于现有用户参与其中信号来去帮助大规模生成序列标记任务中的训练表现数据 ,并可应用于实际不设置中 ,在任何人部分内容并没有些人工注释表现数据的现象发生发生下加快新其它功能的部署 ,”研究成果人员具具过一 篇待出版的论文中写道。“其余 ,现有用户参与其中信号去帮助去帮助我们我们从数字助理强化自身的错误中吸取教训 ,形成确定一 其去帮助改进的这里。”
研究成果人员用到于具具过一 系列启发式形式来识别 ,去帮助表明参与其中参与其中或消极参与其中的不良行为。其余某些其余点击部分内容来推动参与其中(参与其中的回应) ,长时间时听一首歌(另另另一个参与其中的回应) ,去帮助打断智能助手提供全面的部分内容 ,手动选择选择各有不各有不同部分内容(消极的回应)。某些信号被选择选择性地以“隐私保护进行 ”获取 ,以自动生成全都的兼具真实性的注释 ,而后动物与动物注释者提供全面的粗粒度标签相融合。
为此将粗粒度标签和推断出的细粒度标签合并到人工智能模型中 ,论文的合文字作者独特设计了另另一个多任务中来学习框架 ,将粗粒度和细粒度实体标签被作为另另一个任务中处理过程。其余 ,动物还合并了另另一个由实体及其两者关系组成的外部知识库验证器。假设预测“something”被作为另另一个音乐标题 ,“the Beatles”被作为另另一个音乐艺术家 ,我们我们去帮助查询“Play something by the Beatles” ,验证器将展开自己级标签的备选方案的查找 ,并将动物发送到另另一个组件 ,该组件将对预测再一次排序 ,并返回最佳备选方案。
研究成果人员进行 另另一个独立的测试集来评估多任务中模型所执行的任务中 ,我们我们从生产运行运行系统随机抽取样本 ,并对基本框架的真实标签手工标注。我们我们他称 ,在21次模型运行中 ,添加的26万个训练示例 ,与任何人部分内容数量我们我们工注释表现数据的基线较高比 ,“一致地”会增加了预测任务中中有粗粒度实体错误率。其余 ,我们我们还报告说 ,当有较高少量我们我们工注释表现数据(5000个示例)时 ,添加弱监督的细粒度表现数据会形成更不小 影响较大。后的 ,我们我们报告说 ,来讲任何人部分内容顶级模型假设进行 知识库验证器的例子 ,细粒度实体错误率下降了大约50%。
在另另另一个实验中 ,其他团队试图确定一 现有用户意图的更细微标注 ,那么会会增加运行系统选择选择正确操作中有不仅如此 性。我们我们采集了大约5000个“播放音乐”命令 ,其余在内对多个乐队、艺术家和歌曲的引用 ,并进行 另另一个在内其框架的运行系统将其发送回来 ,后的 ,我们我们没有要求注释者将运行系统返回的响应分为“满意”或“不满意”。研究成果人员报告说 ,整体不断提升后的运行系统形成的最后较高任务中错误率会增加了24.64%。
我们我们将仍在探索那么进行 自己现有用户的参与其中不良行为来会增加个性化。
“我们我们观察到 ,她我们我们模型改进了现有用户最后接收的最后 ,相当 是来讲在内困难或不寻常语言操作模式的请求 ,”论文合文字作者写道。“譬如 ,整体不断提升后的运行系统去帮助正确处理过程譬如‘你能播放Miley Cyrus新专辑中有Malibu吗’和‘播放Kendrick Lamar的Humble’譬如的查询。其余 ,整体不断提升后的模型去帮助识别出现有用户在遇到了这就的语言歧义时更有不仅如此 引用到于实体。譬如 ,在Play one by Metallica中 ,one去帮助是另另一个非实体标记(意为播放Metallica的任何人部分内容歌曲) ,去帮助够特指Metallica一首名为One的歌。由此完全数现有用户在说‘Play One by Metallica’时都要听Metallica乐队的‘One’这首歌 ,我们我们她我们我们模型会依照现有用户参与其中注释的表现数据来预测‘One’那么指做什么 ,形成更棒 地捕捉现有用户群体的趋势和偏好。”
此前 ,具具过一 篇论文描述了苹果我们我们工智能开发工具Overton ,该工具的模型处理过程了“数十亿”个查询。其余 ,苹果近期研究成果了现有用户那么更喜欢喜欢与“健谈”我们我们工智能助手交谈。

