如何处理会话AI代理的数据收集

2021年1月11日,

在嘈杂数据上训练会话AI代理

聊天机器人，虚拟助手，机器人，和更多:会话式人工智能在我们的日常生活中已经非常明显。希望增加与客户的订婚的公司，同时降低成本在很大程度上投资。这些数字很清楚：会对时代代理商的行业预计会增长年内20％至少到2025年。到那个时候,Gartner预测，在客户参与平台中利用人工智能的组织将提高25%的运营效率。

全球大流行只是加速了这些预期，因为对话型人工智能对于在虚拟世界中穿行、同时又希望与客户保持联系的企业至关重要。对话型人工智能通过为每位客户提供量身定制的人性化体验，帮助企业克服数字交流的非人情味。这些变化重新定义了品牌参与的方式，鉴于成功的概念验证，毫无疑问将成为新常态，甚至在大流行之后。

然而，为现实世界的应用构建对话式人工智能仍然具有挑战性。模仿人类语言的流畅性是极其困难的。人工智能必须考虑不同的语言、口音、口语、发音、短语的变化、填充词以及其他变化。这项工作需要大量高质量的数据。但问题是，这些数据往往充满了干扰，充满了可能误解意图的无关实体。理解数据扮演的角色以及管理嘈杂数据的缓解步骤对于减少错误和故障率至关重要。

会话AI代理的数据收集与注释

为了理解创建会话代理的复杂性，让我们介绍构建具有语音功能(如Siri或谷歌Home)的会话代理的典型过程。

数据输入。人类代理说出模型作为音频文件捕获的命令、评论或问题。使用语音识别机器学习(ML)，计算机将音频转换为文本。
自然语言理解(NLU)。该模型使用实体提取、意图识别和领域识别(所有理解人类语言的技术)来解释文本文件。
对话管理。因为语音识别可能是有噪声的，统计建模被用来绘制人类代理的可能目标的分布。这就是所谓的对话状态跟踪。
自然语言生成(NLG)。结构化数据被转换成自然语言。
数据输出。文本到语音合成将自然语言文本数据从NLG阶段转换为音频输出。如果准确，则输出解决人工代理的原始请求或评论。

让我们进一步探讨NLU，因为这是管理嘈杂数据的关键步骤。NLU通常需要以下步骤:

定义的意图。人类代理的目标是什么？例如，“我的订单在哪里？”“查看列表”或“查找商店”都是意图或目的的示例。
话语的收藏。数据注释器必须收集、映射和验证朝着同一目标工作的不同话语。例如，“最近的商店在哪里?”和“找一家离我近的商店”有着相同的意图，但却是不同的话语。
实体提取。该技术用于解析话语中的关键实体。如果你用这样的句子:“我家附近3英里内有素食餐馆吗?”，那么“素食者”是一个类型实体，“3英里”是一个距离实体，而“我的房子”是一个参考实体。

鉴于这些步骤，设计对话方面有哪些挑战？首先，没有直接的方式来收集人类的意图，以一种普遍为每个人的方式。其次，难以模拟现实世界的对话流程，这将因地理，年龄，人和其他个人因素而异。最后，数据收集可能是嘈杂和昂贵的。

许多自动语音识别（ASR）数据包含噪声，其中机器误解了音频文件中的特定单词或短语。一个例子是，“我想要一个变成了“I would like .(我想要。)我在，这是虚空。人类的语言是自然的和无脚本的;我们经常使用与我们的意图无关的填充词。“哦，是的，我认为，是的，这个更好，”有许多不必要的填充短语，可能会混淆含义的解释。人类在措辞上也有很大的可变性，这取决于他们的地理位置、教养和经历。

当我们查看嘈杂数据的统计数据时，我们发现人工智能在平均53%的情况下要么是正确的，要么是犯了小错误。在30%的情况下，AI会犯些小错误。在17%的案例中，人工智能正在犯下重大错误，这表明嘈杂的数据仍然是企业推出会话AI代理的一个问题。

为社交机器人设计对话

对话AI代理的数据收集

在许多情况下，会话代理的目标是使它们能够作为同伴与人类交互，而不是作为设备。这意味着使用语音和手势进行交流，提供有用的服务，并利用自然语言来保持自然的对话流程。那么我们如何开发能与人互动的社交机器人呢?

一种方法来创建与个性的社会机器人的方法是通过基于流程图的可视化编程。流程图块表示后端功能，例如谈话，握手，然后移动到一个点。他们目录的交互流。内容作者可以使用流程图轻松地将语音，手势和情感组合，以建立接触的互动。

Erica (ERATO智能会话Android)就是用这种方法构建的。她的内容作者在几个月的时间里不断添加内容，将她塑造成一个角色，而不仅仅是一个问答设备。她现在可以完成2000多个行为和50多个主题序列。

设计社会机器人的另一种方法是遥远的。奈良实验在奈良，日本，旅游中心雇用了一个机器人，作为游客的导游。人类旅游指南为机器人创建了离线内容（例如，本地Toaiji寺庙的背景信息），工程师提前将机器人编程。该团队将这种方法与遥操作进行了鲜明对比。

当一个human-in-the-loop远程操作者对机器人进行远程控制，结果比机器人依赖离线数据时更准确。问题是该方法的可伸缩性不是很好，内容输入速度慢且容易出错，控制多模态行为具有挑战性。

虽然有趣的案例研究，但这些实验会迅速提出围绕更可扩展的替代方案来对话设计。从真正的人类对人类互动中收集原位数据不会更有效率吗？

社交机器人通过模仿学习

如果我们能将人类行为众包，我们就能更被动、更经济地收集高质量的数据。我们可以观察人类的互动，抽象出典型的行为元素，并在此基础上生成机器人的互动。一个这样的团队通过建立一个相机商店的场景来探索这个想法的有效性。让我们来看看他们的方法:

数据采集。研究小组收集了人类顾客的多模态行为和店主的数据，包括言语、运动和邻位构成三个关键类别。
演讲：使用自动语音识别，该模型捕获了典型的话语(例如，这个相机有多少百万像素?或者是什么解决方案?)，并使用层次聚类来映射这些话语意图。
运动:传感器捕捉人类聚集的典型位置(如服务柜台)和不同的轨迹(如从门到摄像机显示器)的跟踪数据。聚类法用于确定每个位置和轨迹的频率。
亲近性的形成:传感器捕获了顾客和店主的典型构成;例如，面对面，或者店主展示产品。此外，当顾客说话或移动时，这种互动被离散为顾客-店主行为对。
模型的训练。然后，团队使用客户动作(包括话语、动作和空间学)对模型进行训练带安全标签的数据时店主的预期反应。例如，客户行为可能包括询问，“这要花多少钱?”一面面对着店老板;店主就会回答:“300美元。”

在团队对模型进行训练后，他们在相机车间测试了机器人，并准确地处理了216种不同的交互。虽然离模仿人类还有很长的路要走，但这个案例研究中的机器人展示了试图模仿人类语言和行为所涉及的复杂性。

对话AI向前发展

我们从这些例子中学到了什么?构建会话代理是困难的。数据是嘈杂的，很难捕捉，而模仿人类语言是一个巨大的挑战。这就是为什么设计数据收集工作流以捕获高质量数据是至关重要的。使用原位数据收集方法是捕获自然会话的最佳方法，尽管仍然需要更多的进展来进一步降低错误率。

噪声数据的问题一直是不变的。使用ml辅助验证从一开始就拒绝嘈杂的话语，并利用抽象和数据驱动技术可以减少噪音。要释放对话AI代理的商业价值，就意味着要在数据上投入大量资金，并开发更精确的ML方法来解决自然语言问题。

在Appen，我们一直在帮助企业成功创建他们的对话AI代理，通过帮助它们处理复杂的数据收集和注释，让它们从实验到全面部署。

其他你可能喜欢的博客文章

所有博客文章