如何接近对话AI代理的数据收集

推特
鸣叫
LinkedIn
分享
Facebook
fb-share-icon

训练嘈杂数据的会话AI代理

聊天机器人,虚拟助手,机器人,和更多:会话式人工智能在我们的日常生活中已经非常明显。希望增加与客户的订婚的公司,同时降低成本在很大程度上投资。这些数字很清楚:会对时代代理商的行业预计会增长年内20%到那个时候,至少2025年。Gartner.预测利用AI在客户订婚平台中利用AI的组织将以25%提高运营效率。

全球大流行仅加速了这些预期,因为对话AI代理对于在仍然希望与客户保持联系的同时导航虚拟世界的企业至关重要。会话AI通过为每个客户提供量身定制的人性化经验,帮助公司克服数字通信的非个人性质。鉴于概念成功验证,这些变化重新定义了品牌聘用的方式,无疑将成为新的正常甚至流行病。

然而,建立用于现实世界应用的对话AI仍然具有挑战性。模仿人类言论的流动非常困难。AI必须占不同的语言,口音,俗物,发音,短语,填充词和其他变异性。这项工作需要大量的高质量数据。问题是,这种数据往往嘈杂,填充了可能误解的无关实体。理解角色数据播放和管理噪声数据的缓解步骤对于减少错误和故障率是必不可少的。

会话AI代理的数据收集与注释

为了理解创建会话代理的复杂性,让我们介绍构建具有语音功能(如Siri或谷歌Home)的会话代理的典型过程。

  1. 数据输入。人类代理说出模型作为音频文件捕获的命令、评论或问题。使用语音识别机器学习(ML),计算机将音频转换为文本。
  2. 自然语言理解(NLU)。该模型使用实体提取,意图识别和域标识(所有技术用于了解人类语言)来解释文本文件。
  3. 对话管理。因为语音识别可能是有噪声的,统计建模被用来绘制人类代理的可能目标的分布。这就是所谓的对话状态跟踪。
  4. 自然语言生成(NLG)。结构化数据被转换成自然语言。
  5. 数据输出。文本到语音合成将自然语言文本数据从NLG阶段转换为音频输出。如果准确,则输出解决人工代理的原始请求或评论。

让我们进一步探讨NLU,因为这是管理嘈杂数据的关键步骤。NLU通常需要以下步骤:

  1. 定义的意图。人类代理的目标是什么?例如,“我的订单在哪里?”“查看列表”或“查找商店”都是意图或目的的示例。
  2. 话语的收藏。数据注释器必须收集、映射和验证朝着同一目标工作的不同话语。例如,“最近的商店在哪里?”和“找一家离我近的商店”有着相同的意图,但却是不同的话语。
  3. 实体提取。应用该技术以解析话语中的关键实体。如果你有这样的句子,“我家不到3英里内的素食餐馆?”,然后“素食主义者”是一个类型的实体,“3英里”将是一个距离实体,“我的房子”将是一个参考实体。

鉴于这些步骤,设计对话方面有哪些挑战?首先,没有直接的方式来收集人类的意图,以一种普遍为每个人的方式。其次,难以模拟现实世界的对话流程,这将因地理,年龄,人和其他个人因素而异。最后,数据收集可能是嘈杂和昂贵的。

许多自动语音识别(ASR)数据包含噪声,其中机器误解了音频文件中的特定单词或短语。一个例子是,“我想要一个,“变成了”,我想我上线了“这毫无意义。人类的言论是自然的,无所谓;我们经常使用与我们意图无关的填充词。“哦,是的,我想,是的,这更好,”有许多不受欢迎的填充短语,可以云解释意义。人类也有很高的措辞,具体取决于他们的位置,抚养和经验。

当我们查看嘈杂数据的统计数据时,我们发现AI要么是正确的,要么在53%的情况下进行小错误。在30%的病例中,AI令人轻微的错误。在17%的病例中,AI正在取得重大错误,表明嘈杂的数据仍然是发射会话AI代理商的企业的问题。

为社交机器人设计对话

对话AI代理的数据收集

在许多情况下,会话代理的目标是使它们能够作为同伴与人类交互,而不是作为设备。这意味着使用语音和手势进行交流,提供有用的服务,并利用自然语言来保持自然的对话流程。那么我们如何开发能与人互动的社交机器人呢?

一种方法来创建与个性的社会机器人的方法是通过基于流程图的可视化编程。流程图块表示后端功能,例如谈话,握手,然后移动到一个点。他们目录的交互流。内容作者可以使用流程图轻松地将语音,手势和情感组合,以建立接触的互动。

埃里卡(Erato智能对话Android)是使用此方法构建的。她的内容作者在几个月内迭代地增加了内容,以发展她作为一个角色,而不仅仅是一个问题答案设备。她现在可以完成超过2,000多个行为和超过50个主题序列。

设计社会机器人的另一种方法是遥远的。奈良实验在奈良,日本,旅游中心雇用了一个机器人,作为游客的导游。人类旅游指南为机器人创建了离线内容(例如,本地Toaiji寺庙的背景信息),工程师提前将机器人编程。该团队将这种方法与遥操作进行了鲜明对比。

当一个human-in-the-loop远程操作者对机器人进行远程控制,结果比机器人依赖离线数据时更准确。问题是该方法的可伸缩性不是很好,内容输入速度慢且容易出错,控制多模态行为具有挑战性。

虽然有趣的案例研究,但这些实验会迅速提出围绕更可扩展的替代方案来对话设计。从真正的人类对人类互动中收集原位数据不会更有效率吗?

社交机器人通过模仿学习

如果我们能将人类行为众包,我们就能更被动、更经济地收集高质量的数据。我们可以观察人类的互动,抽象出典型的行为元素,并在此基础上生成机器人的互动。一个这样的团队通过建立一个相机商店的场景来探索这个想法的有效性。让我们来看看他们的方法:

  1. 数据采集​​。该团队收集了有关人类客户多式联行为和店主的数据,包括三个批判类别的语音,机器和专业组织。
  2. 演讲:使用自动语音识别,该模型捕获了典型的话语(例如,这个相机有多少百万像素?或者是什么解决方案?),并使用层次聚类来映射这些话语意图。
  3. 运动:传感器在人类聚集的典型位置上捕获跟踪数据,例如服务计数器和不同的轨迹,例如从门到相机显示。聚类用于确定每个位置和轨迹的频率。
  4. 专利组建:传感器捕获了顾客和店主的典型构成;例如,面对面,或者店主展示产品。此外,当顾客说话或移动时,这种互动被离散为顾客-店主行为对。
  5. 模型的训练。然后,团队使用客户动作(包括话语、动作和空间学)对模型进行训练带安全标签的数据时店主的预期反应。例如,客户行为可能包括询问,“这要花多少钱?”一面面对着店老板;店主就会回答:“300美元。”

在团队培训型号之后,他们在相机车间测试机器人并准确处理了216个各种相互作用。虽然在这种情况下,机器人在人类的复制品中,但在这种情况下,机器人展示了试图模仿人类言论和行为所涉及的复杂性。

对话AI向前发展

我们从这些例子中学到了什么?构建会话代理是困难的。数据是嘈杂的,很难捕捉,而模仿人类语言是一个巨大的挑战。这就是为什么设计数据收集工作流以捕获高质量数据是至关重要的。使用原位数据收集方法是捕获自然会话的最佳方法,尽管仍然需要更多的进展来进一步降低错误率。

嘈杂数据的问题仍然是恒定的。使用ML辅助验证拒绝来自发起的噪声,并利用抽象和数据驱动技术可以降低噪声。解锁会话AI代理商的业务价值将意味着投资数据,并开发更准确的ML方法来解决自然语言问题。

在Appen,我们一直在帮助企业成功创建他们的对话AI代理,通过帮助它们处理复杂的数据收集和注释,让它们从实验到全面部署。

使用世界级培训数据部署AI的网站bob体育手机下载