与儿童合作：帮助机器理解儿童演讲

2017年4月11日

If you have a mobile device, tablet, smart-home system, or any other device in your home that uses automatic speech recognition, you’ve probably experienced this: the software works fine for mom and dad, but not so well for the kids. Why? Because there are several nuances to training machines to understand child speech that are not always well understood.

部分原因是，孩子们对成年人说得非常不同 - 并非所有语音识别设备都装备很好地处理了这一点。

儿童言论与成人演讲有什么不同？
在表面级别，我们都熟悉孩子们说话的特殊方式。要求一个成年人做“宝贝说话”，他们会给你他们对高音高的声音的最佳印象，形成不良的元音，混合辅音，可能有一些发明的词语或想象力的语法。但是，在他们的核心，这些直观的观察，关于孩子如何交谈如何反映机器在处理儿童演讲时的许多实际问题。

高亢的声音
从纯粹的生物立场，孩子的声道不如成年人所开发的。在成年女性中短的声带比成年男性更短，导致女性的女性更高的声音，在年轻人也越短。儿童的声带（通常称为声带）也比成年男性和女性更短。

结果是，儿童产生的声音的基本频率超过300Hz，而成年女性中的210Hz和成年男性125Hz。培训的语音识别设备培训，以较低频率的频率调谐到声音通常会错过孩子所说的内容。

学会说话
人声道很复杂，学习使用需要时间。某些声音需要相当精确地放置铰接器（相对于舌头，嘴唇，牙齿等的主动铰接器相对于被动铰接器，如口感和肺泡脊），幼儿尚未掌握。

This results in the mispronunciation of words like ‘helicopter’ as ‘hewwicopter’ which, while admittedly cute, can cause chaos for speech recognition software that is trained to equate a set of pronunciations with a set of words in its lexicon – it’s not going to recognise that particular substitution of sounds.

作为缺乏经验的发言者，孩子们也会倾向于多吃，重复自己，或者中译方向;自动化语音识别的所有内容将在解析输入时与斗争。

播放
学习说话的一部分是试验和使用言语，这是孩子们对外良好的事情。除了在发音复杂的词语中的真正错误之外，如发音为“医院”作为'HOPSPITAL'，孩子们也从事Word级和句子级别的单词。

仍然熟悉英语形态和折地点流程的幼儿可能会说'黄奇'而不是“带来”的过去时态“带来”或“羊”的复数的“绵羊”。他们可能会缺乏缺乏一个更好的词语，就像“带回家”为'外带'，被带回家，甚至是为了娱乐！

在许多情况下，它都是关于乐趣 - 对孩子来说，语音识别设备是一种像任何其他玩具一样，而且通常是不是，他们将尝试并玩它只是为了看它接下来会做什么。

Appen可以提供帮助
正如我们之前的博客文章所提到的那样，言语识别出错时，这是关于数据的。拥有合适的数据，以确保您的系统受过培训，以应对儿童语言的挑战是开发演讲识别设备的关键，无论多么小，都是如何迎合家庭的每个成员。在Appen，我们有收集自发和脚本的儿童演讲的经验。我们还与熟悉儿童语言的互转性，并使用我们对拼写标准化的了解来创建最准确的数据。联系我们谈谈您的需求以及我们如何提供帮助。

您可能喜欢的其他博客文章

所有博客文章