言语识别出错时

推特
鸣叫
linkedin
分享
Facebook
fb-share-icon

自动语音识别(ASR)是我们在Appen的每天工作的东西。语音识别准确性是我们为帮助客户发展而自豪的东西,我们知道这些努力在全球范围内容越来越多的人使用语音识别在他们的手机上,在他们的电脑上或房子周围。数字私人助理现在是我们的贝克和电话,并要求设置提醒,回复文本或电子邮件,甚至为我们搜索网络并推荐某个地方吃饭。

这一切都很大,但即使是最好的语音识别或语音识别系统也很难实现100%的准确性。当事情出错时,如果不是偶尔娱乐,错误可能会真正耀眼。

发生了什么样的错误?
语音识别设备几乎总是基于听到的内容串词 - 这就是他们设计的。但是决定它听到的哪一句话是一个棘手的任务,并且有一些东西可以真正抛弃用户。

猜错的话
当然,这是经典问题。自然语言软件仍然在形成整个合理的句子时不太好。有各种各样的潜在的Mishearings可能听起来很类似,但不要造成一大堆思想:

听到你所说的事情
If someone walks past and they’re talking at a loud volume, or you cough half way through a word, a computer often isn’t going to be able to tell which parts were you talking and which parts came from some other part of the audio. This can lead to things like someone’s phone taking a dictation when they were just练习大块

那么在这里发生了什么?
为什么这些仔细培训的算法犯错误,任何人类听众都会发现完全可笑的?

这完全是关于我们用于训练软件的数据。语音识别算法通过占用数百小时的音频和有时是数百万的文本。如果该音频或该文本与您听起来的声音与您的声音相匹配或您的发言,那就是当出现语音识别准确性问题时。

如果所有电脑列车都是在安静的录音摊位中发言的音频,那么您在拥挤的餐厅尝试的短信实际上将使系统推向其极限!如果它只听到录制的人出生并在25英里的白金汉宫内举行,你的加拿大口音将导致各种混乱。

人类非常善于关注他们正在交谈的人的声音。我们能够适应他们来自或正在谈话的地方的津贴。计算机仍然有一种方法可以在涉及那些东西时去。

最后,语音识别程序有lexicon.他们参考的文件,所以他们知道他们可以期望听到的所有单词以及这些单词如何发音。如果您使用不在词典中的单词,则识别算法永远无法为您写出来。谈话中的一个人可能会思考“哦,那是我之前没有听过的名字,也许我会猜出拼写并在以后看起来。”一台计算机始终采取最好的猜测,如果它之前没有看到一个字,则无法猜到!

事情打破时,人们会做什么?
当讲话识别准确性出现问题时,他们往往会出错。在与虚拟人中在最佳时期交谈时,人们往往有点警惕 - 它并不需要太脆弱的信任!一旦错误发生了,人们就会尝试让自己更清晰的奇怪的事情。

有些人会慢下来。其他人可能会超越他们的言语,并确保他们所有的TS和Ks都可以像酥脆一样。其他人会尝试采用他们认为计算机最能理解的口音,做出他们最好的伊丽莎白二世或爱尔拉玻璃的巨大冒充。

这是事情 - 虽然这些技术可能有助于如果您与困惑的旅游者或某人过于糟糕的电话线,但他们根本没有帮助电脑!事实上,我们从自然连接的演讲中进一步偏离(录音中存在的那种用于训练识别人员),更糟糕的事情会得到,螺旋将继续。

Appen可以提供帮助
如果您开发和维护语音软件,这些限制将听起来非常熟悉。解决方案是确保您具有广度和规模bob体育手机下载必须涵盖您希望使用您的软件的所有人员。在Appen,我们在150多种不同语言中制作了语音数据库,我们已准备好提供关于方言,人口统计数据和环境的建议,这些内容将帮助您创建优化所有用户的语音识别准确性的培训数据。bob体育手机下载联系我们谈谈您的需求,以及我们如何帮助您!

使用世界级培训数据部署AI的网站bob体育手机下载