提高广播新闻自动语音识别的准确性

经过申请。4月19日，2021年

语音识别技术的现处于让机器能够能够懂人物的语言，让机器理想人物的语言。语音语音技术发放至今，已经应运而上了各种各样的语音助手，可同有一天我们身边的物体都和我们说话，食物相连的时代也也而至。

数码从何而来？

IBM在语音识别领域的最初工作是美国政府国际高层研究计划局（DARPA）有象可负担可重复语音转文本（耳朵）计划的一分，该计划使语音识别型技术取得大大。性计划。性计划计划计划电阻视的隐藏式字幕中产药了约140小时受监督的bn训练数和约9,000小时的监督少的训练训练的数码。相比之下，耳朵为电脑会话语音（cts）生成了大厦2,000个小时高度监督，人工转录的训练数。

转换障碍？

由于CTS有大量训练数码可用，因此IBM和澳鹏的团队致力于将语音语音识别策略应致ー语音语音识别应应应，以了解这些技术在各个应应应。为止所面临，有必要指出指出两种讲话风格之间的一般性

广播新闻（BN）

清晰，音质精锐
演讲者种类更多，说话风格各异
充斥充斥各种背景噪音噪音，身处现场的记者就是子子
涉及各种各样的新闻话题

电气会计（CTS）

通讯音质差，有声音伪影
无底稿
会话参与者语音，有交叠时尚
有中炎，重复字句，会话中之间的后台，比如“好”，“哦”，“是”等

团队团队如何将语音识别识别模型从为bn

团队调整了语音识别，成都地将其于于的cts ears的cts op：更多更多个长长期记忆（lstm）和resnet声声，以及单位和字符的lstm和卷积波风格的和风格的语言，在一卷声学特价上行了训练。在之迹的一项研究中，特征是由语言数码招会（LDC）进行的湖泊2000英语评估中，该策略在通用类型（CTS）的准确度介于5.1％至9.9％之间。团队在BN数据库上测试了方法的简化版本，该版本并非人工标注，而是使用隐藏式字幕创建的。

团队销有加加没有可用的训练数量，是精心选择了一道可以的子宫，然后训练lstm和基础残留网站的学生，并在该子上面综合合并了了自动语音识别外，团队团队针对自动系统行行了基础，以澳鹏制品的高度销量人工转录本为基因。除了这些模型的主要语言训练文本，分数达3.5岁，分裂来自资源适新闻的不合公司。

实验程程正式开始

在第一次组实验中，团队分享测试了lstm和resnet模型以及n元组和ff-nnlm模型，然后将两种声声的评评与原的评估评估结果结果进比较结果结果进进比较结果结果进比较比较比较结果进的。合唱LSTM和RESNET模型的分支，单位错误率（WER）并未显着降低。单击使用n元组降低的lstm模型表现很好，添加ff-nnlm模型，其其进一步。

第二组实验采用LSTM + Reset + N-Gram + FF-NNLM模型模型后生成网格。团队从这些词网格中生成n个最佳列表，并使用lstm1-lm对对新评分.lstm2-LM也也用来更新独立独立分词网格。目前申请LMS后，发出WER显着加加。注册研究人员据推测，使用BN特价数码行行二微调，使得lstm2-lm的表现优于lstm1-lm。

研

我们的ASR结果明显改进最新表现，与过去十年开发的系统相比，也取得了重大进展。与人类表现相比，asr绝对绝对大约要差3％。虽然机器和人的错误率具有可能比性，穷星系统系统和删除错误率错误率要高等。

研团队分类了不错的错误类型和错误率，得出了一些与关键词：

ASR和人类删除，替换和插入的单一有很大的重叠。
在标记犹豫情绪时人类似乎似乎似乎很很很很很很很很中中，％犹豫情绪是多的。在人类转录中，犹豫情绪似乎是表达的重要重要。然而，asr系统侧重于盲识别，并未成功地传达相同的含义。
机器在识别短小虚词方向有困难：，，，，，，，a，那个和这些都要更多。而人们却似乎能捕捉中的传中的绝大蒜。这些词似乎似乎完全表表出出，所以机器钻法识别它们，の人类却能够自然地推断推断出这些词。

研

实验说明，语音asr技术可跨域调调调高明，证明，对于声学和语言，基因lstm和resnet的模型建模，而人工评估评估实验我们保持保持。也就是说，〖我们的方法不成而说，但在人们表现和机器人表现中间仍ー存ー存ー存ー存ー存ー存ー存ー存ー存ー存ー存ー存ー存ー存现出者正在差距，这明明，广播新闻的自动转录需要需要需要需要继续

澳鹏的成品语音语音数码集

成品数码的是一种高度，低成本的工具，可通行高度销量的数码传播人工智能智能机器学院习项目。数码集通知的。数码集通知的时间在一起，而全新的数码集和标注项目根据其复杂度度，则通常需要8到12周的交付交付时间。与与方法相比，ots数码集缩短了实现价值以低的总成本提供了高度数据集都集都用完全透明的方便开发，确保数安全高度，负责任从而力高度，负责任的ai部署。

本次更新的数码集包括人体驾驶和婴儿啼哭，以及市场销量高但通道难以获得（如阿拉伯语，克罗贝亚，希腊语，匈牙利，，泰语等）的脚本化语音和有可可识别文本的图形。更新数码集的加入使澳鹏的数码传播达到250+，包括11,000+小时的音频，25,000 +张图以及涵盖80+种及方向的870 +个个单位。