为先进语言技术提供燃料

2017年3月30日

我谈过Mark Brayan.，Appen CEO，在最近访问洛杉矶。他汇总了Appen的行为推进语言技术，如搜索那语音识别，自然语言解释（NLI），以及作为为建筑和改善这种技术提供“燃料”的翻译。

评论让我震惊了。

机器学习技术用于许多这些高级语言技术。当然，它们是依赖数据的统计方法。并且移动到更先进的模型，如深神经网络驱动需要越来越多的数据。

使用机器学习开发和改进语音识别需要标有语音标记的数据。使用机器学习的NLI开发需要用用户的意图标记的数据。两种方法都需要质量数据;古老的格言“垃圾，垃圾出去”明显适用。Appen使用经验丰富的质量控制人员检查的熟练的转录员和贴标人，了解如何始终处理困难的案例。

此外，高级技术通常需要超过原始数据。例如，可以通过纠正经常拼写错误的搜索术语来改进搜索技术（对于Web或特定站点）。（尝试获得足够的数据是有效的，以有效地“学习”这些拼写错误的术语是等同的。）Appen将这些数据库开发为语言资源。

没有原始资源无法创造燃料，部分申请成功的部分是开发可以帮助的人力资源数据采集过程。他们可以访问能够支持数据收集和清理任务的许多承包商。长期经验导致了有效地支持此过程的程序和软件。在其21年的历史中，公司向一系列技术公司，汽车制造商和bob外围怎么样政府提供了数据和服务，以帮助他们构建和改善自然语言技术。

随着机器学习和类似的“认知计算”技术越来越多地作为云服务，它通常无法访问拒绝公司使用这些强大技术的核心技术。公司经常发现他们的原始数据没有标记，具有质量问题，或者只是以错误的格式使用这些云资源。Appen将这种原始资源完善为“燃料”。

生物：
威廉梅内尔，博士，是总统TMA Associates.，以及Lui新闻编辑（每月通讯的语言用户界面的商业应用程序），组织者会话互动会议，2013本书的作者软件社会以及通过演讲和自然语言技术成熟的市场和产品机会的顾问。他在语音技术的经验包括成立和运营演讲识别公司。bob外围怎么样他始于USC的电气工程和计算机科学教授，并发表了第一本机器学习的书籍。

您可能喜欢的其他博客文章

所有博客文章

废弃货架数据集

机器学习平台之旅

为先进语言技术提供燃料

您可能喜欢的其他博客文章

博客

博客

博客