拼写标准化:你能用多少种方式拼写一个单词?

推特
鸣叫
linkedin
分享
Facebook
fb-share-icon

这是在Appen的临近和珍惜我们心中的主题:拼写标准化。

If you’re providing training data to a computer system to produce machine translation, speech recognition, or a computer voice, it’s important to spell each word the same way every time it comes up (otherwise, you’re watering down your training data and the language model gets confused).

即使你没有使用高科技,你只是想通过你的客户问题数据库或你的现场工作笔记有可靠的搜索,拼写单词始终是很重要的,标准化拼写,很重要!

这对于我们在Appen做的注释来说尤其如此,所以我们有一点偏见。根据定义,人注释的数据是由一个人输入的,每个人都有不同的方言、习惯和风格。正确拼写单词对于数据的一致性和可靠性至关重要。

那有多难?每个词都有一个“正确的”应该拼写的方式,对吗?如果你不确定,请在字典中查找。

好家伙。跟着我们沿着兔子洞。

方言

这是一个直接的问题:是“标准化”还是“标准化”?这个是基于地区的,所以要为您的数据库找到相关的拼写并不难。但有些情况可能比这更复杂——在挪威有两种完全独立的拼写系统(Bokmål和Nynorsk),旨在反映不同的方言集。

通常,这一领域并不是太难 - 您提前决定拼写约会,以便为您所选择的语言和方言进行遵循。可以通过自动检查和后编辑来识别来自其​​他系统的杂散拼写。

登记

它是“要”,“Goin'A”,“gon'到”,或“去找”?这个更困难:后者拼写是正式正确的选择,但在某些情况下,它可以从中移除来自一个人的声音。稍后需要搜索怎么办对于短语的更多样化的发音之一?如果你要创建一个语音数据库,你如何在你的词汇库里分离发音呢?

在某些情况下,差异可能是足够最小的,可以标准化为字典表单。在其他人中,采取非正式代表性可能更明智。

不管你选择如何处理这个问题,结论都是一样的:标准化是至关重要的。

资源缺乏的语言

引用字典一切顺利,很好,但有些语言没有这么方便拼写的仲裁人。的动作有与完全没有书面传统的澳大利亚和巴布亚新几内亚语言合作,与斯瓦希里语这样的语言,许多替代拼写可能是同样可接受的,与拼写改革最近或不完整的语言。在演讲者较少或互联网接入较少的地区,建立一个团队进行工作可能是困难的。

这里的关键通常与大学研究人员和语言学家合作。与此同时,通过与居住在其社区中的语言的发言者协商,实现可接受的拼写的共识很重要。您可能会发现您的数据库有助于给出语言的语言新访问资源!

CodePoints.

即使这个词的拼写完全清晰,我们也可以遇到麻烦。看看这两个词:

咖啡店 Саfé.

这些封面有多少个字母?对一个人,整个事情。到电脑?只有“f”!右边的“C”和“A”来自西里尔字母,右边的“é”是由两个字符而不是一个字符制作的。

众所周知,代码点错误在阅读时看起来还不错,但如果搜索数据库,文本编辑器不会找到所搜索单词的所有实例。当你的数据库是bob体育手机下载对于自动语音识别或语音合成程序-替代拼写可能不会出现在您的词典和整个音频段可以丢弃!

好的,所以有人在拉丁字母数据库中进入西里尔字符,但对于某些语言而言,真的是暧昧的案例,与人眼相同,但与计算机不同。这就是上面所示的“é”的情况,它也普遍存在许多其他写作系统中。例如,在阿拉伯语中,Unicode范围中的每个字符也具有单独的等效“演示表单”字符,因此'Beh'可能会显示为ٻ或作为ٻ,并且阿拉伯字母表中的每个字符都存在相同的不可见变化。

因此,如果这些类型的错误是如此持久,甚至是人眼,也可以做些什么来减轻它们?标准化仅适用于每个人从同一来源工作。在这样的情况下,这是一些自动计算机脚本的简单问题,可以在以人为本的过程中添加一点点人工智能的Flair。

相当有点进去,对吧?

当您正在进行成绩单和文本数据库时,这些只是面临的一些挑战。我们希望您对维护所有本文的试验和培训发现一些新事物。在Appen,我们帮助世界各地的客户解决这些问题。如果您想讨论我们如何帮助您或您的组织,我们很乐意收到您的来信!在这里联系我们开始。

使用世界级的训练数据部署人工智能的网站bob体育手机下载
语言