我们通过培训数据看到的错误类型:如何识别和避免常见数据错bob体育手机下载误

推特
鸣叫
linkedin
分享
Facebook
fb-share-icon

与传统的软件开发对比AI开发有助于。在传统软件中,您编写确定性的代码(即,每次使用相同的输入运行时,都会收到相同的输出)。但随着AI的发展,它不是最重要的代码,这是数据。具体地,数据的标签。

高质量,准确标记的数据对于构建高性能模型至关重要。但质量差的数据并不总是显而易见的。为了说明这一点,让我们从定义实际的培训数据开始。bob体育手机下载每个数据单位包含文件(音频或视频或视频的图像,文本,片段),文件属性(分配给提供含义的文件的标签)以及标签的属性(包括它标记的时间,由谁标记在一起,在什么条件下)。

例如,假设我们正在构建一个使用激光雷达数据的模型。激光雷达的工作原理是发送脉冲来捕捉它与目标物体(如汽车或行人)之间的距离。在使用LiDAR时,注释器的一个示例任务可能是围绕一辆汽车绘制一个三维边界框或长方体。bob体育手机下载该模型的训练数据可能具有一个JSON文件,其中的代码指定:长方体在哪里、它的高度和深度,以及长方体中包含什么(在本例中是一辆汽车)。在这个注释过程中,有许多可能会引入错误。认识到潜在的错误将帮助您创建更完整、更有代表性的数据集。

我们通过培训数据看到的错误类型bob体育手机下载

三个常见数据错误

培训数据中的以下错误是在注释过程中的三个最常见的bob体育手机下载Appen。

1.标签错误

标签错误是开发高质量训练数据时最常见的问题之一。bob体育手机下载有几种类型的标签错误可能会发生。例如,假设您为数据注释器提供了一个任务:在图像中的奶牛周围绘制边界框。预期的输出是在每头奶牛周围有一个紧密的边界框。以下是在这个任务中可能发生的错误类型:

缺少标签:注释器未命中将边界框放在其中一个奶牛周围。

适合不正确:边界盒在每台母牛周围都不够紧,留下不必要的差距。

说明误解:注释器将一个边界框放在图像中的所有奶牛周围,而不是每台牛的一个边界框。

处理闭塞:注释器在部分隐藏的牛的预期大小周围放置一个边界框,而不是仅仅围绕牛的可见部分。

这些类型的错误可以发生许多类型的项目。提供具有清晰说明的注释器必须避免这些方案。

2.不平衡培训数据bob体育手机下载

您的培训数据的组成是您想要仔细考虑的东西。bob体育手机下载不平衡数据集导致模型性能的偏差。数据不平衡发生在以下情况下:

课程不平衡:当您没有代表性的数据集时发生这种情况。如果您正在培训您的模型以识别奶牛,但您只有阳光明媚,绿色牧场的乳制奶牛的图像数据,您的模型将在这些条件下识别牛,但在任何其他条件下都没有如此之多。

数据查询:所有模型随着时间的推移,所有模型都会降低。这是一个完美的真实例子是冠状病毒。如果您在2019年搜索“Corona”,您可能会看到顶部列出的电晕啤酒的结果。然而,在2021年,结果将填充冠状病毒的文章。随着这样的变化,需要在新数据上定期更新模型。

3.标签过程中的偏见

当我们谈到训练数据时,常常会提到偏见。bob体育手机下载如果您使用的是一组非常同质的注释器,那么在标签过程中可能会引入偏差,但当您的数据需要特定的知识或上下文来进行准确的标签时也是如此。例如,假设您想要一个注释器来识别图像中的早餐食物。你的数据集里有世界各地流行菜肴的图片:英国的黑布丁、荷兰的哈格尔渣(撒在吐司上的碎屑)和澳大利亚的vegemite。如果你让美国的注释者对这些数据进行标注,他们很可能很难识别这些菜,而且肯定会对它们是否是早餐食品做出错误的判断。结果将是一个偏向美国思维模式的数据集。理想情况下,您应该拥有来自世界各地的注释者,以确保捕获每种文化菜肴的准确信息。

避免错误

作为AI从业者,你能做什么来避免这些常见的错误?在整个数据标签过程中实现质量检查,以确保您在影响模型之前捕获错误。您可以选择利用AI进行仔细检查注释器的判断(一种已知的方法智能标签)在他们提交他们之前。并且始终具有人机,以监控任何偏差的模型性能。减少偏见是至关重要的:除了招聘各种注释器(具有您的数据需要的域知识)之外,这里都是其他几个方面取消偏见您的数据。

网站部署人工智能与世界级的训练数据bob体育手机下载