人工智能数据采集和治理

经过申请。2021年4月2日

部署成功AI的最佳实践

如果你还没有和人工智能打交道，你很快就会有了。我们几乎每天都与人工智能互动，迫使许多公司在这一领域进行试验。无论你在哪里，在前进的道路上，你都可能会遇到一些挑战。在企业中成功实现AI的两个更复杂的元素是数据获取和治理。

有几种最佳实践可以帮助您推导您如何最好地构建和部署工作的AI解决方案。bob平台app下载为长期成功设置自己将最终要求您建立全面的AI治理框架（特别是数据治理）和可扩展的数据管道。

我们将分解AI治理的关键考虑因素和逐步指南bob体育手机下载管道创造和维护。

定义AI治理

AI治理是监督组织AI使用和实施的框架。每个组织如何定义本框架受其行业，内部公司规则，法规以及当地法律影响的影响。无论如何，没有一种尺寸适合 - 所有方法;每个组织都应该选择最需要的内容。但一般，常常出现在框架中的AI治理有三个关键领域：

性能

如何度量模型的性能是开发过程中的一个重要因素。您的团队应该开发一系列您将从初始模型构建和跟踪的指标部署后确保模型按预期执行（继续执行）。包含在您的指标中有几个关键因素：

准确性

一方面，当涉及到准确性时，您需要考虑模型的准确性和召回率。在做预测时，它是否达到了你期望的信心阈值?如果没有，则需要进行迭代。另一方面，您需要考虑您的模型是否具备做出准确预测所需的所有上下文。您的数据将在这里给出答案，但要确保它包括所有的用例和已知的边界用例。

偏见/公平

在你的模型的表现中加入度量偏差的指标。有第三方工具可以帮助跟踪这一点。偏差可以来自抽样，也就是抽样。您是如何收集数据的，从哪里收集的，由谁收集的，以及由谁来注释您的数据。

例如，顶部面部识别软件已经显示出比浅肤的肤色的更大的错误率，而不是更轻的皮肤。例如，黑人妇女看到白人对25％超过25％的错误率。这是收集的数据（代表颜色的人数）的问题，谁标有数据（主要是白人），因为它们在最终解决方案中缺乏多样性反映。

你可以在AI数据获取和治理框架中实现一些最佳实践减少AI中的偏见。

透明度

您的组织可能会受到立法，要求您展示您的AI模式如何达成决定。一般数据保护规则或GDPR是欧洲这样的示例，使得有权透明度的消费者。即使您不受规定的影响，您的AI模型的解释性也对您的最终用户和再现性仍然至关重要。在构建模型时，彻底记录其工作原理。您的治理框架可以解决您的文档实践和对透明度的承诺水平。

伦理

伦理是人工智能治理框架中常见的第三个领域。伦理在人工智能实现过程中扮演着重要角色，从确保解决方案的目的符合伦理，到模型是否继续按照预期执行结束。在本节中，您将需要定义什么负责任的人工智能看起来像从试点到生产以及您将使用何种过程来确保满足这些需求。

数据治理：要解决的地区

数据治理、数据获取和数据管道

数据治理是指您的组织如何在其系统中管理数据。这是组织整体AI治理框架的重要组成部分。在数据治理，您可能希望包含以下组件：

可用性

您的数据是可访问的，并且可以通过那些需要它的人来消费。本节应该回答你组织中谁可以看到什么问题的问题。

可用性

您的数据是结构化的、有标签的、易于使用的。数据科学家花费大量时间来整理数据，使其可用。为了减少这一时间，可以使用数据管道和流程，使数据准备更快、更容易、更可伸缩。

完整性

数据在整个生命周期中保持其结构、质量和完整性。数据管道应该以确保使用的数据在整个模型构建过程中保持一致为中心。

安全

您的数据在整个生命周期内不会被破坏、未经授权使用或修改。用于人工智能的数据通常包括个人信息。对所使用的数据类型进行适当的安全检查，特别是当这些信息很敏感时。

了解更多关于AI和数据保护法规和认证你应该意识到或者考虑到外包数据收集和注释。

bob体育手机下载培训数据管道和维护

正如我们反复提到的数据管道，了解构建和维护这些流程的最佳实践是很有帮助的。让我们从头到尾遍历一个完整的数据管道:

1.数据采集

你会收集数据从一个或多种来源。这些可能包括内部来源、现成的数据、开源数据集或第三方供应商。目标是为最终用户提供涵盖所有可能用例和边界用例的源数据。确保你的数据来源合乎道德。

2.数据注释

在数据流水线的下一步中，您将执行数据注释(例如，图像分类、音频转录或其他类型)。你选择谁来标记你的数据非常重要;这些人需要有不同的背景和观点，以减少潜在的偏见。对于大型标注工作，公司通常依赖于来自全球各地的第三方群体工作者。

3.数据审核

虽然您应该在过程中的每个阶段审核您的数据，但在注释之后，确保您的数据标签准确且无偏别尤为重要。注释应占所有用例。一旦您执行了数据审核并发现您的带安全标签的数据时符合您的准确性标准，您可以准备培训您的模型并部署它。

4.模型更新

很少有用例依赖于静态模型。在大多数情况下，您需要经常更新您的模型以反映现实世界和更改数据。您的数据管道应继续在部署后继续为您服务，因为您继续创建新的培训数据以避免模型漂移或停滞不前。bob体育手机下载这种模型维护的组成部分经常下降，但对于实现AI的长期成功是关键任务。

我们分解了什么自动驾驶汽车的综合数据管道可能看起来像，作为一个例子。

总结一下:AI的最佳实践

如果有任何事情应该清楚，那么AI数据采集和治理框架是建立组织的AI战略的基础。除了这些元素之外，您的团队还需要在整个模型构建过程中回答更多的问题。在高水平，这些问题经常触及以下区域：

了解问题。您的问题是否可以由AI解决？
了解数据。你是否拥有训练AI算法所需的所有数据?
确定关键指标。围绕准确性，效率，成本节约，偏见等的哪些指标表明您的型号的成功？
审计表现。你有识别模型漂移的方法吗？
迭代。即使在部署之后，您是否一直在对模型进行再培训和调优?

有了合适的工具和流程，你就能更好地获得成功。学习他人在这一领域的成就同样也是开发AI管道和框架的必要步骤，这将使你的组织有信心并大规模部署AI。

如果你的团队在这个过程中需要帮助，可以考虑与我们在Appen合作。我们有经验、专业知识、服务和解决方案来帮助您一路前行。bob平台app下载了解更多关于bob平台app下载和AI辅助的数据注释平台,或联系我们。

其他你可能喜欢的博客文章

所有博客文章