数据在负责任人工智能中的作用：塑造道德人工智能未来的数据决策

2021年8月12日

毫无疑问，人工智能（AI）将在未来几年继续快速发展，并与我们的日常生活越来越紧密地联系在一起。现在，公司有责任以负责任的眼光对待人工智能，以最大限度地提高透明度，减少偏见，并指导技术的道德应用。毕竟，人工智能运行良好，对每个人都是公平的。

关于负责任的政策和协议的决定将决定人工智能的未来，反过来，人工智能将如何塑造我们的未来。数据在这些工作中起着基础性作用；它是每个AI技术的核心，直接影响模型性能。一个模型真正的好坏取决于用于训练它的数据，这就是为什么数据是AI从业者在决定治理实践时能够真正发挥作用的关键领域。

数据在负责任人工智能中的作用

都在数据里

当从事人工智能项目时，数据科学家将把大部分时间花在数据收集和注释上。在完成这些任务时，有三个最重要的领域：保护数据隐私、减少数据中的偏见以及从道德上寻找数据。

数据隐私

作为人工智能从业者，首要关注的应该是数据隐私和安全。在这方面已经有了立法，贵组织的数据处理协议应该与之保持一致。例如ISO标准（国际公认）围绕保护个人信息而存在，GDPR（通用数据保护法规）涵盖欧盟的数据管理，其他要求在全球范围内存在。您的企业必须遵守其所有客户所在地的相应标准。

在全球某些地区，数据保护法规可能不一致或不存在；无论如何，致力于负责任的人工智能意味着采用数据安全管理实践来保护您的数据供应商。在使用个人数据之前，您应征求其同意，并实施安全措施，以保护任何个人身份信息不被不当使用。

如果您不清楚应该将哪些类型的安全协议纳入到数据管理实践中，可以考虑与已经存在的第三方数据提供者一起工作，并通过安全数据处理来指导您的专业知识。

数据偏差

有偏见的数据=有偏见的结果。这是人工智能开发的一个简单事实，但当你想象所有的方式都会无意中将偏见引入人工智能模型时，它会变得更加复杂。让我们举一个例子：您正在构建一个语音识别模型，可能用于汽车。语音本身可以有不同的音调、口音、填充词和语法（更不用说不同的语言和方言）。假设您希望您的语音识别模型适用于不同人口统计和背景的驾驶员，那么您将需要表示每个用例的数据。

如果您收集的数据主要是男性声音，则您的语音识别模型通常难以识别女性声音，事实上，这正是一些流行的基于语音的产品所发生的情况，因为该模型在培训期间没有接触到足够的此类数据。因此，挑战在于管理一个完整而公平的数据集；覆盖所有用例和边缘用例的一个。创建适用于每个用户的AI产品首先要确保所有这些用户都在培训数据中得到体现。bob体育手机下载

数据来源

在这种情况下，我们讨论的是关于提供和准备数据的人的待遇的数据道德来源。理想情况下，如果您提供数据，您应该得到补偿（并且要知道您正在提供数据）。补偿可以是金钱或服务交换的形式。

现实情况是，很多数据都是在我们不知情的情况下收集的，而且通常情况下，谁甚至拥有这些数据的界限都很模糊。例如，如果您正在为您的公司进行视频通话，谁将拥有该通话产生的语音数据？你的公司？视频通话提供商？个别发言者？边界很快就会变得混乱。在任何情况下，致力于负责任的人工智能的公司都应该对他们从谁那里收集数据、什么样的数据bob外围怎么样、什么时候收集数据保持透明，并努力适当补偿个人的数据。

然而，获取数据并不总是问题所在。让数据进入可用状态通常是一项挑战。您需要许多人清理和过滤数据，以确保它对您的项目有价值，然后您将需要更多的人使用准确的标签对数据进行注释。这些人必须得到公平待遇：包括公平的工资、公开的沟通渠道、保密和舒适的工作条件。这方面的立法主要是关于禁止现代奴隶制的法律，但是公司可以做更多的事情来确保他们的数据注释者得到合乎道德的对待。例如，在Appen，我们依靠我们的全球员工群体进行高质量的注释，并创建了一个群众道德规范记录我们对他们福祉的承诺。

用数据塑造人工智能的未来

今天，公司有责任做出人工智能决策，以推动未来企业和社会的积极成果。数据治理尤其是对任何人工智能努力的整体道德性有重大影响，因为数据偏差和数据管理是负责任地应用该技术的关键因素。作为一名AI从业者，您的目标应该是建立一个反映负责任AI关键租户的数据治理框架。这样做，你将为一种更公平的技术做出贡献，一种更好地反映我们社会多样性的技术。