数据质量


我们具有一系列的数据质量控制措施,以确保您收到高质量数据。



在Appen,我们了解您的AI培训数据质量的重要性。bob体育手机下载无论您是在我们的数据注释平台中设计工作还是与我们的托管服务团队一起设计工作,我们为每种用例提供​​高度准确的培训数据,利用行业领先的质量控制。bob体育手机下载


图片

Appen数据注释的平台



我们的Appen Data Annotation Platform(ADAP)提供了多种工具,可帮助您监控标记数据的质量,并在每一步中确保卓越的数据质量。

工作设计

使用我们的数据注释平台,用户可以建立和测试作业以提供高质量的培训数据:bob体育手机下载

图片

智能验证器

从机器学习提供的许多验证器中选择,确保贡献者根据需要提供输入。如果输入不在预期阈值内,则贡献者收到通知,从而通过标准化数据类型来提高数据质量。
图片

工作流程

将大型复杂项目分解为一系列简单的作业和控制,通过配置诸如信心,特定答案或随机样本的路由规则等路由规则进行行进。




图片

测试问题

使用ADAP,用户可以在进入工作之前测试有关测试问题的贡献者,而作业正在进行中,以确保其能够正确识别和标记每个任务。我们的框架利用您的数据预先回答的数据,以资格获得高性能的贡献者,删除绩效不足,并不断培训贡献者来提高他们对任务的理解。




图片

贡献者水平和定位



我们的人群居住在同一生态系统中,我们可以通过整个注释管道应用一致的数据质量控制。有些措施包括:


图片

贡献者的目标



评估培训数据集中的数据分发,反对人口统计数据,性别,位置等的关键属性。您可以选择bob体育手机下载相应地确定异常分布和增强数据集的区域,以平衡类并减少偏差。

自定义渠道- 通过创建针对经过证明他们理解工作的特定贡献者的特定贡献者来提高数据质量,并可以根据先前提交的工作成功执行。根据他们对以前的作业的信任,或手动通过提供您信任的贡献者的ID,自动将贡献者组成为自定义频道。


图片

因素水平



ADAP允许您根据其性能和技能水平来定位贡献者。我们将各个贡献者的审计跟踪保持在平台上的性能和体验中的三个级别。1级可用于优化吞吐量,而第3级确保我们最经验丰富,最高的表现者将在您的任务上工作。





监控,审查和返工



通过对您的数据注释管道保持注意力来确保高质量的结果。轻松访问监控数据流水线允许您提前捕获不一致,因此您的项目运行顺利,您可以获得高质量的注释数据。


监控仪表板

积极监视运行的作业,以便为慢速注释的异常。利用作业监控工具在测试问题中快速表面异常,应答分布,吞吐量,完成百分比或工作成本。

审查

用户可以将作业的数据从一组贡献者发送到另一组贡献者以执行其他审查和更正,从而确保开放式任务的数据既相关又正确。这对于确保与传统上与测试问题一起工作的工作中的数据质量特别有用。

图片

审计

了解汇总注释是如何实现高质量结果。

平台审计

可视化和审查平台内的工作的结果,以确定贡献者是否能够充分了解指示,识别问题区域,并改善指令和工作设计,以实现高质量的结果。

图片


Appen Data Annotation平台质量控制

下载PDF.

托管服务质量控制

下载PDF.


图片

管理服务质量控制



使用我们的White Glove托管服务,我们将管理日常数据注释和/或数据收集过程,以提供高质量的培训数据。bob体育手机下载让我们的专家管理人员使用我们的顶级数据注释平台处理您的项目。我们通过两个主要杠杆,专业知识和人群控制数据的质量。



专业知识


我们在数据注释和收集过程的每个阶段监控质量。我们的团队拥有数十年的经验,致力于各种数据注释和收集项目,提供定制质量解决方案,以满足您的特定数据质量需求。bob平台app下载他们将能够快速识别数据质量是否受到损害,并将其直接修复。

这只是我们测量,监控和控制质量预生产,期间和后期生产的一些方式的简短样本:

图片 图片 图片


生产预生产和生产监测
  • 资格涉及onboard测验评估对指南的理解
  • 纠正的工作组(金色)这同样评估所有评估者,通常涉及双重审查审查以确保准确性
  • 快速评估者反馈(REF)随机地穿插着实时数据,在提交时,评分者会收到即时反馈

生产后分析与学习方法
  • 分歧集识别异常值和趋势的集团和个人分歧率分析
  • 分歧严重程度(偏离分数)允许分析分歧严重性,即,计算原始和正确答案之间的间隔
  • 评级分布个人和团体分析,以确定落在集团分布之外的任何模式




人群:衡量和管理贡献者质量


我们的客户可以获得超过170个国家的1M +贡献者的策划人群,以上有超过235种语言/方言。

使用Appen托管服务,您可以使用策略性地选择贡献者来管理偏差和数据质量。我们使用AI与人群工人匹配,以便更适合他们的技能。AI还用于帮助他们的注释来提高质量和吞吐量,并提高他们的经验。每个贡献者都经历了一个最能把它们的资格化进程进行成功,并最大限度地提高他们的可用性和技能。该过程包括练习考试和审查指导指南。我们在规模的贡献者船上,帮助您立即增加项目生产力。





安全数据访问


为使用个人身份信息(PII),受保护的健康信息(PHI)以及其他复杂的合规性需求而满足数据安全要求。

我们拥有企业级安全选项,以满足您的敏感数据需求,


图片
图片
图片
图片

安全人群


我们提供套件的安全服务,具有灵活的选择,可通过安全的设施,安全的偏远工人和现场服务来确保数据安全性,以满足特定的业务需求。

我们拥有企业级安全选项,以满足您的敏感数据需求,


图片
图片
图片
图片

部署选项


私有云部署
这可以在您的特定云环境上托管。

本地部署
它可以部署在你的特定网络中无论是气隙式的还是非气隙式的。

我们拥有企业级安全选项,以满足您的敏感数据需求,


图片
图片
图片
图片

基于SAML的单点登录


SSO,允许成员通过您选择的身份提供者(IDP)访问数据合作伙伴平台。

我们拥有企业级安全选项,以满足您的敏感数据需求,


图片
图片
图片
图片