bob体育手机下载训练数据预算

推特
推特
LinkedIn
分享
脸谱网
fb-share-icon

组织建立机器学习这样他们就可以预测和分类数据。但是要让一个系统做任何事情,你必须训练它。这篇文章的目的是帮助你制定一个预算bob体育手机下载基于最佳实践。

我将分享具体的数字,但在一开始,我不得不说一些不令人满意的事情:您需要的训练数据的数量与您试图解决的问题的复杂程度有很大关系。bob体育手机下载如果人类能够相当迅速和一致地完成这项任务,那将是一项相当简单的任务。你的任务是这样的吗?真正回答这个问题的最好方法不是自省,而是进行试点。稍后再详细介绍。

在我帮助公司建立数据科学路线图和招聘计划的工作中,我已经能够放眼多个行业。我不能说出名字,但我总结了大约20家公司,从两家小型初创公司到四家员工超过10万的大型跨国公司。我是一个受过训练的语言学家,所以只有少数是关于图像或音乐的,大多数是关于以某种方式对文本进行分类,以帮助搜索或路由。(你可能认为其中很多都是情感项目,但只有5个是。)

  • 培训预算正在增长:组织在越来越多的地方使用机器学习/人工智能方法,这意味着更多的训练数据。bob体育手机下载对于员工人数在5000人以下的公司,2015年至2016年的培训数据量增加了一倍多。bob体育手机下载对于拥有5000名以上员工的公司,培训数据增长了5倍。bob体育手机下载
  • 业务的变化通常需要获得新的培训数据bob体育手机下载:机器学习系统只知道它被训练的对象。因此,如果你正在推出新产品/服务或进入新市场,你就需要在两个月后准备更多的培训数据。bob体育手机下载如果你能在发行前找到获取相关数据的方法,那就更好了。
  • 计划每月培训63,000项还记得我一开始是如何提出一些警告的吗?这是主要的一个。我所报告的五家公司每个月获得超过121,000项培训项目。下限大概是每月14000件。
  • 让内部专家每季度审查一次类别和例子:业务会随着时间的推移而变化,您希望确保涉众继续就哪些类别是重要的跟踪达成一致,并确保您对它们的定义是一致的。这也是向他们展示类别范例和一些最难的道具的好机会。

如何试点

全新的机器学习项目通常在第一季度启动时创造约13.1万个培训项目(前四分位数:30.9万个,后四分位数:1.2万个)。这些是数字,但更重要的是你如何得到有意义的结果。

需要记住的三件事是:

  • 为飞行员制定迭代计划你几乎肯定不会在第一次尝试时就把事情做好。计划推出一个小的子集,然后分析你得到的回报。你可能需要调整说明或实验设计的其他部分。为此进行几次迭代是值得的。
  • 确保数据符合问题有一些业务问题需要解决,确保数据是适当的是重要的。我知道有一家公司想通过bob外围怎么样YouTube上的评论为他们非常非常高科技的设备寻找销售线索。有一些有趣的技术可以在干草堆中找到针,但仍然需要在那里找到针。
  • 尽快安排注释午餐-一旦你理解了项目、数据和类别是什么,找一个会议室和内部专家来注释数据。让三个人来判断每个条目,这样您就可以报告他们的注释者间协议。如果你的专家都不能完成一项任务,机器或其他人怎么能做呢?

您可能只需要几个“注释时间”与您的内部专家。当然,如果他们都不同意如何对你的数据进行分类,你可能需要进行更多的轮询。

在第一个注释小时,每个人都可以谈论他们看到了什么,以及他们如何评价它。你有三个目标,第一个注释小时:(1)以确保专家(他可能是利益相关者)弄脏手的数据,(2)诊断与分类定义的任何问题你可以解决这些问题,和(3)“黄金”数据评估人群和ML的模型。一个陌生人——一个系统——应该对你的专家意见一致的项目特别自信和准确。

最终的想法

是预算的季节!

机器学习的成功包括获得正确的数据,清理数据,选择好的算法,以及在ML特征工程方面聪明。但从根本上说,这可以归结为提出有意义的问题,并找到获得一致答案的方法。

创建训练数据的好处有两个方面:您真的必须有良好的训练数bob体育手机下载据来获得良好的ML模型,并且您可能希望训练数据流进入您的系统,以便系统在发生变化时捕捉到变化。在开发培训数据的过程中,您还可以了解到关于您的领域的大量信息,以及与您的业务相关的类别如何与您的用户生成bob体育手机下载并与之交互的数据相匹配。计划是成功的关键。培训数据bob体育手机下载预算是计划的核心。

您目前是否在为使用人工智能来做出更明智的决策、构建创新的解决方案和提供更好的客户体验的项目进行预算?bob平台app下载联系我们了解Appen如何提供帮助,或了解更多关于我们如何帮助你的信息为机器学习获取可靠的训练数bob体育手机下载据

网站部署人工智能与世界级的训练数据bob体育手机下载
语言