bob体育手机下载训练数据预算

推特
推特
LinkedIn
分享
脸谱网
fb-share-icon

组织建立机器学习系统,以便他们可以预测和分类数据。但是要让一个系统做任何事情,你必须训练它。这篇文章是想帮你算出一个预算bob体育手机下载基于最佳实践。

我将分享一些具体的数字,但首先,我必须说一些不令人满意的东西:您需要的训练数据的数量与您试图解决的问题的复杂程度有很大关系。bob体育手机下载如果人类能够快速且一致地完成这项任务,那就是一项相当简单的任务。你的任务是这样的吗?真正回答这个问题的最好方法不是自省,而是进行试点。稍后会详细介绍。

在我帮助企业为数据科学制定路线图和招聘计划的工作中,我已经能够研究多个行业。我不能说出名字,但我总结了大约20家公司,从两家小型初创公司到四家员工超过10万的大型跨国公司。我是一名经过培训的语言学家,所以其中只有少数是关于图像或音乐的,大多数是关于以某种方式对文本进行分类,以帮助搜索或路由。(你可能认为其中很多都是情感项目,但实际上只有5个是。)

  • 培训预算在增长组织在越来越多的地方使用机器学习/人工智能方法,这意味着更多的训练数据。bob体育手机下载对于员工不足5000人的公司,2015年至2016年的培训数据量增加了一倍多。bob体育手机下载对于员工人数超过5000人的公司,培训数据增长了5倍。bob体育手机下载
  • 业务的变化通常需要新的培训数据bob体育手机下载机器学习系统只知道它训练的对象是什么。因此,如果你要推出新产品/服务或进入新市场,你需要在两个月后计划更多的培训数据。bob体育手机下载如果你能在游戏发行前找到相关数据,那就更好了。
  • 计划每月63,000个培训项目还记得我是如何从一堆警告开始的吗?这是最主要的一个。在我所报告的公司中,有5家每月获得超过12.1万项培训项目。下限更接近每月14000件。
  • 保证让公司内部的专家每季度审查一次类别和例子:业务随着时间的推移而变化,您希望确保涉众继续就哪些类别是重要的跟踪达成一致,并确保您对它们的定义是一致的。这也是向他们展示类别范例和一些最困难的项目的好机会。

如何试点

全新的机器学习项目通常在第一季度启动时创建约13.1万个训练项目(前四分位数为30.9万个,后四分位数为1.2万个)。这些只是数字,但更重要的是如何获得有意义的结果。

要记住的三件事是:

  • 计划试验是迭代的你几乎肯定不会在第一次飞行中把事情做好。计划推出一个小的子集,然后分析你能得到什么。你可能需要调整说明或实验设计的其他部分。值得为此计划几个迭代。
  • 确保数据符合问题有一些业务问题需要解决,确保数据是合适的很重要。我知道有一家公司想要挖bob外围怎么样掘YouTube上的评论,为他们非常非常高科技的设备寻找销售线索。有一些有趣的技术可以在大海捞针,但仍然需要找到针。
  • 尽快安排午餐注释-一旦你理解了项目、数据和类别是什么,抓住一个会议室和内部专家来注释数据。让三个人来评判每一项,这样您就可以报告他们之间的注释者协议。如果你的专家都不能完成一项任务,机器或其他人怎么能做呢?

您可能只需要与您的内部专家进行几小时的“注释”。当然,如果他们都不同意如何对您的数据进行分类,您可能需要进行更多的检查。

在第一个注释小时,每个人都可以谈论他们看到了什么,以及他们是如何判断的。你有三个目标,第一个注释小时:(1)以确保专家(他可能是利益相关者)弄脏手的数据,(2)诊断与分类定义的任何问题你可以解决这些问题,和(3)“黄金”数据评估人群和ML的模型。一个陌生人——以及一个系统——应该对你的专家一致同意的东西特别自信和准确。

最终的想法

是预算的季节!

机器学习的成功包括获得正确的数据,清理数据,选择好的算法,以及在ML特征工程方面的聪明。但从根本上讲,这可以归结为提出有意义的问题,并想出获得一致答案的方法。

创建训练数据的好处有两个:你必须有良好的训练数据才能得bob体育手机下载到良好的ML模型,你可能想让训练数据流入你的系统,这样系统就能在变化发生时接收到它们。也许不那么引人注意的是:在开发培训数据时,您还了解了关于您的领域的大量信息,以及与您的业务相关的类别如何bob体育手机下载与您的用户正在生成和交互的数据相匹配。计划是成功的关键。培训数据bob体育手机下载预算是计划的核心。

您目前是否在为使用人工智能做出更明智的决策、构建创新的解决方案并提供更好的客户体验的项目制定预算?bob平台app下载联系我们了解Appen如何提供帮助,或了解更多我们如何帮助您的信息为机器学习获得可靠的训练数bob体育手机下载据

使用世界级的训练数据部署人工智能的网站bob体育手机下载
语言