伟大的机器学习数据:它不是关于数量或质量-它是关于两者

2018年5月31日

人工智能（AI）现在是全世界消费者的家喻户晓的术语，也是一个引起全球商业和政府关注和预算的领域。近年来，随着各组织试图利用人工智能的潜力来推动竞争优势，人工智能的采用率已经加快。每一个组织都面临着同样的挑战，确保权利机器学习为他们的计划提供数据。

数据显示，2016年对人工智能的投资在260亿至390亿美元之间麦肯锡虽然国际数据公司(IDC)据预测，到2021年，全球这一数字将增长到520亿美元以上。这些活动都在哪里进行?各组织正在使用人工智能来构建和增强基于网络或实体的产品，解决安全问题，提供更好的客户体验，使运营更高效，等等。

然而，尽管人工智能解决方案在过去十年中取得了巨大的进步，在市场上和我们的生活中越来越多的bob平台app下载人工智能解决方案，仍然存在一些问题

暗示事实是正确的：人工智能的好坏取决于训练它的机器学习数据。为了建立一个成功的解决方案，你需要正确的数据——而且是大量的数据。作为麦肯锡在2018年的讨论论文中，申请大大量的音频、视频、图像和文本数据是解决问题的一个关键区别点，是解决问题的基础更高的价值人工智能的潜力。

数据与机器学习的关系

机器学习是人工智能的一种形式，它允许计算机在没有明确编程的情况下进行学习。通过向机器输入大量的机器学习训练数据，他们能够找到模式，帮助计算机识别对各种情况的正确反应。bob体育手机下载

在这方面，人工智能需要机器学习，而机器学习需要数据——很多正确的数据。但要想在与人类互动和模仿方面最有效，人工智能不仅需要大量的训练数据，还需要大量的bob体育手机下载质量bob体育手机下载．

为什么数量问题

机器学习帮助计算机解决复杂的问题，而这种复杂性是由固有的变化引起的:产生的系统、产品或应用程序通常有数百、数千甚至数百万个变量需要处理。

把机器学习数据想象成调查数据:你的样本量越大、越完整，你的结论就越可靠。如果数据样本不够大，它就无法捕获所有的差异或将它们考虑进去，而您的机器可能会得出不准确的结论，学习不存在的模式，或不识别存在的模式。

所以，你的机器学习数据占人工智能系统在现实世界中遇到的多样性越多，最终产品就越好。需要了解音量吗?有专家建议，至少要有1万小时的音频语音数据，才能让系统以适中的精确度开始工作。

为什么质量问题

在机器学习中，质量和容量同等重要。这主要是因为AI系统只能基于从高质量数据中学到的内容来正确运行。事实上，在牛津经济与服务中心最近的一项研究中，有51%的首席信息官引用的数据质量这是他们公司采用机器学习的一个重大障碍。bob外围怎么样

即使算法适用于手头的任务，如果机器接受过低质量数据的培训，它也会吸取错误的教训，得出错误的结论，并且不会像您（或您的客户）预期的那样工作。在这种情况下，很多事情都可以定义“坏”。数据可能与手头的问题无关、注释不准确、误导或不完整。

对于搜索引擎来说，当试图有效地训练机器向用户返回最佳信息时，不相关的结果可能会成为一个问题。计算机可以找到数据，但不知道哪个来源更好，除非告诉它。对于语音和模式识别，“坏”数据可能不完整或不准确。例如，如果一台机器认为某人说“猫”这个词的声音对应于“老鼠”这个词的文本，这将为试图从家庭助理处订购猫粮的人创造一种令人沮丧的用户体验。

了解更多-下载我们的新白皮书

Appen与许多全球组织合作，帮助他们利用高质量的机器学习数据创建和改进产品。

这篇文章只是一个快照——为了更深入地了解这个主题，请下载我们的白皮书，我们创建白皮书是为了帮助业务主管着手或寻求改进他们的机器学习计划。它涵盖了机器学习为什么需要大量的数据，高质量数据的重要性，以及应该考虑哪些数据源。

其他你可能喜欢的博客文章

所有博客文章