你可能听说过人工智能背景下的“大数据”这个词,但小数据呢?不管你是否意识到,小数据无处不在:它为网上购物体验、航空公司推荐、天气预报等提供了强大的动力。小数据是一种可访问的、可操作的格式,并且容易被人类理解的数据。数据科学家经常利用小数据来分析当前情况。
机器学习(ML)中小数据的增长可能是由于总体上数据的更高可用性,以及新数据挖掘技术的实验。随着人工智能行业的发展,数据科学家正越来越多地转向小型数据,以获得其所需的低水平计算能力和易用性。

小数据vs大数据
大数据和小数据到底有什么不同?大数据是由结构化和非结构化数据组成的大数据块。考虑到它的大小,它比小数据更难理解和分析,需要大量的计算机处理能力来解释。
小数据使企业无需复杂的大数据分析算法就能获得可操作的见解。因此,公司不必在数据挖掘过程中投入太多。通过应用计算机算法,可以将大数据转换为小数据,这些算法将数据转换为更小的、可操作的块,代表更大的数据集的组件。
大到小数据转换的一个例子是在品牌发布期间监控社交媒体。在任何一秒都有大量的社交媒体帖子被创建。数据科学家需要按平台、时间段、关键字和任何其他相关功能过滤他们想要的数据。这一过程将大数据转换成小的、更易于管理的数据块,从中获取见解。
小数据的好处
我们已经暗示了使用小数据相对于大数据的好处,但有几个值得强调。
大数据更难管理:大规模使用大数据是一项艰巨的工作,需要强大的计算机能力来进行分析。
小数据更容易:可以非常高效地分析小块数据,而无需投入大量时间和精力。这意味着小数据比大数据更具可操作性。
小数据无处不在:许多行业已经广泛使用小数据。例如,社交媒体提供了大量可操作的数据,这些数据可以用于各种各样的目的,营销或其他。
小数据关注终端用户:有了小数据,研究人员可以首先瞄准最终用户及其需求。小数据提供了最终用户行为背后的原因。
在许多用例中,小数据是一种快速、高效的分析方法,有助于提供跨行业客户的强大见解。
ML中的小数据处理方法
在最传统的机器学习方法——监督学习中,模型是在大量有标记的训练数据上训练的。但是还有许多其他的模型训练方法,其中许多方法由于其成本效率和时间节省而越来越受欢迎。虽然这些方法通常依赖于小数据,但在这种情况下,数据质量变得至关重要。bob体育手机下载
当模型只需要少量数据或模型没有足够数据时,数据科学家使用小数据。在这些情况下,数据科学家可以使用以下任何一种ML技术。
Few-shot学习
通过少量的学习,数据科学家提供了一个带有少量训练数据的ML模型。bob体育手机下载我们在计算机视觉中经常看到这种方法,模型可能不需要很多例子来识别一个对象。例如,如果你有一个面部识别算法,可以解锁你的智能手机,你的手机不需要数千张你的照片就能启用它。它只需要几个就可以添加安全特性。
这种技术成本低、工作量小,在没有足够的数据在完全监督学习下训练模型的情况下很有吸引力。
知识图
知识图是二级数据集,因为它们是通过过滤原始的、较大的数据而形成的。它们由一组数据点或标签组成,这些数据点或标签具有定义的含义并描述特定的域。例如,一个知识图可以包括著名女演员姓名的数据点,用线(称为边)连接以前一起工作过的女演员。知识图是一种非常有用的工具,用于以一种高度可解释和可重用的方式组织知识。
迁移学习
转移学习当一个ML模型被用作另一个需要完成相关任务的模型的起点时。它本质上是一种从一种模式到另一种模式的知识转移。以原始模型为起点,可以使用其他数据进一步训练模型以处理新任务。如果新任务不需要原始模型的组件,也可以对其进行修剪。
迁移学习在自然语言处理和计算机视觉等领域特别有用,这些领域需要大量的计算能力和数据。这种方法,如果可以实现,可以提供一个捷径,以较少的努力获得结果。
自我监督学习
自我监督学习背后的想法是让模型从现有的数据中收集监督信号。该模型利用现有数据对未观测到的或隐藏的数据进行预测。例如,在自然语言处理数据中,科学家可以给一个模型一个缺少单词的句子,然后让这个模型预测哪些单词缺失。从未隐藏的单词中获得足够的上下文线索后,模型就会学习识别剩余的单词。
合成数据
当给定的数据集存在现有数据难以填补的空白时,可以利用合成数据。一个流行的例子是面部识别模型。这些模型需要包含所有人类肤色的面部图像数据;问题是,肤色较深的人的照片比肤色较浅的人的照片要少。数据科学家可以人工创建肤色较深的人的数据,以实现平等代表,而不是创建一个难以识别肤色较深的人的模型。但机器学习专家必须在现实世界中更彻底地测试这些模型,并计划在计算机生成的数据集不足的地方添加额外的训练数据。bob体育手机下载
这里提到的方法并不是一个详尽的列表,但是给出了机器学习正在发展的各个方向的一个有希望的图片。一般来说,数据科学家正在远离有监督的学习,转而尝试依赖小数据的方法。
来自Rahul Parundekar的专家见解——数据科学主任
澄清“小”数据并不意味着少量的数据。它意味着创建生成业务洞察力或自动化决策的模型所需的正确类型的数据。我们经常看到有人在人工智能所能提供的方面被高估了,他们分享了一些图像,并期待一个生产质量模型——这不是我们在这里讨论的。我们讨论的是找出最适合创建模型的数据,以便在实际部署时提供所需的正确输出。
以下是在创建“小”数据集时需要记住的一些事情:
数据的相关性
有意识地选择要进入数据集的数据。你应该确保它只包含你在实践中(即在生产中)使用模型时会看到的数据类型。举个例子,如果你在做缺陷检测生产输送线的一种生产一部分数据,然后你会在你设定拍摄的图像在相机安装在这部分的线,没有缺陷,和图像的一个空的输送机在没有对象。
数据多样性与重复性
重要的是要涵盖模型在实践中会看到的所有不同情况的数据,并在这些情况中保持多样性的良好平衡。避免用已经涵盖的数据过度填充数据集。在缺陷检测的例子中,你要确保你捕获了没有缺陷的物体,有不同类型缺陷的物体,在工厂车间不同的照明条件下,不同的旋转和皮带上的位置,甚至可能在维护模式中加入一些例子。因为一个没有缺陷的人造物体和其他没有缺陷的物体是一样的,你不需要过度填充。另一个不必要重复的例子是视频帧很少或没有变化。
使用健壮的技术进行构建
上面列出的处理小数据的方法是一个很好的开始——也许你可以从你已经训练过的类似领域的另一个模型的迁移学习中受益,然后用你的小数据对它进行调整。对于缺陷检测示例,这可能是您以前训练过的另一个缺陷检测模型,而不是对训练的模型进行微调女士可可数据集,这与您在输送线用例中的缺陷检测不同。
以数据为中心的AI vs.以模型为中心的AI
人工智能行业的最新经验表明,如果你能找到合适的数据进行培训,那么对性能建模的影响要大得多。发现边缘情况、变化,可以产生更好的结果,而不是使用多个超参数、不同的模型架构进行训练,或者,一般来说,假设有能力的数据科学家会“弄明白”。如果您的缺陷检测模型不能很好地检测某些类型的缺陷,那么就投入更多的精力来获取该类型的图像,而不是尝试不同的模型体系结构或超参数调优。
与培训数据专家合作:bob体育手机下载
对于以数据为中心的AI,您还希望将调试工作集中在领域专家更擅长的数据上,而不是数据科学家擅长的模型上。在模型失败的情况下,与领域专家一起确定模式,并假设它可能失败的原因。这将帮助您确定您需要获取的正确数据。例如,对象缺陷方面的工程师专家可以帮助您确定模型所需的正确数据的优先级,清理上面提到的嘈杂或不需要的数据,甚至可能指出数据科学家可能用来选择更好的模型体系结构的细微差别。
总而言之,小数据也比大数据更“密集”。您希望在尽可能小的数据集中获得最高质量的数据,使其具有成本效益,并且易于通过上面的一种方法来创建您的“冠军”模型。
我们能为你做什么
Appen在我们的平台上提供数据收集和注释服务,以大规模改善机器学习。作为我们领域的全球领导者,我们的客户受益于我们的能力,快速交付大量高质量的数据类型,包括图像、视频、语音、音频和文本,以满足您特定的人工智能程序需求。我们提供多种数据解决方案和服务,以最适合您的bob平台app下载需求。拥有超过25年的专业经验,我们将与您一起最大限度地优化您的数据管道效率。
为了讨论您的培训数据需求,bob体育手机下载联系我们.