ML技巧:主动学习vs弱监督

经过申请。2021年3月19日

两个流行的机器学习技术的比较

机器学习(ML)作为一个领域呈指数级增长，但对于许多企业来说，一个常见的障碍仍然存在:数据。训练ML算法传统上需要大量的人工标记数据。所需要的数据的绝对规模通常是不可用的，而且成本高昂，更不用说手工标记它所需的时间和精力了。现成的数据往往缺乏理想的质量标准。主动学习vs弱监督:两种伟大的ML技术，你可以利用它们来克服数据挑战。

对数据进行标记还需要人类标签——在许多情况下，这些标签在某种程度上是主题专家(sme)——他们可以使用自己的领域知识做出准确的注释。但中小企业的可用性有限，雇佣成本也很高。

考虑到所有这些挑战，开发人工智能(AI)解决方案的团队从完全监督学习(这需要完整的、手工标记的数据集来训练ML模型)转向主动学习和弱监督。bob平台app下载后一种学习技术通常更快，劳动密集型更少，但仍然能够成功地培训模型。了解它们是如何工作的，以及每种类型所提供的好处，将帮助你决定是否弱监督或主动学习(或两者的结合)可能是适合你的模型的培训解决方案。

积极学习与弱势监督：它们如何适应受监督的学习

弱监督与主动学习

重要的是要认识到在ML中有不同的学习类型，它们都属于两种类型:监督和非监督。通过监督学习，机器接收人类标记的数据点，并使用这些数据点进行预测。另一方面，无监督数据使用无标记数据;算法必须在没有人工指导的情况下从数据中提取结构和模式。

在监督的学习伞下，有一系列学习类型。在这一频谱上，我们发现积极学习，一种半监督学习的形式，监督薄弱。

主动学习

主动学习是半监督学习的一种形式。与完全监督学习不同，ML算法只从一个更大的、未标记的数据集中给出一个人类标记数据的初始子集。该算法对这些数据进行处理，并提供具有一定可信度的预测。任何低于这一信心水平的数据都将表明需要更多数据。这些低可信度的预测将被发送给一个人来标记请求的数据，并将其返回给算法。这个循环重复，直到算法得到训练，并在预期的预测精度下运行。这个迭代循环方法是构建的想法，并非所有样本都是有价值的学习，因此算法选择了它从中学习的数据。

主动学习的一个关键区别是所使用的抽样方法，它显著地影响了模型的表现。数据科学家可以测试不同的抽样方法来选择产生最精确结果的方法。总的来说，主动学习依赖较少数据注释通过人们与完全监督学习相比，因为并非所有数据集都需要注释，只有机器请求的数据点。

弱监督

弱监督是一种学习技术，可以从各种数据源中融合知识，其中许多是较低质量或弱势的。这些数据源可能包括：

低质量标记数据从更便宜，非专家。
例如，使用Heuristics（规则），中小企业的更高级别监督。启发式可能会说“如果datapoint = x，则将其标记为y。”使用启发式或一套启发式可以立即标记数千个，甚至数百万的数据点。
训练有素的旧模型，可能偏见或嘈杂。

这些源中的数据通常是不精确的（数据具有标签，但标签不如所需的那样准确）或不准确（一部分标签具有错误）。您可以将模型编程为使用简单的技术，或标记功能，如模式识别，以从收集的数据集中学习。然后，通过调整您的功能和超参数来达到更理想的重量，直到您的模型实现所需的性能。如果需要，请合并一个较小的监督数据集以完成您的模型的培训。

弱势监督是一种方式编程培训数据bob体育手机下载减少人类所需的时间量标签数据手动。它是最适合分类任务，当您拥有未标记的数据集来管理，或者当您的用例专门允许您使用弱标签源时。

积极学习和监督薄弱之间有什么区别？

这两种学习方式都能产生高效的学习模式，但它们在几个关键方面有明显的不同:

标签来源

每种类型的学习所需的标签来源非常不同:

主动学习

人类（通常是SMES）标记数据集。
假设标签准确。
标签来自一个来源。

弱监督

来源灵活，来自任何地方。
标签不一定非常准确或完整。
必须使用多个数据源。

所需资源

为每种学习投入的时间，金钱和人员的比例不同：

主动学习

使用中小企业进行标记目的是昂贵的，因为它们需要付款并具有有限的可用性。
主动学习要求人类花时间标记数据集中的至少一部分数据。

弱监督

标记功能可以应用于数百万的数据点以秒为单位，节省了标签的大量时间。
投入在弱监督培训上的时间因数据源而异，但通常少于主动学习项目所需的时间。

迭代过程

虽然机器学习始终是一个迭代过程，但迭代量随着监督弱而变化，VS活动学习：

主动学习

使用许多循环的人类循环迭代过程。
该模型培训为标记数据。

弱监督

数据集在培训模型开始之前完全标记。
没有人在训练过程中烘焙。

两种方法的好处

无论是主动学习还是弱监督，都与完全监督学习存在着一定的差异。在这一点上，他们的好处是节省了贴上标签的时间，通过限制中小企业的工作节省了资金。在缺乏监督的情况下，您需要的昂贵数据量将比在监督学习下需要的数据量少得多。类似地，如果您有一种带有主动学习的有效采样技术，那么您可以用比传统方法所需的更少的标记数据点来实现高质量模型性能。

最重要的是，没有一定尺寸的机器学习方法。选择一种学习或其他类型将取决于您提供的时间，金钱和人员的可用分配;您收集数据的计划以及该数据将被源;以及您的特定用例。根据该特定用例，不必是活动的学习与弱监督 - 他们并不总是互斥，具体取决于您的场景。使用这些因素来指导您选择最适合您的AI解决方案的学习技术。

要查看我们如何帮助您培训模型，请查看我们的bob平台app下载展示我们所交付的以及我们是如何做到的。

您可能喜欢的其他博客文章

所有博客文章