数据科学与机器学习自动化:了解人工智能自动化的现状

推特
推特
LinkedIn
分享
脸谱网
fb-share-icon

在过去的十年里,人工智能(AI)建筑的自动化有了许多发展。在关于人工智能未来的对话中,你可能会经常听到数据科学自动化和机器学习自动化交替使用。在现实中,这些术语有不同的定义:当前的自动机器学习(称为AutoML)目标具体指的是模型构建的自动化,但数据科学家的工作包含的任务范围更广。在最简单的层面上,数据科学家从数据中提取知识,以解决现实世界的问题;机器学习只是他们武器库中的一种工具。

我们看到自动化发生在数据科学生命周期的每个阶段,从数据预处理一直到解决方案的部署。bob平台app下载AutoML无疑为这个生命周期中的自动化提供了有价值的开发,特别是在建模阶段。在大多数情况下,自动化针对最耗时、最复杂的任务,使它们更快、更容易。随着这些进步,数据科学家有了更多的时间来做他们所接受的培训:使用数据见解为他们的组织开发差异化的解决方案。bob平台app下载

数据科学与机器学习自动化

数据生命周期中的自动化

数据科学生命周期包括数据科学家作为解决方案开发的一部分完成的每个任务。出于我们的目的,我们将看看数据科学家在创建人工智能模型时需要完成的任务。周期的每一步都至少包含某种程度的自动化——考虑到人工智能构建过程中几个步骤的时间密集性,这是一个不足为奇的事实。

数据准备

假设他们脑子里有一个问题想要解决,数据科学家的第一个任务就是收集和准备数据。通常情况下,数据准备需要将数据转换成正确的格式,识别错误,修复异常。目前,这个步骤是部分自动化的。数据科学家可以使用简单的启发式或第三方数据清理工具来清理数据。例如,启发式可以指定自动删除实际范围以外的任何数字。数据清理工具会自动清理模式,执行统计分析,并根据需要完成其他准备步骤。

为什么数据清理还没有完全自动化?一个关键的障碍是数据科学家经常需要对数据做出主观的决定。此外,一个数据集可能包括许多边缘情况;工具或启发式方法可能不容易适应这些情况。

数据探索

数据科学生命周期的下一步是数据探索。在这个阶段,数据科学家使用可视化工具来获得数据的概述。与第一步一样,这个阶段只能部分自动化。数据科学家可以自动创建图形,但分析这些图形仍然需要他们的专业知识。

工程特性

特性工程正逐渐成为AutoML的一部分,并且很可能成为ML进一步自动化的下一个机遇领域。特性工程本身就是从现有的输入中创建新的输入变量(与您试图解决的问题相关)。如果操作正确,特征工程可以通过将模型的注意力吸引到数据中未明确呈现的重要变量上来提高模型的性能。

通过自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源获得特性。这些工具可以快速评估数百个(如果不是数百万个)特性,并输出与模型最相关的特性。对于数据科学家来说,传统上是手工选择的过程,在自动化的帮助下变得更快、更高效。

模型建立

模型构建包括模型选择、验证和超参数优化(HPO)。这正是AutoML真正的亮点所在:完全自动化是可用的。AutoML工具可以为一组输入数据遍历各种模型,选择性能最好的模型。工具可以使用超参数优化和重复验证措施自动调整模型,以提高精度。注意,AutoML模型在准确性和置信度方面仍然表现得很高;我们不会为了效率而牺牲质量。

有关自动化模型构建的更多信息,请参阅我们关于您需要了解的一切的文章AutoML

持续部署

数据科学的生命周期并不会在部署时结束。每一个人工智能模型在生产过程中都需要持续的维护,所以建立一个再培训管道将是成功的关键。在这个领域,我们看到自动化工具的出现,这些工具为模型提供定期的维护检查,确保它们仍然满足准确性和置信度阈值。虽然保持一个human-in-the-loop在这个阶段,自动化取代了完全手动的过程,以更快地解决问题。

一个在行动中的自动化例子:Github副驾驶

作为人工智能自动化的一个现实例子,Github副驾驶员最近推出了。该软件由OpenAI Codex提供支持,是一个人工智能配对程序员,帮助工程师编写代码。利用你正在开发的代码的上下文线索,Github Copilot会在你输入代码时提示行或函数。目标是通过提供可选的解决方案和测试用例来帮助您更快更容易地工作。bob平台app下载Github Copilot只是机器学习自动化在人工智能和工程领域提高效率的最新令人兴奋的应用之一。

人工智能自动化的未来

当我们展望人工智能的未来时,数据科学自动化和AutoML能告诉我们什么?首先,它告诉我们构建人工智能是有挑战性的,但它正变得越来越容易。对自动化的需求无疑源于这样一个事实:启动一个人工智能解决方案是资源密集型的,需要大量的时间、金钱和专业知识的投资,而这往往是小型组织所禁止的。随着自动化工具的出现,这些进入壁垒将会降低,允许更多的参与者在这个领域进行实验和创新。

随着AI和AutoML的发展,一个事实仍然存在:对高质量训练数据的需求持续增长。bob体育手机下载人工智能从业者将需要越来越多的数据来改进和精简他们的机器学习模型,以及保持他们在生产中的表现。向外部数据提供商寻求帮助可以为团队提供正确的工具、专业知识和流程,为长期的人工智能目标创建可扩展的数据管道。作为目前最先进的人工智能辅助数据平台,Appen的解决方案是获取足够高质量数据的最可靠来源,以满足这些日益增长的需求

那么数据科学家呢?机器会消除对它们角色的需求吗?这是不可能的。数据科学家拥有机器无法比拟的高度专业化的领域知识。定义和理解问题,对数据做出假设——这些都需要主观的专业知识。正如我们在软件工程中看到的,当它变得更容易时,对软件工程师的需求只会上升;数据科学可能也不例外。

来源

https://techcrunch.com/2020/08/27/will-automation-eliminate-data-science-positions/

https://towardsdatascience.com/automation-in-data-science-f11fe389d49b

https://www.kdnuggets.com/2018/07/automated-machine-learning-vs-automated-data-science.html

网站部署人工智能与世界级的训练数据bob体育手机下载
语言