Appen机器学习FAQ

推特
推特
linkedin.
分享
脸谱网
fb-share-icon

探索这款机器学习常见问题解答,了解机器学习和人工智能的概述,包括有关不同方法的详细信息以及如何投资。

什么是机器学习?

机器学习是指通过提供指导,帮助机器自己开发逻辑,并让机器访问你想要它探索的数据集,从而教会机器如何学习的过程。其结果就是某种形式的人工智能(AI)。

“尽管它的名字叫‘人工’,但这项技术并不‘人工’——它是人类制造的,目的是像人类一样行动,影响人类。”因此,如果我们希望它在未来的世界发挥积极作用,它必须以人类的关切为指导。”

  • 李菲菲谈“以人为本的人工智能”,《纽约时报》

机器学习是如何工作的?

计算机遵循规则。这些规则也被称为算法。当他们第一次开始学习时,他们会得到一组初始数据来探索。这些数据被称为训练数据。bob体育手机下载

计算机开始识别模式,并根据算法和训练数据做出决定。bob体育手机下载根据使用的机器学习类型,当他们做出正确的决定或朝着最终目标迈出积极的一步时,他们还会获得目标,或获得奖励。当他们建立这种理解或“学习”时,他们通过一系列步骤将新的输入转换为输出,这些输出可能包括全新的数据集、标记数据、决策,甚至行动。

其理念是,机器学习足够多的知识,无需任何人工干预即可操作。通过这种方式,他们开始开发和展示我们所说的人工智能。机器学习是人工智能创造的主要方式之一。

人工智能的其他例子包括机器人、语音识别和自然语言生成,所有这些都需要一些机器学习的元素。实施机器学习的原因和方法有很多。还有各种机器学习算法、类型和训练数据的来源。bob体育手机下载

为什么机器学习发展得如此之快?

近年来,有三件事促成了对机器学习的广泛兴趣。

  1. 所有类型数据的增长
  2. 储存成本下降
  3. 计算机能力的巨大进步

与任何事情一样,也有证据表明还有其他促成因素和商业驱动因素,但就加速使用机器学习和人工智能的创新应用而言,这三项进展显然占据了主导地位。

为什么要投资机器学习?

公共和私营部门的组织都在投资机器学习,因为它可以让他们以以下方式改进:

  • 速度。更快地得到答案和执行复杂的计算。
  • 权力。处理更多的数据,进行更复杂的分析比以往任何时候。
  • 情报。通过挖掘以前无法解读的真实世界数据来发现新的见解。
  • 效率。用更少的人力资源进行更多的分析。

无论你身处哪个行业,你都有可能找到一个可靠的机器学习案例,并能够通过预期的利润和/或利润数字来证明投资的合理性。

已证明机器学习可减少甚至消除手动数据输入,检测垃圾邮件,斗争欺诈和推荐产品。它可以用来预测设备和基础设施需要维护时,它可以告诉您更多关于您之前所知道的客户的信息,并提高客户满意度。

如果你还没有投资机器学习,你需要问问自己:为什么不呢?

什么是机器学习用于?

机器学习的用例非常广泛、多样,而且仍在探索中,因此我们将重点介绍机器学习在五个常见领域的应用。

零售和电子商务

人工智能和机器学习正被用于提高转化率、改善客户体验、提供个性化服务等

  • 搜索的相关性。在线购物者没有提出销售人员可以找到产品的奢侈品。你的现场搜索引擎履行这个角色。通过解释搜索查询,评估用户意图,并使用这些信息来训练你的搜索算法,结果变得更加相关,从而导致更高的购买转化率。
  • 个性化。根据购物者过去的行为向他们提供推荐或搜索结果可以帮助创造更强的用户粘性和留存率。
  • 加强客户服务聊天机器人扮演一个虚拟购物助理。像员工一样,他们需要接受培训,不仅要知道你卖的是什么,还要知道人们在你的网站上使用的许多产品的术语。

科技

搜索引擎和其他领先的技术公司使用机器学习,明确编程他们的AI,以提供创新产品,提高用户体验

  • 搜索的相关性。搜索引擎算法使用机器学习来推动更强的用户参与度。通过解释查询和评估用户意图,搜索结果变得更加相关,从而创造更高的用户满意度。
  • 个性化。分析数据活动和偏好可以帮助搜索引擎和社交媒体提供商个性化内容饲料和建议,提高在线客户体验。
  • 自然语言处理(NLP)。例如,NLP可以分析语言模式来理解可能使用口语或社交媒体上其他自然模式的文本。这种技术可以用来跟踪客户的情绪,并制定参与策略。
  • bob网页版。金融服务领域的领导者使bob网页版用机器学习和人工智能来提高客户获取、留住和整体体验
  • 风险管理。反洗钱(AML)、了解客户(KYC)和欺诈检测程序需要复杂的工具来发现潜在的威胁。仅仅依靠人力来发现财务记录的模式既费时又昂贵。机器学习和人工智能使金融机构能够筛选数据,迅速发现异常情况,防止非法活动,挽救公司的潜在损失。bob外围怎么样
  • 收入一代。如今,金融机构正利用机器学习算法来制定投资策略,从而让金融顾问腾出时间,更多地与客户打交道。
  • 增强客户体验。随着人们对按需客户服务的期待越来越高,聊天机器人扮演着至关重要的角色。聊天机器人通过实时反馈和简化的体验来取悦客户。

汽车

利用自动驾驶汽车的训练数据加速机器学习,并通过更准确的现场测试改善bob体育手机下载语音识别系统、车内导航和用户体验

  • 自主车辆。虽然自动驾驶汽车是极其复杂的机器,但它们的神经网络由机器学习提供动力。当汽车向前行驶时,它会处理大量的视觉数据——就像司机向挡风玻璃外看一样。汽车需要为大量图像数据赋予意义,比如识别一棵树或行人,然后将这些数据反馈给汽车的人工智能,进行教学。
  • 语音识别。传统的仪表板和移动设备将驾驶员的手和眼睛脱离道路。语音接口不。连接的汽车需要访问大规模的演讲数据收集训练语音界面,为全球消费者提供最佳的用户体验。
  • 预测行为。语音识别和跟踪驾驶员情绪的摄像头的进步是人机界面的重要下一步,使汽车能够识别说话者的情绪和他们的语言——这样它们就能知道用户什么时候感到沮丧,并作出相应的反应。

政府

通过安全数据服务提高应急响应,国防计划和执法部门

  • 国防。通过使用社交媒体监控、计算机视觉和数据注释,政府机构现在能够提取信息,以帮助恐怖分子监控、监控国家安全威胁等。
  • 国家紧急情况。自然灾害或协同攻击等紧急情况可能会在没有任何通知的情况下发生。当生命受到威胁时,立即做出反应和协调是关键。通过翻译、语音识别和文本数据收集,世界各地的紧急救援人员可以使用机器与处于危险中的人进行有效沟通。
  • 执法。安全转录允许执法实现许多目标,包括捕获身体磨损视频,官方记录保存和档案记录解决方案的文件。bob平台app下载

医疗保健

人工智能(AI)和机器学习在医疗保健领域的令人兴奋的应用正在改变患者护理

  • 预测分析。评估趋势,预测疫情爆发,并预测患者需求。
  • 聊天机器人和虚拟医疗。提供更快更好的客户服务。
  • 保险业的发展。利用机器学习建立基于各种数据点的更强大的承保模型。

“大多数人类和动物的学习都是非监督学习。如果智力是一块蛋糕,那么非监督学习就是蛋糕,监督学习就是蛋糕上的糖衣,强化学习就是蛋糕上的樱桃。我们知道怎么做糖霜和樱桃,但我们不知道怎么做蛋糕。在我们想到真正的人工智能之前,我们需要解决无监督学习问题。”

  • AI Research主任Yan Lecun,Facebook

哪些是最热门的机器学习方法?

监督式学习

监督学习算法被设计用来根据实例或训练数据确定预测模型。bob体育手机下载这些数据集包含与正确输出变量配对的输入变量。然后,该算法的任务是分析数据,并生成一个函数,准确地将输入映射到相应的输出。一旦经过训练,算法就可以继续预测给定的任何新数据的结果。

  • 分类- 分类是最容易理解的。评估数据以确定它落入的课程。一个例子可能是一个机器学习模型,要求机器确定图片是否是马的。这是一个简单的是/否响应和二进制分类的示例。在提供足够的马匹和非马的培训数据bob体育手机下载之后,机器可以学习马的显着特征,机器将能够自己看一张照片并告诉你它是否是马而不是马。
  • 回归-不是将数据分离并分配给一个类,而是要求机器根据从初始训练数据得到的响应来预测一个响应或输出。bob体育手机下载一个简单的例子是,如果初始输入3和5的目标是8,那么学习到的逻辑将是将这两个输入相加。最终,该模型将使用回归分析来预测投入4和6的目标为10。监督学习是面向任务的;即:“给我找到目标XYZ。”

半监督学习

半监督学习是一个混合模型。使用半监控深度学习的算法在标记和未标记数据的组合上培训。这种方法可以更实用,因为拥有数据科学家或数据工程师标签数据可能是昂贵的。其他次采取这种方法是因为数据的大小如此大量的标记任务将是Herculean。另一个原因队伍采取混合方法是避免可能发生的任何人类偏见数据标签

“在没有证据之前就下结论是最大的错误。不知不觉地,人们开始歪曲事实以适应理论,而不是理论以适应事实。”福尔摩斯

在半监督学习中,您的模型可能受益,并且能够通过一些目标或标记数据更快地工作,而它所做的使未标记数据有意义的工作可能会揭示见解,并提供您尚未发现的输出。在许多情况下,这是一种双赢的方法,也是一种常用的方法。

强化学习

强化学习是最抽象的方法,完全基于机器,通常被称为“学习代理”,通过尝试和错误学习。机器根据奖励的定义来决定在给定的环境中采取何种行动来最大化其性能。这种试错行为被称为探索。它通过了解哪些行为可以获得奖励而获得的知识被称为剥削。

通过对其环境的探索和开发,在先进的机器学习算法的推动下,学习代理最终获得了足够的知识,开始展示近乎人类水平的人工智能。

机器人为强化学习提供了最好的例子。它们在工厂的使用很大程度上依赖于它们使用强化学习的能力,以便在需要时适应环境,并在不断提高错误率的情况下完成类似人类的任务和行为。

机器学习需要什么样的数据?

“机器学习只能和你用来训练它的数据一样好。”

  • Daniel Tunkelang,领英Endeca的机器学习项目负责人

有很多文章都强调了确保你有足够的正确数据来支持你的机器学习项目的重要性。

正如上面引用的敦克朗在文章中继续解释的那样机器学习:每个人都需要了解,“你可以在没有复杂算法的情况下进行机器学习,但不能没有良好的数据。”

那么您需要什么样的数据呢?视情况而定。

结构化数据与非结构化数据

  • 结构化数据结构化数据是有逻辑地组织起来的,便于计算机阅读和理解。它可以是从ERP或CRM系统中提取的机器生成的事务性数据,也可以是关于来自传感器的动作的简单时间戳数据。它也可以是人工生成的数据输入到电子表格中。这种类型的数据最常用于监督学习,而且通常可以很快地处理,即使是在非常大的容量下。
  • 非组织性数据-据行业领导者称,全球80%以上的数据是非结构化的,数据量呈指数级增长。非结构化数据无处不在。人工生成的非结构化数据包括MS word和其他文本文件、演示文稿、视频、图像、音频、社交媒体帖子等。机器生成的非结构化数据包括监控录像、卫星图像和科学数据。监督学习和强化学习是不可思议的工具,可以应用于获得见解,并比以往任何时候都更多地处理非结构化数据。

机器学习需要多少数据?

简短的回答是:很多。世界上最好的算法在数据不足的情况下很难得到正确的结果。

人工智能技术需要对模型进行再训练,以匹配潜在的变化情况,因此训练数据必须经常更新。bob体育手机下载三分之一的情况下,型号需要至少每月更新一次,几乎四分之一的情况下需要每天更新一次。”

为什么?容量越大,精度越高。

有很多原因。一个原因是,对于大多数机器学习模型,您试图通过令人难以置信的变化,获取计算机以了解数据集。

例如,考虑语音识别应用程序和由性别、年龄、方言等差异引起的语音变化。一些专家说,一个模型需要至少1万个小时的音频才能以适度的准确度输出。其他人说,虽然所需的数据总量取决于模型或问题的复杂性,100,000个实例是最低要求对于大多数的模型。

“质量”有关系吗?

是的!也许比数量更重要。

“更多数据击败聪明的算法,但更好的数据击败了更多数据。”

  • Peter Norvig,计算机科学家,谷歌和行业领导者

是什么让数据“坏?”它可能与您的问题无关,不准确的注释,误导或不完整。在这些情况下,它需要一些数据清洁或准备。

如果您的模型的任务是对数据进行分类,那么您的训练数据可能必须首先被正确地标记。bob体育手机下载有时格式是一个问题。例如,如果您正在处理图像数据,那么这些图像可能需要调整大小,以便模型分析相同长度的向量。

您使用的任何数据都需要一些清理。专家报告说,需要完成的工作并不仅仅是数据的提取、转换和加载(ETL)。即使在那之后,为使其适合于数据科学而进行的清理通常也代表了占总工作量的80%在任何机器学习项目中。

机器学习常见问题额外资源

随着用例的不断扩展,您将希望跟上所有改进模型和为客户创建更好产品的方法的速度。

机器学习术语汇编

  • 人工智能(AI) -机器独立运行以完成通常需要人类智能的任务和活动的能力。
  • 聊天机器人,聊天机器人是一种虚拟助手,它通过模拟典型的对话线程与人类进行交流。它通常通过互联网发送,并嵌入到一个网站或移动应用程序中。
  • 数据分类 -数据可以由人或机器分类,并且是将特定类别分配给具有相同特征的数据的过程,例如,日期,来源,类型等。目标是使数据更易于理解和分析或使用。
  • 数据标签-数据标注是由人来完成的,这是一个添加标签的过程,为机器提供了用于监督机器学习模型的目标。
  • 机器学习 -机器学习是通过向机器提供指导,帮助它们自己开发逻辑,并访问你想让它们探索的数据,来教它们如何学习的过程。
  • 加强学习 -当机器或代理给出数据集时,如何探索该数据的一组规则,以及清楚地了解它何时将奖励其性能。由于它探讨了数据及其“环境”,机器通过试验和误差学习最有效,有效的赚取奖励和实现目标的方法。
  • 结构化数据,世界上只有20%的数据被认为是“结构化”。结构化数据以时尚组织,使计算机可以轻松分析和解释。它通常在关系数据库,电子表格和企业系统中找到,例如CRM,ERP和金融应用。
  • 监督学习,监督学习模型是当今使用的机器学习中最简单和最准确的例子。通过监督学习,机器被提供一组结构化的数据,其中包括输入数据和标记为“目标”数据或期望输出的数据。机器从这些例子中学习了将输入转换为输出所用的逻辑,因此最终它只需要输入,并可以独立创建目标输出。
  • bob体育手机下载训练数据,bob体育手机下载训练数据是机器学习项目中用来开始向机器传授项目目标的逻辑、行为或其他智能形式的数据。一旦模型消耗了足够的数据来工作,它将得到测试数据,在项目被声明为成功之前,它将使用验证数据运行。
  • 非结构化数据 -世界上80%的数据并没有以一种容易解释或分析的方式组织起来。例如文本和聊天信息、录制的音频、视频和社交媒体帖子。
  • 无监督学习,给机器的数据没有标记。机器和模型的工作是找到数据之间的相关性、模式或关系,并将这些见解输出。
使用世界级的训练数据部署人工智能的网站bob体育手机下载
语言