Appen机器学习FAQ

2020年7月14日

探索这款机器学习常见问题解答，了解机器学习和人工智能的概述，包括有关不同方法的详细信息以及如何投资。

什么是机器学习?

机器学习是教授机器如何通过提供它的指导来教授机器，帮助他们自己开发逻辑并让他们访问您希望它探索的数据集。结果是某种形式的人工智能（AI）。

“尽管它的名字叫‘人工’，但这项技术没有任何‘人造’的成分——它是由人类制造的，意在模仿人类的行为，并影响人类。因此，如果我们希望它在未来的世界中发挥积极作用，就必须以人类的关切为指导。”

Fei-Fei Li在“以人为本的AI”，纽约时报

机器学习是如何工作的?

计算机遵循规则。这些规则也称为算法。当他们首次开始学习时，它们会探讨初始数据集。该数据称为培训数据。bob体育手机下载

计算机开始识别模式并根据算法和培训数据做出决策。bob体育手机下载根据所使用的机器类型的类型，当他们做出正确的决定或对其最终目标采取积极的一步时，它们也将获得击中或接收奖励的目标。由于它们构建此理解或“学习”，他们通过一系列步骤将新的输入转换为输出，该输出可能包括品牌新数据集，标记数据，决策甚至操作。

他们的想法是，机器可以学习到足够多的知识，在没有任何人类干预的情况下运行。通过这种方式，他们开始发展和展示我们所说的人工智能。机器学习是人工智能产生的主要方式之一。

人工智能的其他示例包括机器人，语音识别和自然语言生成，所有这些都需要一些机器学习的元素。有许多不同的理由来实现机器学习和途径的方法。还有各种机器学习算法和类型和培训数据来源。bob体育手机下载

为什么机器学习很快地生长？

近年来，已经有三件事有助于对机器学习的广泛兴趣。

所有类型数据的增长
储存成本下降
计算能力的大量改进

与任何事情一样，有证据表明其他有贡献的因素和商业司机，但这三个进步在铺平了加速使用机器学习和人工智能的新的和创新应用方面，这三大进展明显占主导地位。

为什么投资机器学习？

公共和私营部门的组织都在投资机器学习，因为它允许他们以以下方式改进:

速度．更快地获得答案和执行复杂的计算。
权力．处理更多数据并比以前更复杂的分析。
智力．通过轻敲以前刻录的现实数据来揭示新的见解。
效率．用更少的人力资源进行更多的分析。

无论你在哪个行业，你都可能会发现机器学习的可靠用例，并能够通过预期的收入和/或收入数字来证明投资的合理性。

已证明机器学习可减少甚至消除手动数据输入，检测垃圾邮件，斗争欺诈和推荐产品。它可以用来预测设备和基础设施需要维护时，它可以告诉您更多关于您之前所知道的客户的信息，并提高客户满意度。

如果您还没有投资机器学习，则需要问自己：为什么不呢？

什么是机器学习用于？

机器学习的用例是庞大，多样化，仍在探索，因此我们将突出机器学习在五个公共领域的应用。

零售和电子商务

人工智能和机器学习用于提高转换率，提高客户体验，提供个性化等等

搜索的相关性．在线购物者没有提出销售人员可以找到产品的奢侈品。你的现场搜索引擎履行这种角色。通过解释搜索查询，评估用户意图，并使用该信息培训搜索算法，结果变得更加相关，这导致更高的购买转换。
个性化．根据其过去的行为为购物者或搜索结果提供建议可以帮助创造更强的用户参与和保留。
增强客户服务．聊天机器人充当虚拟购物助理。像员工一样，他们不需要培训，不仅知道您销售的内容，而且还要知道您网站上的许多产品的术语。

科技

搜索引擎和其他领先的技术公司使用机器学习，明确编程他们的AI，以提供创新产品，提高用户体验

搜索的相关性．搜索引擎算法使用机器学习来推动更强的用户参与度。通过解释查询和评估用户意图，搜索结果变得更相关，从而创造更高的用户满意度。
个性化．分析数据活动和偏好可以帮助搜索引擎和社交媒体提供商个性化内容饲料和建议，提高在线客户体验。
自然语言处理．例如，NLP可以分析语言模式，以理解可能在社交媒体上使用口语或其他自然模式的文本。该技术可用于跟踪客户情绪，并制定参与策略。
bob网页版．金融服务业的领导者使用bob网页版机器学习和人工智能来提高客户获取、保留和整体体验
风险管理．反洗钱（AML），了解您的客户（kyc），欺诈检测程序需要先进的工具来发现潜在的威胁。仅仅依靠人类员工，在金融记录中发现模式可能会耗时和昂贵。机器学习和人工智能允许金融机构通过数据筛选并快速寻找异常，防止非法活动并节省潜在公司损失。bob外围怎么样
收入一代．机器学习算法现在正在被金融机构利用，以创造投资策略，释放财务顾问与客户的更多信息。
增强客户体验．随着人们对随需应变的客户服务的期待，聊天机器人将扮演一个至关重要的角色。聊天机器人通过实时反馈和精简的体验来取悦客户。

汽车

利用自动驾驶汽车的训练数据加速机器学习，并通过更精确的现场测试改善bob体育手机下载语音识别系统、车内导航和用户体验

自动车辆．虽然自动驾驶汽车是极其复杂的机器，但他们的神经网络由机器学习提供动力。随着汽车向前移动时，它处理大量的视觉数据 - 在挡风玻璃时会像司机一样。车辆需要将含义分配到大量的图像数据，例如识别树或行人，然后喂回汽车的AI以教授它。
语音识别．传统的仪表板和移动设备将驾驶员的手和眼睛脱离道路。语音接口不。连接的汽车需要访问大规模的演讲数据收集培训语音界面，以最佳的用户体验为世界各地提供消费者。
预测行为．语音识别技术和摄像头的进步将有助于跟踪驾驶员的情绪，这将是人机界面(Human Machine Interface)的重要一步，使汽车能够识别说话者的情绪和他们的语言，这样当用户感到沮丧时，它们就能知道并做出相应的反应。

政府

通过安全数据服务提高应急响应，国防计划和执法部门

防御．利用社交媒体监控、计算机视觉和数据注释，政府机构现在能够提取信息，以协助恐怖分子监控、监控国家安全威胁等。
国家紧急情况．像自然灾害或协同袭击这样的紧急情况可能在没有任何通知的情况下发生。当生命受到威胁时，立即采取协调行动是关键。通过翻译、语音识别和文本数据收集，世界各地的应急响应人员可以使用机器与处于危险中的人进行有效沟通。
执法．安全转录允许执法实现许多目标，包括捕获身体磨损视频，官方记录保存和档案记录解决方案的文件。bob平台app下载

卫生保健

人工智能（AI）和医疗保健机器学习的令人兴奋的用途正在转化患者护理

预测分析．评估趋势，预测疫情，预测患者需求。
聊天和虚拟医疗保健．提供更快更好的客户服务。
承销概况．利用机器学习建立基于各种数据点的更强大的承保模型。

“大多数人类和动物学习都是无人监督的学习。如果智慧是蛋糕，无人监督的学习将是蛋糕，监督学习将是锦上添花，加强学习将是蛋糕上的樱桃。我们知道如何制作糖衣和樱桃，但我们不知道如何制作蛋糕。我们需要在甚至想到真正的AI之前解决无人监督的学习问题。“

AI Research主任Yan Lecun，Facebook

顶级机器学习方法是什么？

监督学习

监督学习算法被设计用于基于实例或训练数据确定预测模型。bob体育手机下载这些数据集包含输入变量与正确的输出变量配对。然后，该算法的任务是分析数据，并生成一个函数，将输入精确地映射到相应的输出。一旦经过训练，该算法就可以继续预测给出的任何新数据的结果。

分类- 分类是最容易理解的。评估数据以确定它落入的课程。一个例子可能是一个机器学习模型，要求机器确定图片是否是马的。这是一个简单的是/否响应和二进制分类的示例。在提供足够的马匹和非马的培训数据bob体育手机下载之后，机器可以学习马的显着特征，机器将能够自己看一张照片并告诉你它是否是马而不是马。
回归- 而不是将数据分配给类，而是要求机器基于从初始训练数据中获得的响应来预测响应或输出。bob体育手机下载一个易于遵循的例子是如果初始输入为3和5的目标为8，则学习逻辑将是添加两个输入。最终，模型将使用回归分析来预测输入4和6的输入的目标。监督学习是面向任务的;即“找到我的XYZ目标。”

半监督学习

半监督学习是一个混合模型。使用半监控深度学习的算法在标记和未标记数据的组合上培训。这种方法可以更实用，因为拥有数据科学家或数据工程师标签数据可能是昂贵的。其他次采取这种方法是因为数据的大小如此大量的标记任务将是Herculean。另一个原因队伍采取混合方法是避免可能发生的任何人类偏见数据标签．

“在没有证据之前就建立理论，这是最大的错误。不知不觉中，人们开始扭曲事实来适应理论，而不是把理论适应事实。”福尔摩斯

通过半监督学习，您的模型可能会受益，并能够通过一些目标或标记数据更快地工作，它为理解未标记数据所做的工作可能会揭示见解，并为您提供尚未发现的输出。在许多情况下，这是一种双赢的方法，也是一种常用的方法。

加强学习

强化学习是最抽象的方法，完全基于机器，通常被称为“学习代理”，通过尝试和错误学习。在给定的环境中，机器根据给定的奖励定义来决定要采取哪些行动以使其性能最大化。这种反复试验的行为被称为探索。它从理解哪些行为能获得回报中获得的知识被称为剥削。

通过对其环境的探索和开发，学习代理在先进机器学习算法的推动下，最终获得了足够的知识，开始展示几乎与人类相似的人工智能水平。

机器人提供了加强学习的最佳例子。他们的工厂用途严重依赖于他们使用加强学习的能力，以根据需要对其环境进行适应，并完整的人类任务和行为不断提高误差率。

机器学习需要什么样的数据?

“机器学习只能像你用来训练它的数据一样好。”

Daniel Tunkelang，领导Endeca，谷歌，LinkedIn的机器学习项目

关于确保你有足够的正确数据来支持你的机器学习项目的重要性的文章数不胜数。

作为Tunkelang，引用上面，继续在文章中解释机器学习：每个人都需要了解“你可以在没有复杂的算法的情况下拥有机器学习，但不是没有良好的数据。”

那么你需要什么样的数据？这取决于。

结构化与非结构化数据

结构化数据-结构化数据具有逻辑组织，便于计算机阅读和理解。它可以是从ERP或CRM系统中提取的机器生成的事务数据，也可以是来自传感器的简单带有时间戳的动作数据。它也可以是人工生成的数据输入到电子表格中。这种类型的数据最常用于监督学习，它通常可以非常迅速地处理，即使是非常大的容量。
非结构化数据- 根据行业领导者，世界上80％以上的数据是非结构化的，数据量呈指数级增长。非结构化数据到处都是。人生成的非结构化数据包括MS Word和其他文本文件，演示文稿，视频，图像，音频，社交媒体帖子，以及更多。机器生成的非结构化数据的示例包括监视镜头，卫星图像和科学数据。监督和强化学习是令人难以置信的工具，可以应用于获得洞察力，并且与以往以往任何时候都具有非结构化数据。

机器学习需要多少数据？

简单的回答是:很多。即使是世界上最好的算法，也很难在数据不足的情况下得出正确的结果。

“人工智能技术需要对模型进行再培训，以适应潜在变化的条件，因此培训数据必须经常更新。bob体育手机下载在三分之一的情况下，模型需要至少每月更新一次，几乎四分之一的情况下需要每天更新一次。”

麦肯锡全球研究所，来自AI Frentier的笔记

为什么？更大的体积驱动器更高的准确性。

有很多原因。一个原因是，对于大多数机器学习模型，您试图通过令人难以置信的变化，获取计算机以了解数据集。

例如，考虑语音识别应用和由性别，年龄，方言等差异引起的语音变化。一些专家表示，模型需要至少10,000小时的音频，以提供适度的精度水平的输出。其他人说，虽然所需的数据总量取决于模型的复杂性或问题，100,000个实例是最低要求对于大多数模型。

“质量”的事情？

是的！也许甚至超过数量。

“更多数据击败聪明的算法，但更好的数据击败了更多数据。”

Peter Norvig，计算机科学家，谷歌和行业领导者

是什么让数据“坏？”它可能与您的问题无关，不准确的注释，误导或不完整。在这些情况下，它需要一些数据清洁或准备。

如果您的模型是任务的分类数据，则您的培训数据可能必须首先标记。bob体育手机下载有时格式化是一个问题。例如，如果您使用图像数据，则可能需要调整图像，以便模型分析相同长度的向量。

您使用的任何数据都需要一些清理。专家报告说，需要完成的工作不会以提取，转换和加载（ETL）的数据结束。即使在此之后，所需的清理需要适合数据科学通常代表平均值总工作量的80％在任何机器学习项目中。

机器学习常见问题额外资源

随着用例的继续扩展，您将希望在所有改进模型和为客户创建更好产品的方法上保持速度。

机器学习词汇表

人工智能（AI） -机器独立操作以执行通常需要人类智能的任务和活动的能力。
聊天 -聊天机器人是一种虚拟助手，通过模拟典型的对话线程与人类进行交流。它通常通过互联网传递，并嵌入网站或移动应用程序。
数据分类 -数据可以由人或机器分类，并且是将特定类别分配给具有相同特征的数据的过程，例如，日期，来源，类型等。目标是使数据更易于理解和分析或使用。
数据标签 -数据标记是由人类完成的，它是添加标签的过程，为机器提供用于监督机器学习模型的目标。
机器学习 -机器学习是教机器如何学习的过程，通过提供指导，帮助他们发展自己的逻辑，并访问你想让他们探索的数据。
加强学习 -当机器或代理给出数据集时，如何探索该数据的一组规则，以及清楚地了解它何时将奖励其性能。由于它探讨了数据及其“环境”，机器通过试验和误差学习最有效，有效的赚取奖励和实现目标的方法。
结构数据 -世界上只有20％的数据被认为是“结构化”。结构化数据以时尚组织，使计算机可以轻松分析和解释。它通常在关系数据库，电子表格和企业系统中找到，例如CRM，ERP和金融应用。
监督学习 -监督学习模型是当今使用的最简单和最准确的机器学习实例。通过监督学习，提供一种机器的结构化数据，包括已标记为“目标”数据或所需输出的输入和数据。机器从这些示例中学习了哪些逻辑用于将输入转换为输出的逻辑，所以最终需要输入，它可以独立地创建目标输出。
bob体育手机下载培训数据 -bob体育手机下载培训数据是在机器学习项目中使用的数据，以开始教导机器的过程逻辑，行为或针对项目的其他形式的智能。一旦模型消耗了足够的数据到工作，就会给出测试数据，并且在项目被声明之前，它与验证数据一起运行。
非结构化数据 -世界上80％的数据，并没有以时尚组织，使其变得容易解释或分析。示例包括文本和聊天消息，录制的音频，视频和社交媒体帖子。
无人监督的学习 -给出了机器的数据尚未标记。它是机器的工作和模型，以找到数据之间的相关性，模式或关系，并将这些见解作为输出传递。

您可能喜欢的其他博客文章

所有博客文章