大数据创新峰会的见解2017年：利用非结构化数据的六个步骤

通过的动作。2017年4月27日

上周，Appen团队在2017年展览大数据创新峰会在旧金山，我们与来自航空航天、金融服务和零售等多个行业的公司进行了交流，讨论了他们面临的数据挑战，以及如何将数据作为其业务的战略资产。bob网页版

虽然我们采访的几家公司已经在使用机器学习来进一步发展他们的业务，但其他公司还没有进入该领域，尽管他们承认其潜在的好处。谷歌全球专利数据科学负责人Jay Yonamine表示，如果公司能够利用机器学习实现哪怕是很小的、增量的效率，他们就可以为客户节省大量成本，并获得更好的结果。约那明举了一个例子，在法律行业，即使只增加1%的效率，也可以提供更多的法律代表和更少的官僚主义，在医疗保健行业，同样多的效率可以为那些之前可能没有获得医疗服务的人提供更好的机会。

组织可能会努力与机器学习开始的地方，当他们考虑它们产生的大量非结构化数据时，包括电子邮件，文本，演示文稿，视频等。Nav KesherFacebook的数据科学主管在他的演讲“理解非结构化数据”中强调了这个问题，并对此进行了解释80%的数字数据是非结构化的，并以60%的年复合增长率增长。他使用了冰山类比来展示组织尚未解决的大量数据，并强调分析该数据以产生可操作的见解的重要性。

Kesher概述了一个理解非结构化数据的清晰过程:

步骤1:建立商业目标
他强调了用不超过10个单词表达清楚商业目标的重要性。例如，“这个假期我应该收到多少订单?”将您的业务目标与您的分析目标联系起来，避免范围蔓延以获得最佳结果。

步骤2:评估数据源
您需要回答您的问题是什么数据？您需要满足多少数据来解决您的业务目标，以及应分析多少数据类型？

步骤3:评估您的数据堆栈和分析工具
kesher推荐使用“Data Lake”而不是数据仓库，因为数据湖泊包含更多的原始数据，可以克切来弄清楚哪个机器学习算法申请。确保您还考虑到堆栈的可伸缩性。然后根据所查看的非结构化数据类型确定所需的分析工具。

在分析方法方面，Kesher回顾了他一贯使用的以下方法:

他解释说，预测和指导性的方法是数据科学家可以增加最大价值的地方，因为他们可以使用这些方法创建未来可能发生的模型，并为高层管理提供建议。

步骤4:数据清理
“这是我生活中的祸根，”Kesher解释道，他使用下面的幻灯片来说明像日期这样简单的数据点可以用很多方式来书写。但是这些数据必须被清除才能让模型工作:

“如果有一件事打破，整个模型休息......你不知道痛苦（机器学习）是多么痛苦，直到你到最后一步......我做了两天的所有工作只是为了清理数据。”

步骤5:数据建模
你能接受90%的准确率吗?你需要多精确才能达到你的商业目标。每个数据科学家都应该问自己这个问题。如果能让你快速移动，即使70%的准确率也可以。

步骤6:数据可视化
凯舍认为，数据可视化是“每个数据科学家都需要了解的一门艺术”。成为一个优秀的故事讲述者。使用您的模型来告知涉众您的发现对业务的影响。让你的见解变得简单，用数据来支持你的分析。确保你的工作是可重复的，这样下一个数据科学家就可以在它的基础上进行构建，而不必重新开始。

非结构化数据可用于为采取步骤为这项工作分配资源的组织构建竞争优势。数据清理是过程中的关键步骤，对于模型产生有意义的见解至关重要。无论您是处理文本、语音还是图像数据，Appen都可以帮助您使用我们的global，策划人群。我们与领先的技术公司合作，提供高质量的产品bob体育手机下载为他们的机器学习平台，并将邀请机会讨论您的具体数据需求。今天联系我们。

其他你可能喜欢的博客文章

所有博客文章