大数据创新峰会的见解2017年：利用非结构化数据的六个步骤

2017年4月27日

上周，Appen团队在2017年展出大数据创新峰会在旧金山，我们与各种各样的公司谈到代表航空航天到金融服务的行业，以促进其数据挑战，以及将数据作为业务的战略资产。bob网页版

虽然我们与我们在发言的几家公司已经使用机器学习以进一步推动其业务，但其他人尚未冒险进入该领域，尽管他们承认其潜在利益。据扬声器Jay Yonamine称，数据科学负责人 - 谷歌的全球专利，如果公司可以使用机器学习实施甚至小，增量效率，他们可以实现大量的储蓄和更好的客户成果。yonamine提供了法律行业的一个例子，甚至只有1％的额外额外的效率可以提供更大的机会，可以更好地获得法律代表性和更少的官僚机构，以及在相同数量的效率可以提供更好地获取可能没有访问权限的人的医疗保健预先。

组织可能会努力与机器学习开始的地方，当他们考虑它们产生的大量非结构化数据时，包括电子邮件，文本，演示文稿，视频等。NAV KESHER.Scebook的数据科学负责人突出了他的演示文稿“理解非结构化数据”，解释这一点所有数字数据的80％都是非结构化的，并且在60％的复合年增长率下增长。他使用了冰山类比来展示组织尚未解决的大量数据，并强调分析该数据以产生可操作的见解的重要性。

Kesher概述了一个明确的过程，用于了解非结构化数据：

第1步：建立业务目标
他强调了在10个单词或更少单词中阐明明确的业务目标的重要性。例如，“我应该预期这个假期的订单有多少？”将您的业务目标连接到您的分析目标，并避免范围蠕变以获得最佳结果。

第2步：评估数据源
您需要回答您的问题是什么数据？您需要满足多少数据来解决您的业务目标，以及应分析多少数据类型？

第3步：评估您的数据堆栈和分析工具
kesher推荐使用“Data Lake”而不是数据仓库，因为数据湖泊包含更多的原始数据，可以克切来弄清楚哪个机器学习算法申请。确保您还要考虑堆栈的可扩展性。然后根据您正在查看的非结构化数据类型确定所需的分析工具。

在分析方法方面，Kesher审查了他在一致的基础上使用的以下方法：

他解释说，预测和规定的方法是数据科学家可以添加最大值的地方，因为它们可以使用这些方法来创建模型，以便将来可能发生的事情以及高层管理的建议。

第4步：数据清理
“这是我生命中的祸根”，Kesher解释说，他使用以下幻灯片来说明可以写入日期的数据点的许多方式。但必须清理此数据以进行模型工作：

“如果有一件事打破，整个模型休息......你不知道痛苦（机器学习）是多么痛苦，直到你到最后一步......我做了两天的所有工作只是为了清理数据。”

第5步：数据建模
你的准确性高90％吗？您需要如何准确以满足您的业务目标。每个数据科学家都应该问自己这个问题。如果它允许您快速移动，即使是70％的准确性也可能正常。

第6步：数据可视化
根据Kesher，数据可视化是“每个数据科学家需要知道的艺术”。成为一个好的故事讲述者。使用您的模型通知您的利益相关者对您的研究结果可能拥有的影响。使您的见解简单，并将您的分析与数据一起进行。并确保您的工作是可重复的，因此下一个数据科学家可以构建它而不是必须重新开始。

非结构化数据可用于为采取措施为此努力分配资源的组织来构建竞争优势。数据清理是过程中的一个关键步骤，对于模型来产生有意义的洞察力。无论您是使用文本，语音或图像数据，Appen都可以帮助您使用我们的全局注释它，策划人群。我们与领先的技术公司合作，提供高质量bob体育手机下载对于他们的机器学习平台，并邀请有机会讨论您的特定数据需求。今天联系我们。

您可能喜欢的其他博客文章

所有博客文章