在Appen为机器学习创建结构化数据

推特
推特
linkedin
分享
脸谱网
fb-share-icon

Tammy arves.菲尔•霍尔是Appen的高级副总裁,他们分别掌管我们公司的两个主要部门。bob外围怎么样Tammy领导我们的内容相关性团队。菲尔负责语言资源。我们最近采访了他们,讨论了机器学习对结构化数据的需求。他们还会谈到行业趋势、预测,以及他们为什么喜欢在Appen工作。

Appen: Tammy,你负责Appen的内容相关性部门。什么是内容相关性?

TG:我们与公司合作机器学习或人工智能(AI),帮助他们采取非结构化数据和结构。科技公司有数百万的“投入”或数据点,我们通过构建它,标记它并帮助定义它所说的话来帮助他们对该数据进行理解。这项工作需要大量的人体注释。AI仅作为源的人类数据智能。我们的评估员或评估者可以帮助数据讲述更好的故事。我有一个惊人的团队,帮助我做到这一切。我们共同努力,以确保我们为客户提供最佳数据。

我们在很多不同的行业工作,包括搜索的相关性电子商务社交媒体。对于搜索公司,我们通过比较查询和结果来帮助他们理解搜索数据。例如,有人在搜索登山靴。如果他们得到了户外零售商的主页,这是一个公平的结果。如果他们得到了徒步旅行靴分类页面,这是一个更好的结果。

对于电子商务公司,我们会做很多类似的查询匹配来帮助在线零售商改善结果,并帮助他们的客户找到他们需要的东西。

对于社交媒体,我们帮助公司为用户个性化内容。我们评估人们的饲料内容和广告中出现的内容 - 并确定它是否重要和与他们相关。个性化和相关性是让人回来的是什么,这反过来增加了广告商的价值。

Appen:菲尔,给我们讲讲语言资源吧。

pH:我们与使用语音识别,汽车导航系统,甚至自动驾驶汽车收集和注释数据制作尖端产品的公司。为了我们,数据采集传统上是言论,但它还包括文本以及图像和声音。我们使用所有数据来构建模式识别技术,如语音识别。当客户想要构建全新产品时,他们与我们的数据收集团队合作。我们一起创建了支持每个客户产品所需的机器学习的高质量,结构化数据。

例如,我们已与客户合作,培养携带用户的家庭助理,通过语音识别与用户互动。在这种系列的系列风格中,我们用适当的家具腾出房屋,阶段,雇用人们进来并使用产品,以便我们可以收集声音数据。同样,对于想要扩展到一个新市场的汽车制造商,我们雇用了那个市场的人来驾驶并使用该技术。我们捕获母语人士口语,以及这些特定环境的声学条件。采用现实世界或精心模拟的数据的这种方法导致高质量的最终产品。例如,通过雪驾驶的汽车中的环境声学与干燥条件下的驱动非常不同。收集环境数据很重要,以便语音识别系统可以讲述语音和“噪声”之间的差异。我们专注于收集准确的数据并为机器学习构建它是什么让Appen的解决方案如此有效。bob平台app下载

数据注释通常我们为寻求增强现有产品的客户所做的。对于该业务,客户端将Appen发送其真实的语音交互数据。然后,我们检查它以帮助他们识别和正确的识别失败,因此他们可以恢复模型并提高性能。这是客户可以以小规模做的事情,但是当他们需要大量的高质量数据时,他们会申请 - 10,000小时的音频材料不是一个不寻常的数据量,以便在任何一种语言中引导语音识别器。他们来到我们的是,我们的20年赛道记录这项工作,我们的深度专业知识,我们的卓越数据以及我们为贡献更高质量的最终结果的声誉。

工作中你最喜欢的是什么?

ph:我喜欢我们有一个窗户进入未来。我自2001年以来一直在申请。在此时间内,我一直在帮助客户创建一年后的市场中出现的产品。真令人兴奋。帮助将技术脱离巨大语言也非常令人满意。大多数新技术都致力于美国市场和美国英语。这不会改变。但Appen以超过180种语言工作,所以我们帮助我们的客户将这些技术带到更小而少于资源的市场,例如讲Hausa,Lao,Sindhi和Doluo的那些。

还有,我喜欢周围都是镇上最聪明的人。我们的业务有一些东西吸引了很多聪明的、志同道合的人。

TG:从来没有无聊的时刻。这是我最喜欢这份工作的地方,也是我最忙的地方。我们的客户面临着最令人兴奋的挑战——有时是真正的大挑战。帮助我们的客户解决这些问题并继续前进是令人兴奋和有回报的。但有时,就像Phil提到的,我们得等一两年才能看到它上市。机器学习技术非常神奇。我认为这个行业正在探索我们可以用人工智能做的所有不可思议的事情。这是无穷无尽的。我每天都对我们的客户利用人工智能所做的事情感到惊讶。

问:由于你们都在从事尖端和新兴技术的工作,你们认为哪些领域的需求正在增长?趋势是什么?

TG:对数据结构的需求很大。公司正在收集更多的内容,并试图弄清楚与之有关,如何理解它,所以他们可以让它良好使用。随着物联网的崛起,通过更多的智能设备收集更多的数据,这种趋势肯定会继续。

例如,飞机上有很多传感器,提供各种各样的数据。航空公司和航空航天公司现在已经从这些传感器获得了成千上万的数据点,并且正在努力将这些数据点构建成一种易于理解的方式,以便他们能够使用这些传感器来改善他们的运营。这一趋势也影响了医疗保健行业、金融、搜索等行业。有大量的数据,而且数量还在增加。

ph:一个趋势我看到的是,我们曾经认为自己作为语言业务,但我们真的是一个数据公司;bob外围怎么样我们使用的数据包括文本,图像,视频和音频,包括语音和非语音声音。这反映了对需要快速处理环境数据的自治车辆和机器人兴趣的反映,并以详细的方式。

另一个趋势是越来越多的个性化需求。一个网站或社交媒体信息源越适合个人用户,它就越有用。但提供建议需要我们处理私人数据,这可能是一个敏感的话题。例如,有了家庭助理,他们就在你的家里,和你的家人在一起,一直在听你的语音指令。这些训练bob体育手机下载数据需要帮助这些助手区分人们什么时候在和对方说话,什么时候在和机器说话。

我也看到了一种众包的趋势,但是策划众包。正如Tammy所提到的那样,我们所做的很多工作都需要人类进行详细的注释工作:评估查询结果对,注释图像等。公司希望众包的所有好处 - 成本效率,多样性和即时性 - 但是具有更专业的角度,并在安全的条件下。这正是我们提供的。

你对未来有什么预测吗?

TG:我的预测是我们所做的一切都将更加个性化和积极主动。当我们试图,比如说,在我们所在的地区寻找一部电影时,信息将更容易获得,根据我们的个人喜好,在我们提出要求之前就发送给我们。

我的其他预测是,AI不会把整个星球放在工作中!它会产生有趣和挑战的工作。我们必须改变我们教育人们的方式,以便我们开发不同的技能。将有更多的自动化,但我认为对于所需的工作,AI将创建某种技术工作。

ph:我同意工作。每次推进都会在下次进步。我们的客户用于在100小时的数据上构建工具,然后花了1000个小时,现在是10,000小时。人类必须触及所有数据。要培训机器人,您可能必须填充数百万图像或视频。每张照片,每个视频帧都必须由一个人详细注释,因为机器不会概括和人类。人类可以识别和处理看不见的情况,这类异常口音或或意外的背景噪音,比机器更好。我们更好地扫描一堆数据并确定与情况最为重要的数据,我们在复杂的解决方案也更好。

Appen:您是否曾发现您的团队在客户的项目中合作?

pH:当然。我们最近有一个数据收集项目,需要在很短的通知中在西雅图完成。我的团队是在悉尼的基础上,所以而不是在那里发送我们的整个团队,我们训练了一些基于西雅图的Tammy的团队,他们为我们做了它。我们热衷于在Appen的交叉授粉和越来越多的人。

TG:还有一些项目需要数据注释和语音数据收集。有时,客户机只有类型化版本是不够的。我们有一个客户给我们发送数据,我们对这些数据进行注释,然后把它交给菲尔的团队进行语音记录。

Appen:为什么工作Appen确实重要?

TG:我觉得人们很忙,社会很忙,任何我们都可以做的事情让人们更容易,用来创造效率,这将使我们成为员工,父母,配偶和作为人类更加富有成效。

PH:我想说的是,我们正在通过将技术引入小市场、支持反恐技术和让驾驶变得更安全来改善人们的生活。

当我说我为我们所做的工作感到自豪时,我会发言。我们所做的是困难和复杂的,我们付出了很多努力来寻找高级人民加入我们。这是艰苦的工作,但一旦人们在这里,他们不想去其他地方。我们的保留率是巨大的。在16年半之后,我仍然在这里 - 老实说,我从未想过我曾经有一份书桌工作。*

*菲尔是澳大利亚迷幻朋克集团的前低音吉他手石灰蜘蛛,今年将暂时重新加入西班牙的团聚秀。

使用世界级培训数据部署AI的网站bob体育手机下载