伦敦经济学学院采取敏捷方法与Appen数据标签

我们的数据标注平台和全球人群帮助伦敦经济学院的研究人员取代了他们依赖专家研究人员对数据进行标注的传统方法,同时减少偏见,提高速度

“Appen的平台非常易于使用。是什么让它变得伟大的是,由于其全球外联,您可以达到这么多不同的渠道。“

——伦敦政治经济学院数据科学研究所主任肯尼斯•伯努瓦(Kenneth Benoit

大学

伦敦经济学院和政法学院(LSE)成立于1895年,长期以来一直是大学社会科学的全球领导者。他们的许多研究翅膀之一,数据科学研究所(DSI)侧重于研究数据科学,因为它涉及社会,政治和经济问题。实验涵盖了一系列人类问题,常常包括需要人类标签的数据注释项目。

挑战

由方法论系的Kenneth Benoit领导的研究人员开始研究政治科学,因为它与政治文本有关——无论是在内容上还是在复杂性上。在第一个项目中,他们的兴趣在于捕捉政治行为者发送给他人的信息内容,并进一步利用这些发现来计算政党的立场。他们发现,依靠专家研究人员来分析这些信息既费时又昂贵,而且几乎不可能扩大规模。此外,只使用某一领域的专家会提供更单一的视角,使数据可能更有偏见,更不可靠。

该团队需要一种更灵活、可重复的数据标记过程,以取代他们目前的方法。

通过第二个项目,研究人员旨在识别将衡量衡量复杂性或可读性的政治文本的指标。为此,他们需要一个大而不同的文本样本大小,以及众多人类贴标商,以比较彼此的文本。他们还想在多种语言中重现实验,这将需要这种语言的流利贴标者。同样,在每种语言中的专家挑战很难找到,昂贵,耗时。当时,他们与一个有关他们可以支持的语言的局限性的组织合作,使得这些政治文本无法转化为他们设想的所有语言。研究项目所需的报告也无法通过其提供商提供,因此他们必须计算自己的有效性检查 - 对于研究论文至关重要。

解决方案

“Appen的报告功能非常有用,正如人群的完成时间,答复和可靠性分数一样非常有用。”

- LSE数据科学研究所主任Kenneth Benoit

该研究团队在2015年的一次会议上与我们(当时名为CrowdFlower)进行了接触。我们的平台有几个他们需要的功能:

  • 一个仪表板,包含重要的验证指标,如可信度检查
  • 用户友好,所以设置工作是一个快速的过程
  • 获得不受限制的全球贡献者人群

在第一个项目中,参与者被给予政治领导人的句子,并被问到几个问题,比如“这句话是关于移民的吗?”如果是这样,它是支持、中立还是反对移民?”使用统计模型将这些问题的答案汇总在一起,得出一个总分,显示了一个政党对该政策的立场。这些指标随后被用于其他模型的输入,因此标记的准确性是关键。只要参与者的准确率保持在70%以上,他们就可以继续做这个项目。

在第二个项目中,我们的研究对象对政治文本的短文进行了成千上万的成对比较,以回答哪一篇文章更难阅读和理解的问题。研究团队随后利用人群比较来拟合一个衡量文本复杂度的统计模型。他们利用从文本中构建的24个定量指标(如句子长度、单词中的音节数、从属子句数等),找出了最能预测理解某一特定政治作品难度的指标。

结果

这两个项目都代表了成功使用我们的技术平台我们的全球人群以快速,廉价和可扩展的方式完成数据标签,而不会牺牲数据质量。通过第一个项目,可以使用我们的人群只需四到五个小时即可完成为专家拍摄的标签任务,并且由于观点的多样性,可能导致偏差较少的偏差。在实验结束时,贡献者已经向六个政党共注释了20,000个句子,每项判决每一项五到20次。由于我们的全球平台,LSE研究人员还能够用几种其他语言进行复制,以进一步验证他们所产生的数据。有关这项研究的更多信息,查看自己的文章在一份顶尖的政治科学杂志上美国政治审查

第二个实验发表了在另一本顶尖的政治科学杂志上美国政治学报。利用我们的人群进行此实验,使伦敦经济学学院的方法研究团队的LSE部门能够捕获足够大的数据,以进行进一步分析。他们能够识别最佳预测政治文本可读性的前四个指标,然后用于建立一个机器学习模型,可以预测任何政治文本的复杂性。该模型使得能够更准确的比较和分析政治话语前进。

了解更多关于使用Appen扩展和放大您自己的AI计划和数据注释项目数据注释功能。

*向前迈进,肯尼斯Benoit将继续领导类似的研究项目,而是作为数据科学研究所(DSI)的董事,在伦敦经济学院的一个相对较新的研究机翼。

使用世界级培训数据部署人工智能的网站bob体育手机下载
语言