用人类策划数据改进搜索相关算法

推特
鸣叫
linkedin.
分享
Facebook
fb-share-icon

在我们以前的帖子中,我们概述了点击数据和人为策划数据指标之间的区别。如今,我们将挖掘更深入的用例,需要特别需要人类策划数据。

为什么你需要人类策划数据

点击个人贡献者来评估搜索结果,允许您获得明确的相关性判断,这是优化速率的质量更高的度量标准。例如,Etsy转向众人(现为Appen),以帮助他们解决品牌亲和力。他们希望确保与Etsy品牌(最“Etsy-Ness最符合的产品,首先在搜索结果中首先显示。这是一个需要人类判断的问题。由于Etsy平台的性质,典型的点击数据不足。其中一个例子是etsy很有趣的是浏览。如果用户点击页面上的搜索结果页面并不意味着他们找不到他们正在寻找的东西,这只是意味着他们享受浏览。

这就是人类策划数据进入的地方。Etsy使用我们的服务来创建更好的过滤搜索,从而脱离独立卖家的负担来标记其产品,而是利用Appen贡献者来接受工作。随着4000多万产品的生态系统,这不是一项小任务。

在开始设置人类策划数据的相关性评分系统时,我们建议您使用当前搜索算法与单个贡献者进行评分,以建立基线。然后,您可以根据对您和您的站点提供的指标进行更改,然后重新测试查询结果配对,新算法在对旧的旧算法的同一随机查询中产生。

以下是您如何理解您的新算法是否是改进或者您应该进一步更改。

贡献者可以提高您的算法:

  • 分数查询 - 结果对:使用贡献者的最有效的方法之一是查询结果对以测量相关性。要建立此度量标准,必须设计一个数字刻度(通常我们的客户创建2,3或5分尺度),该贡献者用于评分每个查询结果配对。这将为您提供一种高级思想,对您的搜索相关性算法表现的表现以及在后来的相关性测试期间尝试和击败的数字。
  • 额外标记:项目元数据可以显着提高搜索相关性。利用自动化机器学习的标记的自动或串联的贡献者可以快速填充具有新标签的产品数据库。
  • 数据清洁和产品分类:产品数据库变得凌乱。制造商可以使用不同的产品措辞;不同的经销商可以以不同方式描述或标题相同的产品;或者有时,您可能只需几个与一个产品相关的图像,没有真正的知识方式最好。贡献者可以轻松调和这些差异。
使用世界级培训数据部署AI的网站bob体育手机下载