数据资源中心
为从事世界级人工智能应用的团队创建和策划
现成的数据集
我们的高质量授权数据集,以启动您的AI项目
我们提供“现成”数据集的广泛目录,超过250个授权数据集,包括超过11000小时的音频,超过25000张图像和超过870万单词,跨越80种语言和多种方言。我们的现成数据集旨在有效地提高精度和整体性能,并针对特定AI程序的需求快速提供高质量的大规模数据集。在我们的产品中,您将发现跨越多种数据类型的数据集,包括图像、视频、语音、音频和文本。我们不断建立新的数据集,以满足全球客户的需求。
了解更多
开源的公共数据集
我们的数据科学家为您的Al项目策划的推荐
机器学习和人工智能应用需要大量的数据来训练。您可以搜索开放数据集,以访问、修改、重用和共享我们推荐的资源。使用这些公开可用的数据集来影响AI和ML应用程序的开发,或者如果你想要一个简单的数据集来对解决方案进行基准测试,或者在处理真实数据集之前比较不同的算法。对于访问组织范围之外的数据,这些开放数据集是一个很好的选择。
数据集发现者
计算机视觉
计算机视觉通过模拟人类视觉系统的复杂性,使计算机能够像人类一样识别和处理图像和视频中的物体。将机器学习应用于图像应用,如让自动驾驶汽车了解周围环境、面部识别应用、增强现实和混合现实,或在医疗领域的x光和MRI扫描中发现症状的自动化任务。利用丰富的计算机视觉数据集建立一个鲁棒的计算机视觉模型。
计算机视觉机器学习模型的开源数据集涵盖了广泛的领域——动物、桌面游戏、自动驾驶汽车、医学、热图像、无人机图像,甚至是合成数据。您可以免费下载任何格式的图像和注释:VOC XML, COCO JSON, YOLOv3平面文本文件,甚至TFRecords。
了解更多
演讲全集
录制和转录新的语音语料库来创建声学模型和训练语音识别引擎是耗时和昂贵的。使用开放的语音音频文件数据库和文本转录,以快速和廉价地建立转录的语音语料库,其中包含来自不同声学条件下的许多发言者的话语。
数据收集
如果需要更多的自定义的数据集对于特定的用例,我们提供数据收集作为一个独立的服务等多组分的可交付成果的一部分作为一个ASR语音数据库,通常包括音频数据、转录、发音词典,和一个特定于语言的文档或一个带注释的图像数据集。我们的数据收集服务涵盖了各种数据类型和收集方法,适用于各种环境,以最佳地满足您独特的数据需求。
了解更多