数据集资源中心
为世界级AI应用程序的团队创建和策划
现成的数据集
我们的高质量可授权数据集跳动您的AI项目
我们提供了一个广泛的“现成”数据集目录,拥有超过250个可用数据集,包括超过11,000小时的音频,超过25,000个图像,超过80种语言和多种方言超过870万字。我们的废弃货架数据集旨在有效提高精度,整体性能,并以特定的AI计划需要在规模上快速提供高质量数据集。在我们的产品中,您将在多种数据类型中找到数据集,包括图像,视频,语音,音频和文本。我们正在不断构建新数据集,以满足我们的全球客户群的需求。
学到更多
开源公众数据集
从我们的数据科学家为您的AL项目策划建议
机器学习和人工智能应用需要大量的数据训练。您可以从我们推荐的资源中搜索要访问,修改,重用和共享的打开数据集。使用这些公共可用的数据集来影响AI和ML应用程序的开发,或者如果您希望在解决真实数据集之前将一个简单的数据集进行基准测试或比较不同的算法。这些打开的数据集是考虑访问组织范围之外的数据的很好的选择。
数据集查找器
计算机视觉
计算机视觉使计算机能够像人类一样,通过模拟人类视觉系统的部分复杂性来识别和处理图像和视频中的物体。将机器学习应用于图像应用,如使自动驾驶汽车能够感知周围环境、面部识别应用、增强和混合现实,或在医疗保健领域通过x射线和核磁共振扫描发现症状的自动化任务。利用丰富的计算机视觉数据集建立一个健壮的计算机视觉模型。
用于计算机视觉机器学习模型的开源数据集跨各种领域 - 动物,棋盘游戏,自动驾驶汽车,医学,热图像,空中无人机图像,甚至综合生成的数据。您可以以任何格式自由下载图像和注释:VOC XML,COCO JSON,YOLOV3平面文本文件,甚至是TFRecords。
学到更多
演讲语料库
录制和转录新的语音语料库以创建声学模型和火车语音识别发动机可能是耗时和昂贵的。使用语音音频文件的开放数据库和文本转录,以快速和便宜地建立在各种声学条件下的许多扬声器中的转录演讲Ortan。
EdResson.
DataSet具有71,358个单词总数,具有13,311个不同的单词,从单个扬声器的语音大约10小时和28分钟,记录在48kHz,总共包含3,632个波形的音频文件。音频文件范围为0.67到50.08秒。
学到更多
siddelatif.
Urdu DataSet包含从Urdu Talk节目收集的Urdu演讲的情感话语。它包含400个基本情绪的话语:愤怒,快乐,中性和情感。有38个发言者(27名男性和11名女性)。
学到更多
常见的语音数据集是一个开源数据集,目前包含超过7,000小时的60种验证时间,包括可以帮助培训语音识别发动机的准确性的年龄,性和口音等人口统计元数据。DataSet中的每个条目都包含一个唯一的MP3和相应的文本文件。
学到更多
数据采集
如果您的特定用例需要更自定义的数据集,我们将数据收集提供为独立服务以及多组件可交付的一部分,例如ASR语音数据库,通常包括音频数据,转录,发音词典,以及特定于语言的文档或注释图像数据集。我们的数据收集服务跨越各种数据类型和集合方法,以获得一系列环境,以最佳符合您的独特数据要求。
学到更多