成品数据集


我们的经授权可机的成型品码集将快速启动词的ai项目

查看数量集产品目录
观看数据集视频介绍


图像

数据产品目录



澳鹏提供种类丰富的成品数据库,我们的数据产品目录包括250多个可授权的数据集,涵盖80多种语言及方言,适用于各种常见的AI应用场景,例如:TTS, ASR等(参考下面目录表的筛选功能查看更多应用场景)。我们也在不断更新数据库中,2020年将推出30多个全新数据集,联系我们为您一同构建适用于您的项目的数据产品。



图像

快速部署



直接获取数据库产品快速为您部署AI与机器学习项目


图像

低成本高效益



直接获取经授权的成品数目您定制数码采集服务更更服务更。


图像

专家团队



您将拥有一脚在数码采集采集领域20多年的专家团队支持


图像

支持所有数据类型



图片,视频,语音,音频,文本

图像

大规模



提供大量,高品质的数码高层地训练您的机器器模型

图像

高度



提高您的机器模型质量并减少数据偏见






数据集名称 产品类型 常见实用场景 录音制备 单一
数字名称 产品类型 常见使用案例 录音制备 单一
84.
Sorani(库尔德语)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 5小时 添加到咨询列表 sor_asr001. Appen Global. 对话录音 库尔德语 伊朗 低背景噪音 170 2 可根据要求提供 7 924 8 Alaw或Vav. 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
K
256
上海方言(中国)多人对话式录音语料库
音频 ASR,对话式AI,语音分析 移动电话 4.5小时 添加到咨询列表 上海_ASR002_CN. Appen中国 对话录音 上海方言 中国 低背景噪音(家居/办公园) 14 1 NA. NA. 8 覆盖地区:上海黄浦区,徐汇区,长宁区,静安区,普陀区,虹口区,杨浦区,浦东新闻八区。注:数码不夹上海郊区郊区数码以及成年人录制数据。单人发出时代长约40分钟,单位个对话20〜30分钟之间是2〜5人自然对话形式数码为数码,编号和人信会。数码,价格,不知道,不舒服 Z
255
上海方言(中国)多人对话式录音语料库
音频 ASR,对话式AI,语音分析 录音笔/麦克风 21小时 添加到咨询列表 SHANGHAI_ASR001_CN Appen中国 对话录音 上海方言 中国 低背景噪音(家居/办公园) 51 1 NA. NA. 16 覆盖地区:上海黄浦区,徐汇区,长宁区,静安区,普陀区,虹口区,杨浦区,浦东新闻八区。注:数码不夹上海郊区郊区数码以及成年人录制数据。单人发出时代长约40分钟,单位个对话20〜30分钟之间是2〜5人自然对话形式数码为数码,编号和人信会。数码,价格,不知道,不舒服 Z
277
上海语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 4.1小时 添加到咨询列表 上海_ASR003_CN. Appen中国 语料朗读 上海 中国 低背景噪音(家居/办公园) 8 NA. NA. 16 Z
257
东北方言(中国)多人对话式录音语料库
音频 ASR,对话式AI,语音分析 录音笔/麦克风 84.6小时 添加到咨询列表 dongbei_asr001_cn. Appen中国 对话录音 东北方言 中国 低背景噪音(家居/办公园) 268 1 NA. NA. 16 覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。数据库只是语音库,不含有转写文字 Z
258
东北方言(中国)多人对话式录音语料库
音频 ASR,对话式AI,语音分析 移动电话 75.2小时 添加到咨询列表 dongbei_asr002_cn. Appen中国 对话录音 东北方言 中国 低背景噪音(家居/办公园) 185 1 NA. NA. 8 覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区,朝阳区,宽城区,二道区,南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区 注:数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。数据库只是语音库,不含有转写文字 Z
276
东北语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 2.72小时 添加到咨询列表 DONGBEI_ASR003_CN Appen中国 语料朗读 东路 中国 低背景噪音(家居/办公园) 8 NA. NA. 16 Z
159
丹麦(丹麦)发出词典
文本 ASR,TTS,语言建模 N / A. 107,000个单词 添加到咨询列表 dan_dnk_phon. Appen Global. 发布词典 丹麦语 丹麦 N / A. N / A. N / A. N / A. 107 000. N / A. 文本 D
86.
丹麦(丹麦)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 53小时 添加到咨询列表 Speecon丹麦 细微差别 有定稿的录音 丹麦语 丹麦 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
D
160
丹麦(丹麦)词性词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 dan_DNK_POS Appen Global. 词性词典 丹麦语 丹麦 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 D
247
佩克兰克(乌克兰)发出词典
文本 ASR,TTS,语言建模 N / A. 5000个单词 添加到咨询列表 ukr_UKR_PHON Appen Global. 发布词典 乌克兰语 乌克兰 N / A. N / A. N / A. N / A. 000年5 N / A. 文本 W
133.
乌尔都语都语
文本 尼珥,内容分类,搜索引擎 N / A. 20,634个个子 添加到咨询列表 URD_NER001 Appen Global. n 乌尔都语 巴基斯堡 N / A. N / A. N / A. 20 634. 可根据要求提供 N / A. 文本 W
101.
乌尔都语(印度/巴基斯人)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 47小时 添加到咨询列表 URD_ASR001 Appen Global. 对话录音 乌尔都语 印度 - 巴基斯坦 混合 1 000 2 可根据要求提供 871 8 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
W
248
乌尔都语(巴基斯坦)发出词典
文本 ASR,TTS,语言建模 N / A. 40,000个单词 添加到咨询列表 urd_pak_phon. Appen Global. 发布词典 乌尔都语 巴基斯堡 N / A. N / A. N / A. N / A. 40 000 N / A. 文本 W
249
乌尔赫(巴基斯望)词性词典
文本 ASR,TTS,语言建模 N / A. 12000个单词 添加到咨询列表 urd_PAK_POS Appen Global. 词性词典 乌尔都语 巴基斯堡 N / A. N / A. N / A. N / A. 000年12 N / A. 文本 W
265
他加禄语语音数据库
音频 ASR,对话式AI,语音分析 电气录音 68.25小时 添加到咨询列表 tagalo_asr001_cn. Appen中国 语料朗读 他加禄语 菲律宾 低背景噪音(家居/办公园) 84. 1 NA. NA. 16 Ulaw,Alaw. 覆盖地区:菲律宾单人录制大约4800年代(500个句子),每个句子在3到10秒之间。内容为单人朗读所给语料。以电话录音实现,要求设备的多样化:手机、扬声器、固定电话、耳机。 T
194
伊博语(尼日利亚)发出词典
文本 ASR,TTS,语言建模 N / A. 30,000个单词 添加到咨询列表 ibo_NGA_PHON Appen Global. 发布词典 伊博客 奈及利亚 N / A. N / A. N / A. N / A. 30 000 N / A. 文本 Y
178
伊朗伊朗斯语(伊朗)发出词典
文本 ASR,TTS,语言建模 N / A. 80000个单词 添加到咨询列表 pes_irn_phon. Appen Global. 发布词典 波斯语 伊朗 N / A. N / A. N / A. N / A. 80 000 N / A. 文本 Y
179
伊朗波斯语(伊朗)词性词典
文本 ASR,TTS,语言建模 N / A. 1,400,000个单词 添加到咨询列表 pes_IRN_POS Appen Global. 词性词典 波斯语 伊朗 N / A. N / A. N / A. N / A. 1 400 000 N / A. 文本 Y
224
俄罗斯(俄罗斯)发出词典
文本 ASR,TTS,语言建模 N / A. 115000个单词 添加到咨询列表 RUS_RUS_PHON. Appen Global. 发布词典 俄语 俄国 N / A. N / A. N / A. N / A. 115 000. N / A. 文本 E
78
俄罗斯(俄罗斯)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 37小时 添加到咨询列表 RUS_ASR001. Appen Global. 对话录音 俄语 俄国 低背景噪音 200 2 可根据要求提供 28 284. 8 Alaw或Vav. 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
E
80
斯诺斯(俄罗斯)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 180小时 添加到咨询列表 俄语演示(e)数据库 细微差别 有定稿的录音 俄语 俄国 低背景噪音 2 500年 1 112 000. 可根据要求提供 8 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制45个语料,语料语料数码,自然数,字母字母,个人,地点和企业名,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
E
79
斯诺斯(俄罗斯)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 31小时 添加到咨询列表 RUS_ASR002. 全球手机 有定稿的录音 俄语 俄国 低背景噪音(家居/办公园) 115. 1 12 205. 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
E
92.
斯诺斯(俄罗斯)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 46小时 添加到咨询列表 Speecon俄罗斯数据库 细微差别 有定稿的录音 俄语 俄国 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
E
225
俄罗斯(俄罗斯)词性词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 rus_RUS_POS Appen Global. 词性词典 俄语 俄国 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 E
129.
俄语尼珥语料库
文本 尼珥,内容分类,搜索引擎 N / A. 29888个句子 添加到咨询列表 RUS_NER001 Appen Global. n 俄语 俄国 N / A. N / A. N / A. 29 888. 可根据要求提供 N / A. 文本 E
269
俄语(韩国)自然说语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 30.89小时 添加到咨询列表 RUS_ASR003_CN. Appen中国 自由说 俄语(俄国) 俄国 低背景噪音(家居/办公园) 32 1 NA. NA. 16 E
151
保加利亚语(保加利亚)发出词典
文本 ASR,TTS,语言建模 N / A. 55,000个单反装 添加到咨询列表 bul_BGR_PHON Appen Global. 发布词典 保加利亚语 保加利亚 N / A. N / A. N / A. N / A. 000年55 N / A. 文本 B
6
保加利亚语(保加利亚)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 38小时 添加到咨询列表 BUL_ASR001 Appen Global. 对话录音 保加利亚语 保加利亚 低背景噪音(家居/办公园) 217 2 可根据要求提供 22 342 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
B
107.
保加利亚语(保加利亚)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 22小时 添加到咨询列表 BUL_ASR002 全球手机 有定稿的录音 保加利亚语 保加利亚 低背景噪音(家居/办公园) 77 1 674年8 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
B
157
克罗地亚语(克罗地亚)发作牌
文本 ASR,TTS,语言建模 N / A. 20000个单词 添加到咨询列表 hrv_HRV_PHON Appen Global. 发布词典 克罗地亚语 克罗地亚 N / A. N / A. N / A. N / A. 000 N / A. 文本 K
8
克罗地亚语(克罗地亚)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 39小时 添加到咨询列表 CRO_ASR001 Appen Global. 对话录音 克罗地亚语 克罗地亚 低背景噪音(家居/办公园) 200 2 可根据要求提供 23 919. 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
K
112.
克罗地亚语(克罗地亚)有定稿的智能手机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 263小时 添加到咨询列表 CRO_ASR003_CN. Appen中国 有定稿的录音 克罗地亚语 克罗地亚 低背景噪音(家居/办公园) 243 1 73 467. 136 140 16 数据集已完全转录 K
9
克罗地亚语(克罗地亚)有了定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 11小时 添加到咨询列表 CRO_ASR002 全球手机 有定稿的录音 克罗地亚语 克罗地亚 低背景噪音(家居/办公园) 94. 1 499年4 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
K
261
内蒙古方向(中国)双人对话式录音语料库
音频 ASR,对话式AI,语音分析 移动电话 100小时 添加到咨询列表 nmg_asr001_cn. Appen中国 对话录音 内蒙古族语 中国 低背景噪音(家居/办公园) 200 1 NA. NA. 16 覆盖地区:通辽呼和浩特锡林郭勒盟。单人发表时长约30分钟,内容别为2人自我对话对话数码为数码,单号和人信会。数码,所以是数码,尺寸和人们信息。数码只只,不知道转写文章 Z
155
加泰罗尼亚语(西北)发作
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 cat_ESP_PHON Appen Global. 发布词典 加胜罗尼亚语 西班牙 N / A. N / A. N / A. N / A. 000 N / A. 文本 J
193
匈牙利语(匈牙利)发音词典
文本 ASR,TTS,语言建模 N / A. 500个单词 添加到咨询列表 hun_hun_phon. Appen Global. 发布词典 匈牙利 匈牙利 N / A. N / A. N / A. N / A. 500. N / A. 文本 X
115.
匈牙利语(匈牙利)有定稿的智能智能机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 286小时 添加到咨询列表 hun_asr001_cn. Appen中国 有定稿的录音 匈牙利 匈牙利 低背景噪音(家居/办公园) 254 1 94 031. 201 921 16 数据集已完全转录 X
45
匈牙利语(匈牙利)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 65小时 添加到咨询列表 匈牙利SpeechDat (E) 细微差别 有定稿的录音 匈牙利 匈牙利 低背景噪音 1 000 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制48个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
X
200
卡纳达语(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 35000个单词 添加到咨询列表 kan_ind_phon. Appen Global. 发布词典 坎那达语 印度 N / A. N / A. N / A. N / A. 35 000 N / A. 文本 K
54
卡腾达(印度)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 15时 添加到咨询列表 KAN_ASR001 Appen Global. 对话录音 坎那达语 印度 混合 178 2 可根据要求提供 15 660. 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
K
105.
卡腾达(印度)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 57小时 添加到咨询列表 KAN_ASR001A Appen Global. 对话录音 坎那达语 印度 混合 1 000 2 可根据要求提供 15 660. 8 一条法律 数据集中大约25%的会话被转录并加盖了时间戳,可以提供完整的转录文本
数据又一次包含所的发出的发作
K
162
卢奥语(肯尼亚)发出词典
文本 ASR,TTS,语言建模 N / A. 20000个单词 添加到咨询列表 luo_ken_phon. Appen Global. 发布词典 卢奥语 肯尼亚 N / A. N / A. N / A. N / A. 000 N / A. 文本 l
284
印地语自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 2.65小时 添加到咨询列表 hindi_asr001_cn. Appen中国 自由说 印地语 印度 低背景噪音(家居/办公园) 6 NA. NA. 16 Y
192
印地语(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 35000个单词 添加到咨询列表 hin_ind_phon. Appen Global. 发布词典 印地语 印度 N / A. N / A. N / A. N / A. 35 000 N / A. 文本 Y
44
印地语(印度)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 32小时 添加到咨询列表 hin_asr002. Appen Global. 对话录音 印地语 印度 混合 996. 2 可根据要求提供 12 266. 8 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
Y
43
印地语(印度)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 移动电话 224小时 添加到咨询列表 hin_asr001. Appen Global. 有定稿的录音 印地语 印度 低背景噪音 1 920 1 96 000 853年9 8 一条法律 完全转录为SpeechDAT类型
数据又一次包含所转录词的大声[SAMPA]
每每发表人录制50个语料,语料语料数码,自然数,个人,地址和企业名称,网友,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
Y
147
印尼文(印度尼西亚)发出词典
文本 ASR,TTS,语言建模 N / A. 95000个单词 添加到咨询列表 ind_idn_phon. Appen Global. 发布词典 印度尼西亚语 印度尼西亚 N / A. N / A. N / A. N / A. 95 000 N / A. 文本 Y
148
印尼文(印度尼西亚)词性词典
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 ind_IDN_POS Appen Global. 词性词典 印度尼西亚语 印度尼西亚 N / A. N / A. N / A. N / A. 000 N / A. 文本 Y
286
印尼语自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 3.77小时 添加到咨询列表 IND_ASR001_CN. Appen中国 自由说 印尼语 印尼 低背景噪音(家居/办公园) 7 NA. NA. 16 Y
3.
印尼语(印度尼西亚)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 31小时 添加到咨询列表 bah_asr001. Appen Global. 对话录音 印度尼西亚语 印度尼西亚 低背景噪音 1 002 2 可根据要求提供 11 480. 8 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对于很大比例的电话录音,只有一半的对话被收集和转录
Y
279
台湾自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 3.12小时 添加到咨询列表 台湾_ASR001_CN. Appen中国 自由说 台湾 中国 低背景噪音(家居/办公园) 10 NA. NA. 16 Z
251
吴语(中国)发音词典
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 wuu_chn_phon. Appen Global. 发布词典 吴语 中国 N / A. N / A. N / A. N / A. 000 N / A. 文本 W
201
哈萨克语(哈萨克斯坦)发音词典
文本 ASR,TTS,语言建模 N / A. 30,000个单词 添加到咨询列表 kaz_KAZ_PHON Appen Global. 发布词典 哈萨克语 哈萨克斯坦 N / A. N / A. N / A. N / A. 30 000 N / A. 文本 H
283
四川语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 3.86小时 添加到咨询列表 SICHUAN_ASR001_CN Appen中国 语料朗读 四川 中国 低背景噪音(家居/办公园) 8 NA. NA. 16 Z
245
土耳其语(土耳其)发出词典
文本 ASR,TTS,语言建模 N / A. 255000个单词 添加到咨询列表 tur_tur_phon. Appen Global. 发布词典 土耳其语 土耳其 N / A. N / A. N / A. N / A. 255 000. N / A. 文本 T
98.
土耳其语(土耳其)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 41小时 添加到咨询列表 tur_asr001. Appen Global. 对话录音 土耳其语 土耳其 低背景噪音 200 2 可根据要求提供 32 386. 8 Alaw或Vav. 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
T
117.
土耳其语(土耳其)有定稿的智能智能机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 739小时 添加到咨询列表 tur_asr003_cn. Appen中国 有定稿的录音 土耳其语 土耳其 低背景噪音(家居/办公园) 664 1 185 706. 215 135. 16 数据集已完全转录 T
65
土耳其语(土耳其)电话录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 118小时 添加到咨询列表 OrienTel土耳其数据库 细微差别 有定稿的录音 土耳其语 土耳其 低背景噪音 1 700 1 76 500. 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制45个语料,语料语料数码,自然数,字母字母,个人,地点和企业名,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
T
246
土耳其语(土耳其)词性词典
文本 ASR,TTS,语言建模 N / A. 257,000个单一 添加到咨询列表 tur_TUR_POS Appen Global. 词性词典 土耳其语 土耳其 N / A. N / A. N / A. N / A. 257 000. N / A. 文本 T
99.
土耳其语(土耳其)麦克风录音数码
音频 ASR,虚拟虚拟,聊天机器人 麦克风 17小时 添加到咨询列表 tur_asr002. 全球手机 有定稿的录音 土耳其语 土耳其 低背景噪音(家居/办公园) 100. 1 950年6 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
T
240
塔加洛语(菲律宾)发出词典
文本 ASR,TTS,语言建模 N / A. 30,000个单词 添加到咨询列表 tgl_PHL_PHON Appen Global. 发布词典 塔加拉族语 菲律宾 N / A. N / A. N / A. N / A. 30 000 N / A. 文本 T
226
塞尔维亚语(塞尔维亚)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 srp_srb_phon. Appen Global. 发布词典 塞尔达亚克 塞尔维亚 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 年代
239
塞海洋(孟加拉国 - 印度)发出词典
文本 ASR,TTS,语言建模 N / A. 22,000个单词 添加到咨询列表 syl_bgd -ind_phon. Appen Global. 发布词典 塞海蒂语 孟加拉国-印度 N / A. N / A. N / A. N / A. 22 000 N / A. 文本 年代
264
外国人说中文语音数码
音频 ASR,对话式AI,语音分析 移动电话 200小时 添加到咨询列表 FOREIGNER_ASR001_CN Appen中国 有定稿的录音 中文(外国人) 多国 低背景噪音(家居/办公园) 200 NA. NA. 16 数码包含200小时的外国人说中文人数:200人覆盖国:印度,菲律宾,日本,加油大,泰国,毛利利亚,湖南,俄罗斯,土耳其,埃及,印度尼西亚。注:数码不凡韩国,巴西户外数码同同不再六成年人录制数码。单人发表时长约1小时,单位时长3-10秒之间为单人朗读形式工具为机器麦克风单位采样率16khz录音环境为家庭/办公主。数据为代表资料,方号和人士信息会打乱。 Z
266
多姿态多光线人像图片数据库
图表 图片标签识别训练 手机/照相机 680张 添加到咨询列表 IMG_BODY_POSE_CN Appen中国 物体图片 N / A. 多国 多种光线 NA. NA. NA. NA. NA. jpg. 共680张,多人室内67张,多人室外强光11张,多人室外弱光4张,单人室内550张,单人室外强光7张,单人室外弱光41张 Z
263
多标签图片数据库
图表 图片标签识别训练 手机/照相机 2196张 添加到咨询列表 IMG_TAG_CN Appen中国 物体图片 N / A. N / A. 多种光线 NA. NA. NA. NA. NA. jpg. 共2196张多场景图片样例库,可做速成库。分类为:KTV: 50张,百货商店:55张,办公室:100张;博物馆:63张;电器:55张;海洋:191张;汽车:50张;手提包:35张;夜景:54张,运动器材:54张,便利店:34张;餐厅:54张;车窗风景:62张;宠物:82张;船50张;动物园,70张;服装店:53张;海滩:95张;机场:65张;健身房:47张;景点:77张;人群:67张;沙漠:73张;沙滩:68张;山区:54张;商场:55张;树:85张;天空:102张;雪景:71张;雪山:53张;夜景:78张;游乐场:94张。 Z
215
奥里雅语(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 ori_IND_PHON Appen Global. 发布词典 奥里克 印度 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 一个
120.
婴幼儿啼哭语料库
音频 婴儿仪器,安全及其他消费者应使用程序 移动电话 3小时 添加到咨询列表 CRY_ASR001 Appen中国 人声 N / A. 中国 低背景噪音(家居/办公园) 100. 1 NA. NA. 16 0到3岁婴儿的哭声,每个录音持续2分钟左右 Z
150
孟加拉语(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 29000个单词 添加到咨询列表 ben_IND_PHON Appen Global. 发布词典 孟加拉姆 印度 N / A. N / A. N / A. N / A. 29 000. N / A. 文本
5
孟加拉普(孟加拉国)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 47小时 添加到咨询列表 BEN_ASR001 Appen Global. 对话录音 孟加拉姆 孟加拉国 混合(车内/路边/家庭/办公室) 1 000 2 可根据要求提供 17 922 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
156
宿雾语(菲律宾)发出词典
文本 ASR,TTS,语言建模 N / A. 20000个单词 添加到咨询列表 CEB_PHL_PHON. Appen Global. 发布词典 宿雾语 菲律宾 N / A. N / A. N / A. N / A. 000 N / A. 文本 年代
149
巴斯克(西班牙)发音词典
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 EUS_ESP_PHON. Appen Global. 发布词典 巴斯克伦 西班牙 N / A. N / A. N / A. N / A. 000 N / A. 文本 B
191
希伯来到(以色列)发出词典
文本 ASR,TTS,语言建模 N / A. 31000个单词 添加到咨询列表 heb_isr_phon. Appen Global. 发布词典 希伯莅临 以色列 N / A. N / A. N / A. N / A. 31日000年 N / A. 文本 X
42
希伯来语(以色列)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 34小时 添加到咨询列表 HEB_ASR001 Appen Global. 对话录音 希伯莅临 以色列 低背景噪音 200 2 可根据要求提供 19日250年 8 Alaw或Vav. 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
X
187
希腊语(希腊)发音词典
文本 ASR,TTS,语言建模 N / A. 5000个单词 添加到咨询列表 ell_grc_phon. Appen Global. 发布词典 希腊语 希腊 N / A. N / A. N / A. N / A. 000年5 N / A. 文本 X
114.
希腊语(希腊)有定稿的智能手机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 191小时 添加到咨询列表 GRE_ASR001_CN Appen中国 有定稿的录音 希腊语 希腊 低背景噪音(家居/办公园) 287 1 113年54 68 271. 16 数据集已完全转录 X
152
广东话(中国)发音词典
文本 ASR,TTS,语言建模 N / A. 37000个单词 添加到咨询列表 yue_chn_phon. Appen Global. 发布词典 广东话(粤语) 中国 N / A. N / A. N / A. N / A. 000年37 N / A. 文本 简体 G
153
广东话(中国)发音词典
文本 ASR,TTS,语言建模 N / A. 40,000个单词 添加到咨询列表 yue_chn_phon. Appen Global. 发布词典 广东话(粤语) 中国 N / A. N / A. N / A. N / A. 40 000 N / A. 文本 繁体 G
154
广东省(中国)词性词典
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 yue_hkg_pos. Appen Global. 词性词典 广东话(粤语) 中国 N / A. N / A. N / A. N / A. 000 N / A. 文本 繁体 G
278
广东语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 4.06小时 添加到咨询列表 GUANGDONG_ASR001_CN Appen中国 语料朗读 广东 中国 低背景噪音(家居/办公园) 8 NA. NA. 16 Z
204
库尔芬(土耳其)发出词典
文本 ASR,TTS,语言建模 N / A. 60,000个单反装 添加到咨询列表 kur_TUR_PHON Appen Global. 发布词典 库尔德语 土耳其 N / A. N / A. N / A. N / A. 60 000 N / A. 文本 K
267
德语 (德国)自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 20.19小时 添加到咨询列表 DEU_ASR004_CN Appen中国 自由说 德尔(德国) 德国 低背景噪音(家居/办公园) 80 1 NA. NA. 16 D
57
德语(卢森堡)电脑录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 33小时 添加到咨询列表 卢森堡德国语音DAT(ii)FDB-500(固定地1LG) 细微差别 有定稿的录音 德语 卢森堡 低背景噪音 500. 1 26日500 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
64
德语(土耳其)电脑录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 31小时 添加到咨询列表 东方德语,讲土耳其语 细微差别 有定稿的录音 德语 土耳其 低背景噪音 300 1 600年15 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
185
德尔(德国)发出词典
文本 ASR,TTS,语言建模 N / A. 146,000个单词 添加到咨询列表 deu_deu_phon. Appen Global. 发布词典 德语 德国 N / A. N / A. N / A. N / A. 146 000. N / A. 文本 D
14
德语(德国)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 16时 添加到咨询列表 DEU_ASR001 Appen Global. 有定稿的录音 德语 德国 低背景噪音(录音棚) 127. 2 12 700. 6 826. 16 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制100个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
D
15
德语(德国)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 25小时 添加到咨询列表 DEU_ASR003 全球手机 有定稿的录音 德语 德国 低背景噪音(家居/办公园) 77 1 085 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
D
38
德尔(德国)电脑录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 31小时 添加到咨询列表 德语演讲稿FDB-1000 细微差别 有定稿的录音 德语 德国 低背景噪音(家居/办公园) 988. 1 000年43岁 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
39
德尔(德国)电脑录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 268小时 添加到咨询列表 德国SpeechDat (II)身上- 4000 细微差别 有定稿的录音 德语 德国 低背景噪音(家居/办公园) 000年4 1 160 000. 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
D
186
德语(瑞士)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 deu_che_phon. Appen Global. 发布词典 德语 瑞士 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 D
90.
德雷(瑞士)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 53小时 添加到咨询列表 speech德语(瑞士)数据库 细微差别 有定稿的录音 德语 瑞士 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
D
195
意大利文(意大利)发音词典
文本 ASR,TTS,语言建模 N / A. 197000个单词 添加到咨询列表 ita_ita_phon. Appen Global. 发布词典 意大利语 意大利 N / A. N / A. N / A. N / A. 197 000 N / A. 文本 Y
48
意大利文(意大利)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 36小时 添加到咨询列表 ITA_ASR003. Appen Global. 对话录音 意大利语 意大利 低背景噪音 200 2 可根据要求提供 18 974 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
Y
46
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 44小时 添加到咨询列表 ITA_ASR001. Appen Global. 有定稿的录音 意大利语 意大利 混合 200 4 40 000 7 316. 22 一条法律 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发表人录制200个语料,语料包括100个命令和特性指令,100个语音丰富的孤子
Y
47
意大利文(意大利)有定稿的麦克风录音语料库
音频 ASR、虚拟助手,车载人机界面及娱乐设备 麦克风 47小时 添加到咨询列表 ITA_ASR002. Appen Global. 有定稿的录音 意大利语 意大利 混合(车内) 103. 4 35 875 10 366. 48 一条法律 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制350个语料,语料包括数字,街道名称,通用指令和特定指令,语音丰富的句子和单词
每个发表人录制了1到2段样本,第一竟在未熄火的上车中录制,第二段在以每小时60英里(100公里/小时)的速度行的车辆辆
Y
49
意大利文(意大利)有定稿的麦克风录音语料库
音频 TTS 麦克风 3小时 添加到咨询列表 ITA_TTS001. Appen Global. 有定稿的录音 意大利语 意大利 低背景噪音(录音棚) 1 1 3 300 可根据要求提供 22 一条法律 数量集随附一个发布词典,其中包含该数码集所所所说的没有单位
每个发表人录制3300条语料,包括语音丰富的孤子
Y
50
意大利文(毛利利)电影录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 38小时 添加到咨询列表 意大利固定网络语音语音语音(M)语料库 细微差别 有定稿的录音 意大利语 意大利 低背景噪音(家居/办公园) 1 000 1 000年39 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发动人录制39个语料,语料语料连续和间距的数码,自然数,金属,拼写单位,时间和日期,是/否,是/否问题,常见的使用词汇,在短语中的使用词汇以及语音丰富的子子
Y
51
意大利文(毛利利)电影录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 228小时 添加到咨询列表 意大利语演说(ii)FDB-3000 细微差别 有定稿的录音 意大利语 意大利 低背景噪音(家居/办公园) 3 040. 1 134 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制44个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
52
意大利文(毛利利)电影录音语料库
音频 asr,呼叫中心,虚拟助手 移动电话 103小时 添加到咨询列表 意大利语音(II)MDB-250 细微差别 有定稿的录音 意大利语 意大利 低背景噪音(家居/办公园) 375 1 19日000年 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制51个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
85.
意大利文(毛利利)电影录音语料库
音频 asr,呼叫中心,虚拟助手 移动电话 13小时 添加到咨询列表 意大利移动网络语音数据库 细微差别 有定稿的录音 意大利语 意大利 低背景噪音(家居/办公园) 342 1 13 500. 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制40个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
196
意大利文(意大利)词性词典
文本 ASR,TTS,语言建模 N / A. 147000个单词 添加到咨询列表 ita_ITA_POS Appen Global. 词性词典 意大利语 意大利 N / A. N / A. N / A. N / A. 147 000 N / A. 文本 Y
290
意大利自然说语语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 3.8小时 添加到咨询列表 ITA_ASR001_CN Appen中国 自由说 意大利语 意大利 低背景噪音(家居/办公园) 6 NA. NA. 16 Y
244
托皮辛(巴布亚新几内亚)发音词典
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 tpi_png_phon. Appen Global. 发布词典 托克皮辛语 巴布亚新几内亚 N / A. N / A. N / A. N / A. 000 N / A. 文本 T
213
挪威语(挪威)发音词典
文本 ASR,TTS,语言建模 N / A. 115000个单词 添加到咨询列表 nor_NOR_PHON Appen Global. 发布词典 挪威语 挪威 N / A. N / A. N / A. N / A. 115 000. N / A. 文本 N
214
挪威语(挪威)词性词典
文本 ASR,TTS,语言建模 N / A. 3,000个单反装 添加到咨询列表 nor_nor_pos. Appen Global. 词性词典 挪威语 挪威 N / A. N / A. N / A. N / A. 3 000 N / A. 文本 N
158
捷克文(捷克共和国)发出词典
文本 ASR,TTS,语言建模 N / A. 50000个单词 添加到咨询列表 ces_CZE_PHON Appen Global. 发布词典 捷克语 捷克共和国 N / A. N / A. N / A. N / A. 5万 N / A. 文本 J
11
捷克文(捷克共和国)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 93小时 添加到咨询列表 捷克SpeechDat (E)的数据集 细微差别 有定稿的录音 捷克语 捷克共和国 低背景噪音 1 000 1 52 000. 可根据要求提供 8 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
J
10
捷克文(捷克共和国)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 31小时 添加到咨询列表 CZE_ASR001 全球手机 有定稿的录音 捷克语 捷克共和国 低背景噪音(家居/办公园) 102. 1 425年12 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
J
81.
斯洛伐克(斯洛伐克)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 65小时 添加到咨询列表 斯洛伐克SpeechDat (E)数据库 细微差别 有定稿的录音 斯洛伐克语 斯洛伐克 低背景噪音 1 000 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制48个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
年代
82.
斯蒂尼亚语(斯洛文尼亚语)电影录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 76小时 添加到咨询列表 斯洛文尼亚SpeechDat (II)身上- 1000 细微差别 有定稿的录音 斯洛维尼亚语 斯洛文尼亚 低背景噪音(家居/办公园) 1 000 1 40 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制大厦40个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
年代
236
斯瓦希里语(肯尼亚)发音词典
文本 ASR,TTS,语言建模 N / A. 66,000个单词 添加到咨询列表 swa_ken_phon. Appen Global. 发布词典 斯波西里克 肯尼亚 N / A. N / A. N / A. N / A. 66 000 N / A. 文本 年代
76
旁遮普语(巴基斯坦)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 20小时 添加到咨询列表 PAP_ASR001. Appen Global. 对话录音 旁遮普语 巴基斯堡 低背景噪音 205 2 可根据要求提供 7 298. 8 一条法律 数据集已完全转录并加盖了时间戳
数据集附带一个包含所有转录词的发音词典
在71%的对话中,对话双方(呼入者和呼出者)的说话内容都被收集转录了,在剩下的29%的对话中,只有一半的对话被收集并转录了
P
132.
日语ner语料库.
文本 尼珥,内容分类,搜索引擎 N / A. 20629个句子 添加到咨询列表 JPY_NER001. Appen Global. n 日语 日本语 N / A. N / A. N / A. 20 629. 可根据要求提供 N / A. 文本 R
285
日语自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 3.38小时 添加到咨询列表 jap_asr001_cn. Appen中国 自由说 日语 日本语 低背景噪音(家居/办公园) 6 NA. NA. 16 R
197
日本(日本)发表词典
文本 ASR,TTS,语言建模 N / A. 262000个单词 添加到咨询列表 jpn_jpn_phon. Appen Global. 发布词典 日语 日本语 N / A. N / A. N / A. N / A. 262 000 N / A. 文本 R
53
日语(日本)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 33小时 添加到咨询列表 JPN_ASR001 全球手机 有定稿的录音 日语 日本语 低背景噪音(家居/办公园) 144 1 13 067 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
R
91.
日语(日本)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 57小时 添加到咨询列表 Speecon日本 细微差别 有定稿的录音 日语 日本语 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
R
198
日语(日本)词性词典
文本 ASR,TTS,语言建模 N / A. 265,000个单词 添加到咨询列表 jpn_jpn_pos. Appen Global. 词性词典 日语 日本语 N / A. N / A. N / A. N / A. 265 000 N / A. 文本 R
281
昆明语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 2.53小时 添加到咨询列表 kunming_asr001_cn. Appen中国 语料朗读 昆明 中国 低背景噪音(家居/办公园) 8 NA. NA. 16 Z
216
普什图(阿富汗)发出词典
文本 ASR,TTS,语言建模 N / A. 65000个单词 添加到咨询列表 pus_afg_phon. Appen Global. 发布词典 普什图语 阿富汗 N / A. N / A. N / A. N / A. 65 000. N / A. 文本 P
68
普什图(阿富汗)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 55小时 添加到咨询列表 PAS_ASR001. Appen Global. 对话录音 普什图语 阿富汗 低背景噪音 967. 2 可根据要求提供 633年13 8 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
P
69
普什图(阿富汗)对话式麦克风录音语料库
音频 ASR,对话式AI,语音分析 麦克风 39小时 添加到咨询列表 PAS_ASR002. Appen Global. 对话录音 普什图语 阿富汗 低背景噪音 40 2 可根据要求提供 480年9 16 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
转录文本可全部被翻译成法文, 作为可选的额外购买项
平均通话时间为120分钟,每则通话中由一名发言人担任采访者,另一名发言人担任受访者,模仿类似于TransTAC风格的场景(例如民政事务询问,检查站询问等)
面试官出现在不止一组对话中,但每组对话中的被面试者都是唯一的
P
70
普什图(阿富汗)广播录音数据库
音频 ASR,自动字幕,关键词 麦克风 51小时 添加到咨询列表 PAS_BRC001 Appen Global. 广播录音 普什图语 阿富汗 低背景噪音(录音棚) N / A. 1 可根据要求提供 可根据要求提供 N / A. 数量集已完全转录并加上时间戳
数量集主要是语音,不再娱乐或广告
数量类型包括:脱口秀,访谈,新闻广播(不留下人阅读的新闻)
P
130.
普通话尼珥语料库
文本 尼珥,内容分类,搜索引擎 N / A. 17,313个个子 添加到咨询列表 mac_ner001. Appen Global. n 普通话 中国 N / A. N / A. N / A. 17 313年 可根据要求提供 N / A. 文本 P
58
普通话(中国)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 323小时 添加到咨询列表 MAC_ASR001 Appen Global. 有定稿的录音 普通话 中国 混合 2 000年 1 200万 145年7 8 一条法律 完全转录为SpeechDAT类型
数据又一次包含所转录词的大声[SAMPA]
每个发音人录制98个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令(从215个指令中挑选),语音丰富的句子和单词
P
59
普通话(中国)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 26小时 添加到咨询列表 MAC_ASR002 全球手机 有定稿的录音 普通话 中国 低背景噪音(家居/办公园) 132. 1 10 225. 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
P
209
普通话(简体)(中国)发出词典
文本 ASR,TTS,语言建模 N / A. 35000个单词 添加到咨询列表 zho_CHN_PHON Appen Global. 发布词典 中文(简体) 中国 N / A. N / A. N / A. N / A. 35 000 N / A. 文本 P
210
普通话(繁体)(台湾)发出词典
文本 ASR,TTS,语言建模 N / A. 50000个单词 添加到咨询列表 zho_TWN_PHON Appen Global. 发布词典 中文(繁体) 台湾 N / A. N / A. N / A. N / A. 5万 N / A. 文本 P
273
杭州方言语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 2.49小时 添加到咨询列表 HANGZHOU_ASR001_CN Appen中国 语料朗读 杭州方言 中国 低背景噪音(家居/办公园) 10 NA. NA. 16 Z
259
武汉方言(中国)多人对话式录音语料库
音频 ASR,对话式AI,语音分析 录音笔/麦克风 42.7小时 添加到咨询列表 WUHAN_ASR001_CN Appen中国 对话录音 武汉方向 中国 低背景噪音(家居/办公园) 135. 1 NA. NA. 16 覆盖地区: 武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。数据库只是语音库,不含有转写文字 Z
260
武汉方言(中国)多人对话式录音语料库
音频 ASR,对话式AI,语音分析 移动电话 58.1小时 添加到咨询列表 wuhan_asr002_cn. Appen中国 对话录音 武汉方向 中国 低背景噪音(家居/办公园) 180 1 NA. NA. 8 覆盖地区:武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区 注:数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟,单个语音对话20~30分钟之间 内容为2~5人自由对话形式 数据为脱敏数据,编号和录制人信息会打乱。数据库只是语音库,不含有转写文字 Z
280
武汉语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 3.19小时 添加到咨询列表 wuhan_asr003_cn. Appen中国 语料朗读 武汉 中国 低背景噪音(家居/办公园) 8 NA. NA. 16 Z
275
江南语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 2.9小时 添加到咨询列表 HENAN_ASR001_CN Appen中国 语料朗读 江南 中国 低背景噪音(家居/办公园) 7 NA. NA. 16 Z
268
法语 (法国)自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 16.6小时 添加到咨询列表 FRA_ASR004_CN Appen中国 自由说 法语 (法国) 法国 低背景噪音(家居/办公园) 96. 1 NA. NA. 16 F
182
法语(加拿大)发音词典
文本 ASR,TTS,语言建模 N / A. 67,000个单词 添加到咨询列表 fra_can_phon. Appen Global. 发布词典 法律 加拿大 N / A. N / A. N / A. N / A. 67 000. N / A. 文本 F
32
法语(加拿大)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 9小时 添加到咨询列表 frc_asr003. Appen Global. 对话录音 法律 加拿大 混合 68 2 可根据要求提供 6 022 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
在大多数通讯中,只有一般的对话被并并转录,但对于一小嘴分的通道,对话双方(呼入者和呼出者)的说话内容被收集收集并转录了
F
30.
法律(加加大)有定稿的电影录音语录音语
音频 asr,呼叫中心,虚拟助手 移动电话 131小时 添加到咨询列表 frc_asr001. Appen Global. 有定稿的录音 法律 加拿大 混合 1 000 1 100 000. 697年11 8 一条法律 完全转录为SpeechDAT类型
数据又一次包含所转录词的大声[SAMPA]
每个发音人录制100个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
31
法律(加戴大)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 46小时 添加到咨询列表 frc_asr002. Appen Global. 有定稿的录音 法律 加拿大 低背景噪音(家居/办公园) 150 1 22 500. 10 755. 16 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发行人录制150个语料,语料语料数码,数据串(手机生成的),地址,语音丰富的句子和单词
F
56
法语(卢森堡)电话录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 45小时 添加到咨询列表 卢森堡法国语音(ii)FDB-500(固定地1LF) 细微差别 有定稿的录音 法律 卢森堡 低背景噪音 614 1 32 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
4
法律(比利时间)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 76小时 添加到咨询列表 比利时法语演说 - (ii)FDB-1000(固定地1BF) 细微差别 有定稿的录音 法律 比利时 低背景噪音 1 000 1 53 000 可根据要求提供 8 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制53个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
F
183
法语(法国)发音词典
文本 ASR,TTS,语言建模 N / A. 112000个单词 添加到咨询列表 fra_fra_phon. Appen Global. 发布词典 法律 法国 N / A. N / A. N / A. N / A. 112 000. N / A. 文本 F
36
法语(法国)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 25小时 添加到咨询列表 frf_asr001. Appen Global. 对话录音 法律 法国 低背景噪音 563. 2 可根据要求提供 11 922 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数的通话中,对话双方的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话被收集并转录了
F
33
法语(法国)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 41小时 添加到咨询列表 法国SpeechDat (II)身上- 1000 细微差别 有定稿的录音 法律 法国 低背景噪音(家居/办公园) 1 017. 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制48个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
F
34
法语(法国)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 305小时 添加到咨询列表 法国SpeechDat (II)身上- 5000 细微差别 有定稿的录音 法律 法国 低背景噪音 040年5 1 237 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制47个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
F
37
法语(法国)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 26小时 添加到咨询列表 frf_asr003. 全球手机 有定稿的录音 法律 法国 低背景噪音(家居/办公园) 98. 1 10 273. 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
F
184
法律(法国)词性词典
文本 ASR,TTS,语言建模 N / A. 95000个单词 添加到咨询列表 fra_fra_pos. Appen Global. 词性词典 法律 法国 N / A. N / A. N / A. N / A. 95 000 N / A. 文本 F
35
法语(法国)车内录音语料库
音频 ASR、虚拟助手,车载人机界面及娱乐设备 麦克风和动力电脑 添加到咨询列表 法国演说 - 汽车 细微差别 有定稿的录音 法律 法国 混合(车内) 300 5 37 500. 可根据要求提供 16和8. 可根据要求提供 数量集已完全转录,并别发出词典和验证报告
每个发动人录制大厦125个语料,语料语料数码,自然数,字母串,个人,地点和企业名称(一切是自然发诗的),通用指令和特点指令,语音丰富句子和单词和单身以及自给自行发表的
F
141
法语(阿尔及利亚)发音词典
文本 ASR,TTS,语言建模 N / A. 4000个单词 添加到咨询列表 fra_DZA_PHON Appen Global. 发布词典 法律 阿尔及利亚 N / A. N / A. N / A. N / A. 000年4 N / A. 文本 阿拉伯文字 F
217
波兰语(春兰)发出词典
文本 ASR,TTS,语言建模 N / A. 40,000个单词 添加到咨询列表 pol_POL_PHON Appen Global. 发布词典 波兰语 波兰 N / A. N / A. N / A. N / A. 40 000 N / A. 文本 B
116.
波兰语(波兰)有定稿的智能智能机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 293小时 添加到咨询列表 pol_asr002_cn. Appen中国 有定稿的录音 波兰语 波兰 低背景噪音(家居/办公园) 353 1 106 674 168 544. 16 数据集已完全转录 B
72
波兰语(波兰)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 仅固定电话 78小时 添加到咨询列表 波兰SpeechDat (E)数据库 细微差别 有定稿的录音 波兰语 波兰 低背景噪音 1 000 1 48 000 可根据要求提供 8 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制48个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
B
71
波兰语(波兰)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 25小时 添加到咨询列表 pol_asr001. 全球手机 有定稿的录音 波兰语 波兰 低背景噪音(家居/办公园) 99. 1 130 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
B
218
波兰语(波兰)词性词典
文本 ASR,TTS,语言建模 N / A. 4000个单词 添加到咨询列表 pol_POL_POS Appen Global. 词性词典 波兰语 波兰 N / A. N / A. N / A. N / A. 000年4 N / A. 文本 B
131.
波斯语尼珥语料库
文本 尼珥,内容分类,搜索引擎 N / A. 19584个句子 添加到咨询列表 FAR_NER001 Appen Global. n 波斯语 伊朗 N / A. N / A. N / A. 19 584. 可根据要求提供 N / A. 文本 B
28
波斯语(伊朗)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 30小时 添加到咨询列表 FAR_ASR002 Appen Global. 对话录音 波斯语 伊朗 混合 1 000 2 可根据要求提供 12 358. 8 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
B
27
波斯蒂(伊朗)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 85小时 添加到咨询列表 FAR_ASR001 Appen Global. 有定稿的录音 波斯语 伊朗 混合 789 1 38 400. 8 716. 8 一条法律 完全转录为OrienTel类型
数据又一次包含所转录词的大声[SAMPA]
每个发表人录制48个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位
B
241
泰卢固语(印度)发出词典
文本 ASR,TTS,语言建模 N / A. 50000个单词 添加到咨询列表 tel_IND_PHON Appen Global. 发布词典 泰卢固语 印度 N / A. N / A. N / A. N / A. 5万 N / A. 文本 T
242
泰米尔文(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 105,000个单反装 添加到咨询列表 tam_IND_PHON Appen Global. 发布词典 泰米尔坎 印度 N / A. N / A. N / A. N / A. 105 000. N / A. 文本 T
271
泰语自由说语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 2.95小时 添加到咨询列表 tha_asr002_cn. Appen中国 自由说 泰语(韩国) 泰国 低背景噪音(家居/办公园) NA. NA. 17 T
123.
泰语(韩国)印刷文本OCR
图表 文件处理, 文件搜索 照相机 1219张图片 添加到咨询列表 IMG_OCR_THA_CN Appen中国 光学字符识别 泰语 泰国 不同光线 10 NA. NA. NA. NA. jpg. 包含文字的图像,例如购物收据,票据,发票,出租车发票等等 T
243
泰语(泰国)发音词典
文本 ASR,TTS,语言建模 N / A. 30,000个单词 添加到咨询列表 tha_tha_phon. Appen Global. 发布词典 泰语 泰国 N / A. N / A. N / A. N / A. 30 000 N / A. 文本 T
97.
泰语(韩国)麦克风录音数码
音频 ASR,虚拟虚拟,聊天机器人 麦克风 28小时 添加到咨询列表 tha_asr001. 全球手机 有定稿的录音 泰语 泰国 低背景噪音(家居/办公园) 98. 1 039年14 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
T
189
海地克里埃尔尔(海地)发作词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 hat_hti_phon. Appen Global. 发布词典 海地克里奥尔克 海地 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 H
252
湘语(中国)发出
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 hsn_CHN_PHON Appen Global. 发布词典 湘语 中国 N / A. N / A. N / A. N / A. 000 N / A. 文本 X
199
爪哇语(印度尼西亚)发出词典
文本 ASR,TTS,语言建模 N / A. 20000个单词 添加到咨询列表 jav_IDN_PHON Appen Global. 发布词典 爪哇语 印度尼西亚 N / A. N / A. N / A. N / A. 000 N / A. 文本 G
237
瑞典文(瑞典)发音词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 swe_SWE_PHON Appen Global. 发布词典 瑞典语 瑞典 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 R
238
瑞典文(瑞典)词性词典
文本 ASR,TTS,语言建模 N / A. 105,000个单反装 添加到咨询列表 swe_swe_pos. Appen Global. 词性词典 瑞典语 瑞典 N / A. N / A. N / A. N / A. 105 000. N / A. 文本 R
94.
瑞典(瑞典/芬兰)麦克风录音数据库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 30小时 添加到咨询列表 SWE_ASR001 全球手机 有定稿的录音 瑞典语 瑞典-芬兰 低背景噪音(家居/办公园) 98. 1 11116 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
R
188
瓜拉尼语(巴拉圭)发音词典
文本 ASR,TTS,语言建模 N / A. 35000个单词 添加到咨询列表 grn_pry_phon. Appen Global. 发布词典 瓜拉尼语 巴拉圭 N / A. N / A. N / A. N / A. 35 000 N / A. 文本 G
253
祖鲁人(南京)发作词典
文本 ASR,TTS,语言建模 N / A. 75000个单词 添加到咨询列表 zul_ZAF_PHON Appen Global. 发布词典 祖鲁语 南非 N / A. N / A. N / A. N / A. 75 000. N / A. 文本 Z
206
立陶宛语(立陶宛)发音词典
文本 ASR,TTS,语言建模 N / A. 60,000个单反装 添加到咨询列表 lit_ltu_phon. Appen Global. 发布词典 立陶宛语 立陶宛 N / A. N / A. N / A. N / A. 60 000 N / A. 文本 l
122.
简体中文印刷文本OCR
图表 文件处理, 文件搜索 照相机 200张图片 添加到咨询列表 IMG_OCR_MAC_CN Appen中国 光学字符识别 N / A. 中国 不同光线 30. NA. NA. NA. NA. jpg. 每张图片中的文字均被线条边框所标记
包含大量中文的图像,例如书籍,出版物,海报,收据,PPT以及印刷品等等
Z
228
索拉尼(伊拉克)发音词典
文本 ASR,TTS,语言建模 N / A. 25,000个单反装 添加到咨询列表 kur_IRQ_PHON Appen Global. 发布词典 索马里语 伊拉克 N / A. N / A. N / A. N / A. 25 000 N / A. 文本 年代
227
索马里(索马里)发现词典
文本 ASR,TTS,语言建模 N / A. 76000个单词 添加到咨询列表 som_SOM_PHON Appen Global. 发布词典 索马里语 索马里 N / A. N / A. N / A. N / A. 76 000 N / A. 文本 年代
83.
索马里(索马里)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 50小时 添加到咨询列表 SOM_ASR001 Appen Global. 对话录音 索马里语 索马里 低背景噪音 1 000 2 可根据要求提供 217年23 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
年代
262
维吾尔方言(中国)双人对话式录音语料库
音频 ASR,对话式AI,语音分析 移动电话 122小时 添加到咨询列表 WWE_ASR001_CN Appen中国 对话录音 维吾尔族语 中国 低背景噪音(家居/办公园) 231 1 NA. NA. 16 覆盖地区:和田方便,中等方面。单人发表时长约30分钟,内容别为2人自我对话形式数码为数码,单号和人士信息。数码,但是,不知道,不知道转写文章 Z
274
维语语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 3.9小时 添加到咨询列表 wwe_asr002_cn. Appen中国 语料朗读 维语 中国 低背景噪音(家居/办公园) N / A. NA. NA. 16 主题有歌曲,赛事,游戏 Z
223
罗马尼亚语(罗马尼亚)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 ron_ROU_PHON Appen Global. 发布词典 罗马尼亚诗 罗马尼亚 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 l
77
罗马尼亚 - (罗马尼亚)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 37小时 添加到咨询列表 rom_asr001. Appen Global. 对话录音 罗马尼亚诗 罗马尼亚 低背景噪音 200 2 可根据要求提供 658年16日 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
l
205
老挝(老挝)发出词典
文本 ASR,TTS,语言建模 N / A. 9,000个单反装 添加到咨询列表 lao_LAO_PHON Appen Global. 发布词典 老挝语 老挝 N / A. N / A. N / A. N / A. 000年9 N / A. 文本 l
124.
芬兰语(芬兰)印刷文本OCR
图表 文件处理, 文件搜索 照相机 7293张图片 添加到咨询列表 IMG_OCR_FIN_CN Appen中国 光学字符识别 芬兰语 芬兰 不同光线 4 NA. NA. NA. NA. jpg. 包含文字的图像,例如广告牌,产品外包装,标志牌,杂志以及菜单等等 F
180
芬兰语(芬兰)发音词典
文本 ASR,TTS,语言建模 N / A. 85000个单词 添加到咨询列表 fin_fin_phon. Appen Global. 发布词典 芬兰语 芬兰 N / A. N / A. N / A. N / A. 85 000 N / A. 文本 F
181
芬兰语(芬兰)词性词典
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 fin_FIN_POS Appen Global. 词性词典 芬兰语 芬兰 N / A. N / A. N / A. N / A. 000 N / A. 文本 F
272
苏州方言语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 2.84小时 添加到咨询列表 苏州_ASR001_CN. Appen中国 语料朗读 苏州方向 中国 低背景噪音(家居/办公园) 8 NA. NA. 16 Z
166
英文(加拿大)发音词典
文本 ASR,TTS,语言建模 N / A. 50000个单词 添加到咨询列表 eng_CAN_PHON Appen Global. 发布词典 英语 加拿大 N / A. N / A. N / A. N / A. 5万 N / A. 文本 Y
19
英文(加载大)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 144小时 添加到咨询列表 ENC_ASR001 Appen Global. 有定稿的录音 英语 加拿大 混合 1 000 1 99 000. 483年12 8 Alaw或Vav. 完全转录为萨拉II / SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制99个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
167
英文(加拿大)词性词典
文本 ASR,TTS,语言建模 N / A. 3,000个单反装 添加到咨询列表 Eng_Can_POS. Appen Global. 词性词典 英语 加拿大 N / A. N / A. N / A. N / A. 3 000 N / A. 文本 Y
170
中文(印度)发出词典
文本 ASR,TTS,语言建模 N / A. 60,000个单反装 添加到咨询列表 eng_ind_phon. Appen Global. 发布词典 英语 印度 N / A. N / A. N / A. N / A. 60 000 N / A. 文本 Y
22
中文(印度)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 67小时 添加到咨询列表 ENI_ASR002 Appen Global. 对话录音 英语 印度 低背景噪音 540. 2 77 565 646年11 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了271个电话对话
Y
21
中文(印度)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 217小时 添加到咨询列表 ENI_ASR001 Appen Global. 有定稿的录音 英语 印度 混合 2 358. 1 117 900 190年9 8 一条法律 完全转录为SpeechDAT类型
数据又一次包含所转录词的大声[SAMPA]
每个发音人录制49个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
Y
171
英文(印度)词性词典
文本 ASR,TTS,语言建模 N / A. 13000个单词 添加到咨询列表 eng_IND_POS Appen Global. 词性词典 英语 印度 N / A. N / A. N / A. N / A. 13 000. N / A. 文本 Y
168
英文(菲律宾)发音词典
文本 ASR,TTS,语言建模 N / A. 5000个单词 添加到咨询列表 eng_PHL_PHON Appen Global. 发布词典 英语 菲律宾 N / A. N / A. N / A. N / A. 000年5 N / A. 文本 Y
20.
英文(菲律宾)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 53小时 添加到咨询列表 ENF_ASR001 Appen Global. 对话录音 英语 菲律宾 低背景噪音 450. 2 41 602. 7 272. 8 Alaw或Vav. 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
18
英文(阿拉伯文-黎凡特/埃及)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 28小时 添加到咨询列表 ENA_ASR001. Appen Global. 对话录音 英语 埃及 低背景噪音 250 2 可根据要求提供 5 619. 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
平均通话时长为10到15分钟
Y
127.
英语尼珥语料库
文本 尼珥,内容分类,搜索引擎 N / A. 22,768个个子 添加到咨询列表 Eng_ner001. Appen Global. n 英语 N / A. N / A. N / A. N / A. 22 768 可根据要求提供 N / A. 文本 Y
165
英语(澳大利亚)发音词典
文本 ASR,TTS,语言建模 N / A. 157,000个单词 添加到咨询列表 Eng_aus_phon. Appen Global. 发布词典 英语 澳大利亚 N / A. N / A. N / A. N / A. 157 000 N / A. 文本 Y
1
英语(澳大利亚)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 92小时 添加到咨询列表 aus_asr001. Appen Global. 有定稿的录音 英语 澳大利亚 低背景噪音(家居/办公园) 500. 1 82 500 35 137 8 一条法律 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发表人录制162个朗读录音,录音录音数码,自然数,字母串,个人,地面和企业名,确认项(肯定,否定,不可能的回答(从215个指令中间),语音丰富的句子和单位
E
2
英语(澳大利亚)有定稿的电话录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 118小时 添加到咨询列表 aus_asr002. Appen Global. 有定稿的录音 英语 澳大利亚 混合 1 000 1 75 000. 19 8 一条法律 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发音人录制75个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词
语料包含了有定稿的录音和自由发挥的录音,其中每个稿子包含了5条自由发挥的录音
E
172
英语(爱尔兰)发出词典
文本 ASR,TTS,语言建模 N / A. 12000个单词 添加到咨询列表 Eng_Irl_Phon. Appen Global. 发布词典 英语 爱尔兰 N / A. N / A. N / A. N / A. 000年12 N / A. 文本 Y
173
英文(纽西兰)发出词典
文本 ASR,TTS,语言建模 N / A. 50000个单词 添加到咨询列表 eng_nzl_phon. Appen Global. 发布词典 英语 纽西兰 N / A. N / A. N / A. N / A. 5万 N / A. 文本 Y
176
英语(美国)发出
文本 ASR,TTS,语言建模 N / A. 330,000个单词 添加到咨询列表 eng_USA_PHON Appen Global. 发布词典 英语 美国 N / A. N / A. N / A. N / A. 330 000 N / A. 文本 Y
103.
英语(美国)对话式的智能智能机录音语料库
音频 ASR,对话式AI,语音分析 移动电话 1000小时 添加到咨询列表 USE_ASR003 Appen Global. 对话录音 英语 美国 低背景噪音 2 000年 1 500 000. 52 586 16 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
对话对话涵盖了各种,包括学习/专业/工作,家庭,生活安慰,天使和季节,准时,电气视/电影
Y
89.
英语(美国)有了定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 53小时 添加到咨询列表 speech English (USA)数据库 细微差别 有定稿的录音 英语 美国 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
Y
102.
英语(美国)有了定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 62小时 添加到咨询列表 USE_ASR001 Appen Global. 有定稿的录音 英语 美国 低背景噪音(录音棚) 200 2 80 000 18 318. 48 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
每个发音人录制400个语料,语料包括数字,自然数,人名,城市名,电话号码,通用指令和特定指令,语音丰富的句子和单词
Y
177
英语(美国)词性词典
文本 ASR,TTS,语言建模 N / A. 263000个单词 添加到咨询列表 Eng_USA_POS. Appen Global. 词性词典 英语 美国 N / A. N / A. N / A. N / A. 263 000. N / A. 文本 Y
95.
英语(英国)
音频 TTS 头戴式头戴式克风 11小时 添加到咨询列表 TC-STAR女性基线声音劳拉 细微差别 有定稿的录音 英语 英国 低背景噪音(录音棚) 1 1 可根据要求提供 可根据要求提供 96. 可根据要求提供 数量集包括人工正字法转录的转录文件,自动分享的音素,自动生成的音高(已已动词了一定的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
96.
英语(英国)
音频 TTS 头戴式头戴式克风 7小时 添加到咨询列表 TC-Star男性基线语音伊恩 细微差别 有定稿的录音 英语 英国 低背景噪音(录音棚) 1 1 可根据要求提供 可根据要求提供 96. 可根据要求提供 数量集包括人工正字法转录的转录文件,自动分享的音素,自动生成的音高(已已动词了一定的语音段和音高标记)
数据集附有一个包含词性,词元和音标的发音词典
Y
174
英文(英国)发出
文本 ASR,TTS,语言建模 N / A. 195,000个单词 添加到咨询列表 Eng_gbr_phon. Appen Global. 发布词典 英语 英国 N / A. N / A. N / A. N / A. 195 000 N / A. 文本 Y
100.
英语(英国)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 150小时 添加到咨询列表 UKE_ASR001. Appen Global. 对话录音 英语 英国 低背景噪音 1 150. 2 298 562 24 193. 8 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
254
英语(英国)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 50小时 添加到咨询列表 UKE_ASR001B Appen Global. 对话录音 英语 英国 低背景噪音 1 150. 2 可根据要求提供 192年13 8 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
Y
175
英文(英国)词性词典
文本 ASR,TTS,语言建模 N / A. 155000个单词 添加到咨询列表 Eng_GBR_POS. Appen Global. 词性词典 英语 英国 N / A. N / A. N / A. N / A. 155 000. N / A. 文本 Y
164
英语(阿拉伯联合酋长国)发音词典
文本 ASR,TTS,语言建模 N / A. 5000个单词 添加到咨询列表 Eng_are_Phon. Appen Global. 发布词典 英语 阿拉伯综合韩国 N / A. N / A. N / A. N / A. 000年5 N / A. 文本 Y
63
英语(阿拉伯联合国)有定稿的电气录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 33小时 添加到咨询列表 阿拉伯联合酋长国说的东方英语 细微差别 有定稿的录音 英语 阿拉伯综合韩国 低背景噪音 500. 1 25 500. 可根据要求提供 8 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发动人录制51个语料,语料包括数码,自然数,字母串,个人,地点和企业名,确认(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位以及自然发作的特价
Y
169
英语(香港)发出词典
文本 ASR,TTS,语言建模 N / A. 18000个单词 添加到咨询列表 Eng_hkg_phon. Appen Global. 发布词典 英语 香港 N / A. N / A. N / A. N / A. 18 000 N / A. 文本 Y
29
荷兰克(比利时间)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 麦克风 80小时 添加到咨询列表 佛兰芒语音DAT(ii)FDB-1000(固定射线) 细微差别 有定稿的录音 荷兰克 比利时 低背景噪音 1 000 1 52 000. 可根据要求提供 8 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发音人录制52个语料,语料包含数字,自然数,字母串,个人、地点和企业名称,确认项(肯定,否定,不置可否的回答),通用指令和特定指令,语音丰富的句子和单词以及自由发挥的特定指令
H
87.
荷兰语(比利时间)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 47小时 添加到咨询列表 比利时荷兰语演讲 细微差别 有定稿的录音 荷兰克 比利时 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
H
16
荷兰语(荷兰和豪利艇)有定稿的车内录音语料库
音频 ASR、虚拟助手,车载人机界面及娱乐设备 麦克风和动力电脑 27小时 添加到咨询列表 荷兰语和佛兰德语的演讲车 细微差别 有定稿的录音 荷兰克 荷兰-比利时 混合(车内) 302 5 15 100. 可根据要求提供 16和8. 一条法律 数量集已完全转录,并别发出词典和验证报告
每个成年发音人录制125个语料,语料包括数字,自然数,字母串,个人、地点和企业名称(一些是自由发挥的),通用指令和特定指令,语音丰富的句子和单词及自由发挥的语料
H
163
荷兰语(春兰)发出词典
文本 ASR,TTS,语言建模 N / A. 45000个单词 添加到咨询列表 nld_NLD_PHON Appen Global. 发布词典 荷兰克 荷兰 N / A. N / A. N / A. N / A. 45 000 N / A. 文本 H
62
荷兰语(荷兰)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 36小时 添加到咨询列表 NLD_ASR001. Appen Global. 对话录音 荷兰克 荷兰 低背景噪音 200 2 可根据要求提供 964年14 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
H
88.
荷兰语(春兰)有了的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 68小时 添加到咨询列表 荷兰语,来自荷兰 细微差别 有定稿的录音 荷兰克 荷兰 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
H
291
葡萄牙语(欧洲)自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 2.88小时 添加到咨询列表 por_eur_asr001_cn. Appen中国 自由说 葡萄牙语(欧洲) 葡萄牙 低背景噪音(家居/办公园) 8 NA. NA. 16 P
219
葡萄牙语(巴西)发音词典
文本 ASR,TTS,语言建模 N / A. 102000个单词 添加到咨询列表 por_BRA_PHON Appen Global. 发布词典 葡萄牙语 巴西 N / A. N / A. N / A. N / A. 102 000 N / A. 文本 P
74
葡萄牙语(巴西)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 33小时 添加到咨询列表 PTB_ASR002 Appen Global. 对话录音 葡萄牙语 巴西 低背景噪音 200 2 可根据要求提供 287年11 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
P
220
葡萄牙语(巴西)词性词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 por_bra_pos. Appen Global. 词性词典 葡萄牙语 巴西 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 P
73
葡萄牙语(巴西)麦克风录音数码
音频 ASR,虚拟虚拟,聊天机器人 麦克风 26小时 添加到咨询列表 PTB_ASR001 全球手机 有定稿的录音 葡萄牙语 巴西 低背景噪音(家居/办公园) 102. 1 417 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
P
221
葡萄牙语(葡萄牙)发音词典
文本 ASR,TTS,语言建模 N / A. 112000个单词 添加到咨询列表 por_prt_phon. Appen Global. 发布词典 葡萄牙语 葡萄牙 N / A. N / A. N / A. N / A. 112 000. N / A. 文本 P
75
葡萄牙语(葡萄牙)对话式的电气录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 36小时 添加到咨询列表 PTP_ASR001 Appen Global. 对话录音 葡萄牙语 葡萄牙 低背景噪音 200 2 可根据要求提供 16 339. 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
P
222
葡萄牙语(葡萄牙)词性词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 por_PRT_POS Appen Global. 词性词典 葡萄牙语 葡萄牙 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 P
212
蒙古语(蒙古)发音词典
文本 ASR,TTS,语言建模 N / A. 30,000个单词 添加到咨询列表 mon_mng_phon. Appen Global. 发布词典 蒙古语 蒙古 N / A. N / A. N / A. N / A. 30 000 N / A. 文本
232
西班牙文(哥伦比亚)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 spa_col_phon. Appen Global. 发布词典 西班牙语 哥伦比亚 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 X
235
西班牙文(委内瑞拉)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 spa_VEN_PHON Appen Global. 发布词典 西班牙语 委内瑞拉 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 X
231
西普文(智利)发出词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 spa_chl_phon. Appen Global. 发布词典 西班牙语 智利 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 X
230
西班牙文(西班牙)发音词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 spa_esp_phon. Appen Global. 发布词典 西班牙语 西班牙 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 X
113.
西班牙文(西班牙)有定稿的智能手机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 540小时 添加到咨询列表 esp_asr002_cn. Appen中国 有定稿的录音 西班牙语 西班牙 低背景噪音(家居/办公园) 347 1 258 395 134 939. 16 数据集已完全转录 X
25
西风文(西北)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 39小时 添加到咨询列表 esp_asr001. Appen Global. 有定稿的录音 西班牙语 西班牙 混合 200 4 40 000 367年6 22 一条法律 完全转录为SpeechDAT类型
数据集附带一个包含所有转录词的发音词典
每个发表人录制200个语料,语料包括100个命令和特性指令,100个语音丰富的孤子
X
26
西风文(西北)有定稿的麦克风录音语料库
音频 TTS 麦克风 1小时 添加到咨询列表 ESP_TTS001 Appen Global. 有定稿的录音 西班牙语 西班牙 低背景噪音(录音棚) 1 1 1 787 3 614. 22 一条法律 数量集随附一个发布词典,其中包含该数码集所所所说的没有单位
每个演讲者提供1787条语料,包括语音丰富的孤子
X
93.
西风文(西北)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 46小时 添加到咨询列表 Speecon西班牙数据库 细微差别 有定稿的录音 西班牙语 西班牙 混合(办公室/娱乐场所/车内/公共场所) 600(550个成年语料提供者及50个儿童语料提供者) 4 170 000 可根据要求提供 16 可根据要求提供 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个成年发音人录制290个语料,每个儿童发音人录制210个语料,语料包括数字,自然数,字母串,个人、地点和企业名称,语音丰富的句子和单词,儿童发音人还需要提供关于玩具,手机的指令以及通用指令,成年发音人还需要提供应用词汇,以及自由发挥的语料
X
270
西北自然说语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 2小时 添加到咨询列表 esp_asr002_cn. Appen中国 自由说 西班牙语 西班牙 低背景噪音(家居/办公园) N / A. NA. NA. 16 X
24
西班牙语(拉丁美洲-智利和哥伦比亚)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 22小时 添加到咨询列表 ESL_ASR002. Appen Global. 对话录音 西班牙语 智利 - 哥伦比亚 混合 84. 2 可根据要求提供 可根据要求提供 8 数据集已完全转录并加了时间戳
银行和电信领域的呼叫中心风格的对话(由64个客户和14个代理商提供的),主要使用移动电话
X
23
西班牙语(拉米美容)有了定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 17小时 添加到咨询列表 ESL_ASR001. 全球手机 有定稿的录音 西班牙语 哥斯达黎加 低背景噪音(家居/办公园) 100. 1 6 898. 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
X
233
西班牙语(秘鲁)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 spa_per_phon. Appen Global. 发布词典 西班牙语 秘鲁 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 X
234
西北(美国)发作牌
文本 ASR,TTS,语言建模 N / A. 90,000个单反装 添加到咨询列表 spa_USA_PHON Appen Global. 发布词典 西班牙语 美国 N / A. N / A. N / A. N / A. 90 000 N / A. 文本 X
229
西班牙语(阿根廷)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 spa_ARG_PHON Appen Global. 发布词典 西班牙语 阿根廷 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 X
40
豪萨语有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 20小时 添加到咨询列表 hau_asr001. 全球手机 有定稿的录音 豪萨语 多国 低背景噪音(家居/办公园) 103. 1 895年7 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
H
190
豪萨(尼日利亚)发音词典
文本 ASR,TTS,语言建模 N / A. 11,000个单反装 添加到咨询列表 hau_NGA_PHON Appen Global. 发布词典 豪萨语 奈及利亚 N / A. N / A. N / A. N / A. 11 000. N / A. 文本 H
41
豪萨(尼日利亚)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 移动电话 33小时 添加到咨询列表 hau_asr002. Appen Global. 对话录音 豪萨语 奈及利亚 低背景噪音 200 2 可根据要求提供 949年7 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
这个项目记录了200个电阻对话 - 是由100个呼入者,各进行2次呼叫(一击用固定电阻,一次使用动力电阻电阻)至100个接收者之一
H
288
江南自自然说说数码
音频 ASR,对话式AI,语音分析 手机麦克风 2.61小时 添加到咨询列表 vie_asr001_cn. Appen中国 自由说 越南语 江南 低背景噪音(家居/办公园) 7 NA. NA. 16 Y
250
江南(越南)发出词典
文本 ASR,TTS,语言建模 N / A. 8000个单词 添加到咨询列表 vie_VNM_PHON Appen Global. 发布词典 越南语 江南 N / A. N / A. N / A. N / A. 8 000. N / A. 文本 Y
104.
江南(越南)麦克风录音数码
音频 ASR,虚拟虚拟,聊天机器人 麦克风 47小时 添加到咨询列表 VIE_ASR001 全球手机 有定稿的录音 越南语 江南 低背景噪音(家居/办公园) 129. 1 18 842 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
Y
125.
繁体运动视频库
视频 健身健身用,行为,手势手势 移动电话 2000个视频 添加到咨询列表 VED_HUMAN_BODY_CN Appen中国 人体 N / A. 中国 不同背景及光线 1000 NA. NA. NA. NA. MP4. 每个视频片段长约10至20秒 Z
161
达里语(阿富汗)发音词典
文本 ASR,TTS,语言建模 N / A. 30,000个单词 添加到咨询列表 prs_AFG_PHON Appen Global. 发布词典 达里克 阿富汗 N / A. N / A. N / A. N / A. 30 000 N / A. 文本 D
12
达里克(阿富汗)对话式的电影录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 40小时 添加到咨询列表 DAR_ASR001 Appen Global. 对话录音 达里克 阿富汗 低背景噪音 500. 2 可根据要求提供 11 168. 8 一条法律 数量集已完全转录并加上时间戳
数量集主要是语音,不再娱乐或广告
D
13
达里语(阿富汗)广播录音数据库
音频 ASR,自动字幕,关键词 麦克风 51小时 添加到咨询列表 DAR_BRC001 Appen Global. 广播录音 达里克 阿富汗 低背景噪音(录音棚) N / A. 1 可根据要求提供 可根据要求提供 N / A. 数量集已完全转录并加上时间戳
数量集主要是语音,不再娱乐或广告
数量类型包括:脱口秀,访谈,新闻广播(不留下人阅读的新闻)
D
282
长沙语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 2.18小时 添加到咨询列表 CHANGSHA_ASR001_CN Appen中国 语料朗读 长沙 中国 低背景噪音(家居/办公园) 10 NA. NA. 16 Z
135.
阿加拉普(埃塞俄比亚)发出词典
文本 ASR,TTS,语言建模 N / A. 45000个单词 添加到咨询列表 Amh_eth_phon. Appen Global. 发布词典 阿姆哈拉语 埃塞俄比亚 N / A. N / A. N / A. N / A. 45 000 N / A. 文本 一个
134.
阿尔蒂尼亚语(阿尔泰尼亚)发作牌
文本 ASR,TTS,语言建模 N / A. 12000个单词 添加到咨询列表 sqi_ALB_PHON Appen Global. 发布词典 阿尔巴尼亚语 阿尔巴尼亚 N / A. N / A. N / A. N / A. 000年12 N / A. 文本 一个
126.
阿拉伯语尼珥语料库
文本 尼珥,内容分类,搜索引擎 N / A. 20,774个个子 添加到咨询列表 ARB_NER001. Appen Global. n 阿拉伯语 N / A. N / A. N / A. N / A. 774 可根据要求提供 N / A. 文本 一个
143
阿拉伯语发音词典
文本 ASR,TTS,语言建模 N / A. 40,000个单词 添加到咨询列表 ARB_N / A_PHON. Appen Global. 发布词典 阿拉伯语 N / A. N / A. N / A. N / A. N / A. 40 000 N / A. 文本 一个
137.
阿拉伯语(伊拉克)发音词典
文本 ASR,TTS,语言建模 N / A. 15000个单词 添加到咨询列表 ARA_IRQ_PHON. Appen Global. 发布词典 阿拉伯语 伊拉克 N / A. N / A. N / A. N / A. 15 000. N / A. 文本 人名 一个
138.
阿拉克(伊拉克)词性词典
文本 ASR,TTS,语言建模 N / A. 13000个单词 添加到咨询列表 ARA_IRQ_POS. Appen Global. 词性词典 阿拉伯语 伊拉克 N / A. N / A. N / A. N / A. 13 000. N / A. 文本 一个
139.
阿拉伯(利达亚)发作牌
文本 ASR,TTS,语言建模 N / A. 48000个单词 添加到咨询列表 ARA_LBY_PHON. Appen Global. 发布词典 阿拉伯语 利丰亚 N / A. N / A. N / A. N / A. 48 000 N / A. 文本 一个
136.
阿拉伯语(埃及)发音词典
文本 ASR,TTS,语言建模 N / A. 40,000个单词 添加到咨询列表 ara_EGY_PHON Appen Global. 发布词典 阿拉伯语 埃及 N / A. N / A. N / A. N / A. 40 000 N / A. 文本 一个
110.
阿拉伯(埃及)有定稿的智能智能机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 352小时 添加到咨询列表 ARE_ASR001_CN Appen中国 有定稿的录音 阿拉伯语 埃及 低背景噪音(家居/办公园) 627 1 128 908. 207 576 16 数据集已完全转录 一个
142
阿拉伯(摩洛哥)发出词典
文本 ASR,TTS,语言建模 N / A. 60,000个单反装 添加到咨询列表 ara_MAR_PHON Appen Global. 发布词典 阿拉伯语 摩洛哥 N / A. N / A. N / A. N / A. 60 000 N / A. 文本 一个
109.
阿拉伯语(摩洛哥)对话式的电话录音翻译
文本 太,聊天机器人,对话式人工智能 N / A. 80,544个发表 添加到咨询列表 ARY_MT001 Appen Global. 对话翻译 阿拉伯语 摩洛哥 N / A. 180 N / A. 80 430 23 844. N / A. 文本 相应的音频,转录文本,完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001 一个
108.
阿拉伯语(摩洛哥)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 33小时 添加到咨询列表 ary_asr001. Appen Global. 对话录音 阿拉伯语 摩洛哥 低背景噪音 180 2 80 544 23 836. 8 一条法律 每个发表人参与参与了了了至至个对话,每个发表人由一串在人们统计文中中的唯的4次数的演讲者
此转录文件有原始版本和完全可逆的罗马化版本,并附带发音词典
产品中文英文中的英文ary_mt001和ary_asrmt001
一个
111.
阿拉伯(沙特阿拉姆)有定稿的智能手机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 322小时 添加到咨询列表 ARS_ASR001_CN Appen中国 有定稿的录音 阿拉伯语 沙特阿拉伯 低背景噪音(家居/办公园) 227 1 104 574 156 282. 16 数据集已完全转录 一个
61
阿拉伯语(现代标准阿拉伯语)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 12小时 添加到咨询列表 MSA_ASR001 全球手机 有定稿的录音 阿拉伯语 突尼斯 低背景噪音(家居/办公园) 78 1 4 908. 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
一个
145
阿拉伯语(苏丹)发音词典
文本 ASR,TTS,语言建模 N / A. 17,000个单词 添加到咨询列表 ARA_SDN_PHON. Appen Global. 发布词典 阿拉伯语 苏丹 N / A. N / A. N / A. N / A. 17 000年 N / A. 文本 一个
17
阿拉伯语(阿尔及利亚东部)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 29小时 添加到咨询列表 EAR_ASR001 Appen Global. 对话录音 阿拉伯语 阿尔及利亚 低背景噪音(家居/办公园) 496. 2 可根据要求提供 327年11 8 一条法律 数量集已完全转录并加上时间戳
数据集附带一个包含所有转录词的发音词典
在大多数通话中,对话双方(呼入者和呼出者)的说话内容都被收集并转录了,但是对于一小部分的通话,只有一半的对话内容被收集并转录了
一个
140
阿拉伯语(阿尔及利亚)发音词典
文本 ASR,TTS,语言建模 N / A. 11,000个单反装 添加到咨询列表 ara_DZA_PHON Appen Global. 发布词典 阿拉伯语 阿尔及利亚 N / A. N / A. N / A. N / A. 11 000. N / A. 文本 一个
7
阿拉伯(阿拉伯融合韩国/沙特阿拉姆)有了的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 86小时 添加到咨询列表 CGA_ASR001 Appen Global. 有定稿的录音 阿拉伯语 阿拉伯联合酋长国-沙特阿拉伯 低背景噪音(家居/办公园) 150 4 42 000 19 245. 16 一条法律 语音文件内容已完全转录,精密到单位
所有录音均使用了衍生于SpeechDATmodel的方法进行标记
所有转录文件已被加注元音标识
每每发表人录制280个语料,语料包括15个人的名称和姓氏(共计30个),10次开朗读的数码(0-10),手机生成的数码(每每序列包含8个数据),200岁平台的子子,30岁平台单位(每个单位串包含10个单词)
一个
144
阿拉克(阿拉伯联合国)发出词典
文本 ASR,TTS,语言建模 N / A. 75000个单词 添加到咨询列表 ARA_ARE_PHON. Appen Global. 发布词典 阿拉伯语 阿拉伯综合韩国 N / A. N / A. N / A. N / A. 75 000. N / A. 文本 一个
118.
阿拉伯语(阿拉伯联合酋长国)有定稿的智能手机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 170小时 添加到咨询列表 ARU_ASR001_CN Appen中国 有定稿的录音 阿拉伯语 阿拉伯综合韩国 低背景噪音(家居/办公园) 133. 1 42 352 85 775 16 数据集已完全转录 一个
66
阿拉伯(阿拉伯联合国)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 48小时 添加到咨询列表 阿拉伯联合酋长国东方MCA(现代阿拉伯口语) 细微差别 有定稿的录音 阿拉伯语 阿拉伯综合韩国 低背景噪音 880. 1 000年43岁 可根据要求提供 8 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制49个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位以及自然发作的特价
一个
67
阿拉伯(阿拉伯联合国)有定稿的电影录音语料库
音频 asr,呼叫中心,虚拟助手 动力电阻和电阻 31小时 添加到咨询列表 Orientel United Arab Afirates MSA(现代标准阿拉伯语) 细微差别 有定稿的录音 阿拉伯语 阿拉伯综合韩国 低背景噪音 500. 1 24日500年 可根据要求提供 8 一条法律 数据集已完全转录为SpeechDAT类型,并附有发音词典和验证报告
每个发表人录制49个语料,语料语料数码,自然数,字母串,个人,地点和企业名称,确认项(肯定,否定,不可能的回答),通用指令和特价指令,语音丰富的句子和单位以及自然发作的特价
一个
146
阿萨姆语(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 40,000个单词 添加到咨询列表 asm_IND_PHON Appen Global. 发布词典 阿萨姆语 印度 N / A. N / A. N / A. N / A. 40 000 N / A. 文本 一个
202
韩文(韩国)发表词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 kor_KOR_PHON Appen Global. 发布词典 韩语 韩国 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 H
55
韩文(韩国)有定稿的麦克风录音语料库
音频 ASR,虚拟虚拟,聊天机器人 麦克风 20小时 添加到咨询列表 Kor_Asr001. 全球手机 有定稿的录音 韩语 韩国 低背景噪音(家居/办公园) 100. 1 8 107. 可根据要求提供 16 数量集已完全转录,转录文库有原始版本和罗马化版本
每个发音人朗读大量语音丰富的句子,这些句子选自全国性的报纸文章,这些文章可以从网络上找到,覆盖范围广,词汇量大
与karlsruhe理工学院(套件)合作开发
H
203
韩文(韩国)词性词典
文本 ASR,TTS,语言建模 N / A. 100000个单词 添加到咨询列表 kor_KOR_POS Appen Global. 词性词典 韩语 韩国 N / A. N / A. N / A. N / A. 100 000. N / A. 文本 H
128.
韩语尼珥语料库
文本 尼珥,内容分类,搜索引擎 N / A. 25,830个个子 添加到咨询列表 Kor_ner001. Appen Global. n 韩语 韩国 N / A. N / A. N / A. 25 830. 可根据要求提供 N / A. 文本 H
289
韩语自由说语音数据库
音频 ASR,对话式AI,语音分析 手机麦克风 3.35小时 添加到咨询列表 KOR_ASR001_CN Appen中国 自由说 韩语 韩国 低背景噪音(家居/办公园) 4 NA. NA. 16 H
211
马拉地语(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 30,000个单词 添加到咨询列表 mar_ind_phon. Appen Global. 发布词典 马拉地板 印度 N / A. N / A. N / A. N / A. 30 000 N / A. 文本
60
马拉地语(印度)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 15时 添加到咨询列表 mar_asr001. Appen Global. 对话录音 马拉地板 印度 混合 180 2 可根据要求提供 11 908. 8 一条法律 数码梦中大妇29%的会议被转录并加入时间戳,可以完整的转录文本
数据集附带一个包含所有转录词的发音词典
106.
马拉地语(印度)对话式的电话录音语料库
音频 ASR,对话式AI,语音分析 动力电阻和电阻 52小时 添加到咨询列表 MAR_ASR001A Appen Global. 对话录音 马拉地板 印度 混合 1 000 2 可根据要求提供 11 908. 8 一条法律 数量集的杂志话被转录加入时间戳,可以提供完整的转录文本
数据集附带一个包含所有转录词的发音词典
207
马拉雅拉姆语(印度)发音词典
文本 ASR,TTS,语言建模 N / A. 4000个单词 添加到咨询列表 mal_ind_phon. Appen Global. 发布词典 玛拉拉拉轩 印度 N / A. N / A. N / A. N / A. 000年4 N / A. 文本
208
马来西亚(马来西亚)发作牌
文本 ASR,TTS,语言建模 N / A. 10000个单词 添加到咨询列表 msa_MYS_PHON Appen Global. 发布词典 马来语 马来西亚 N / A. N / A. N / A. N / A. 000 N / A. 文本
287
马来望自行说语音数码
音频 ASR,对话式AI,语音分析 手机麦克风 3.01小时 添加到咨询列表 mal_asr001_cn. Appen中国 自由说 马来语 马来西亚 低背景噪音(家居/办公园) 9 NA. NA. 16
119.
高棉语(柬埔寨)有定稿的智能手机录音语料库
音频 ASR,虚拟虚拟,聊天机器人 移动电话 90小时 添加到咨询列表 khm_asr001_cn. Appen中国 有定稿的录音 高棉语 柬埔寨 低背景噪音(家居/办公园) 94. 1 24 618. 52 157. 16 数据集已完全转录 G
121.
黑人(东非)脸部照片库
图表 面部识别 照相机 13,500张图库 添加到咨询列表 img_face_ken_cn. Appen中国 人士 N / A. 肯尼亚 不同背景及光线 100. NA. NA. NA. NA. jpg. K





应用场景


无论您是在开发语音合成系统、语音识别系统还是其他依赖自然语言的解决方案,高质量的授权语音和语言数据集都能让您更快地进入市场,触达更多的潜在客户群