成品数据集

我们的经授权许可的成品数据集将快速启动您的AI项目

数据产品目录

澳鹏提供种类丰富的成品数据库，我们的数据产品目录包括250多个可授权的数据集，涵盖80多种语言及方言，适用于各种常见的人工智能应用场景，例如：TTS、ASR等（参考下面目录表的筛选功能查看更多应用场景）。我们也在不断更新数据库中，2020年将推出30多个全新数据集，联系我们为您一同构建适用于您的项目的数据产品。

快速部署

直接获取数据库产品快速为您部署AI与机器学习项目

低成本高效益

直接获取经授权的成品数据库比您定制数据采集服务更具成本效益。

专家团队

您将拥有一支在数据采集领域耕耘20多年的专家团队支持

支持所有数据类型

图像，视频，语音，音频，文本

大规模

提供大量、高品质的数据高效地训练您的机器模型

高质量

提高您的机器模型质量并减少数据偏见

咨询已选产品报价0

数据集名称	产品类型	常见应用场景	录音设备	单元

	数据库名称	产品类型	常见使用案例	录音设备	单元
84	Sorani(库尔德语)对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	5小时	添加到咨询列表	SOR_ASR001	全球的动作	对话录音	库尔德语	伊朗	低背景噪音	170	2	可根据要求提供	7 924	8	法律或wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典对于很大比例的电话录音，只有一半的对话被收集和转录	K
256	上海方言（中国）多人对话式录音语料库	音频	ASR,对话式AI,语音分析	移动电话	4.5小时	添加到咨询列表	SHANGHAI_ASR002_CN	阿彭中国	对话录音	上海方言	中国	低背景噪音（家庭/办公室）	14	1	NA	NA	8	wav	覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。注：数据不包含上海郊区口音数据以及未成年人录制数据。单人发音时长约40分钟，单个语音对话20~30分钟之间内容为2~5人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
255	上海方言（中国）多人对话式录音语料库	音频	ASR,对话式AI,语音分析	录音笔/麦克风	21小时	添加到咨询列表	SHANGHAI_ASR001_CN	阿彭中国	对话录音	上海方言	中国	低背景噪音（家庭/办公室）	51	1	NA	NA	16	wav	覆盖地区: 上海黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八区。注：数据不包含上海郊区口音数据以及未成年人录制数据。单人发音时长约40分钟，单个语音对话20~30分钟之间内容为2~5人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
277	上海语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	4.1小时	添加到咨询列表	SHANGHAI_ASR003_CN	阿彭中国	语料朗读	上海	中国	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		Z
257	东北方言（中国）多人对话式录音语料库	音频	ASR,对话式AI,语音分析	录音笔/麦克风	84.6小时	添加到咨询列表	东北ASR001中国	阿彭中国	对话录音	东北方言	中国	低背景噪音（家庭/办公室）	268	1	NA	NA	16	wav	覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区，朝阳区，宽城区，二道区，南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区注：数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟，单个语音对话20~30分钟之间内容为2~5人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
258	东北方言（中国）多人对话式录音语料库	音频	ASR,对话式AI,语音分析	移动电话	75.2小时	添加到咨询列表	东北ASR002中国	阿彭中国	对话录音	东北方言	中国	低背景噪音（家庭/办公室）	185	1	NA	NA	8	wav	覆盖地区: 沈阳和平区、沈河区、皇姑区、大东区、铁西区、绿园区，朝阳区，宽城区，二道区，南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、阿城区、双城区十九个区注：数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟，单个语音对话20~30分钟之间内容为2~5人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
276	东北语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.72小时	添加到咨询列表	东北ASR003中国	阿彭中国	语料朗读	东北	中国	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		Z
159	丹麦（丹麦）发音词典	文本	ASR，TTS，语言建模	N/A	107000个单词	添加到咨询列表	dan_DNK_PHON	全球的动作	发音词典	丹麦语	丹麦	N/A	N/A	N/A	N/A	107 000	N/A	文本		D
86	丹麦（丹麦）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	53小时	添加到咨询列表	Speecon丹麦	细微的差别	有定稿的录音	丹麦语	丹麦	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	D
160	丹麦（丹麦）词性词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	dan_DNK_位置	全球的动作	词性词典	丹麦语	丹麦	N/A	N/A	N/A	N/A	100 000	N/A	文本		D
247	乌克兰语（乌克兰）发音词典	文本	ASR，TTS，语言建模	N/A	5000个单词	添加到咨询列表	ukr_ukr_PHON	全球的动作	发音词典	乌克兰语	乌克兰	N/A	N/A	N/A	N/A	000年5	N/A	文本		W
133	乌尔都语内尔语料库	文本	内尔，内容分类, 搜索引擎	N/A	20634个句子	添加到咨询列表	URD_NER001	全球的动作	尼珥	乌尔都语	巴基斯坦	N/A	N/A	N/A	634	可根据要求提供	N/A	文本		W
101	乌尔都语（印度/巴基斯坦）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	47小时	添加到咨询列表	乌尔都语ASR001	全球的动作	对话录音	乌尔都语	印度-巴基斯坦	混合	1 000	2	可根据要求提供	10 871	8	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	W
248	乌尔都语（巴基斯坦）发音词典	文本	ASR，TTS，语言建模	N/A	40000个单词	添加到咨询列表	乌尔都白凤	全球的动作	发音词典	乌尔都语	巴基斯坦	N/A	N/A	N/A	N/A	40 000	N/A	文本		W
249	乌尔都语（巴基斯坦）词性词典	文本	ASR，TTS，语言建模	N/A	12000个单词	添加到咨询列表	乌尔都语位置	全球的动作	词性词典	乌尔都语	巴基斯坦	N/A	N/A	N/A	N/A	12 000	N/A	文本		W
265	他加禄语语音数据库	音频	ASR,对话式AI,语音分析	电话录音	68.25小时	添加到咨询列表	塔加洛ASR001中国	阿彭中国	语料朗读	他加禄语	菲律宾	低背景噪音（家庭/办公室）	84	1	NA	NA	16	啊，啊	覆盖地区：菲律宾单人录制大约4800（500）个句子），每个句子在3.到10秒之间。内容为单人朗读所给语料。以电话录音实现，要求设备的多样化：手机、扬声器、固定电话、耳机。	T
194	伊博语（尼日利亚）发音词典	文本	ASR，TTS，语言建模	N/A	30000个单词	添加到咨询列表	ibo_NGA_PHON	全球的动作	发音词典	伊博语	奈及利亚	N/A	N/A	N/A	N/A	30 000	N/A	文本		Y
178	伊朗波斯语（伊朗）发音词典	文本	ASR，TTS，语言建模	N/A	80000个单词	添加到咨询列表	pes_IRN_PHON	全球的动作	发音词典	波斯语	伊朗	N/A	N/A	N/A	N/A	80 000	N/A	文本		Y
179	伊朗波斯语（伊朗）词性词典	文本	ASR，TTS，语言建模	N/A	1,400,000个单词	添加到咨询列表	pes_IRN_位置	全球的动作	词性词典	波斯语	伊朗	N/A	N/A	N/A	N/A	1 400 000	N/A	文本		Y
224	俄罗斯（俄罗斯）发音词典	文本	ASR，TTS，语言建模	N/A	115,000个单词	添加到咨询列表	鲁苏鲁苏丰	全球的动作	发音词典	俄语	俄国	N/A	N/A	N/A	N/A	115 000	N/A	文本		E
78	俄罗斯(俄罗斯)对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	37小时	添加到咨询列表	RUS_ASR001	全球的动作	对话录音	俄语	俄国	低背景噪音	200	2	可根据要求提供	28 284	8	法律或wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	E
80	俄罗斯（俄罗斯）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	180小时	添加到咨询列表	俄语演讲数据库（E）	细微的差别	有定稿的录音	俄语	俄国	低背景噪音	2 500年	1	112 000	可根据要求提供	8	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制45个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	E
79	俄罗斯(俄罗斯)有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	31小时	添加到咨询列表	RUS_ASR002	全球手机	有定稿的录音	俄语	俄国	低背景噪音（家庭/办公室）	115	1	205年12	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	E
92	俄罗斯(俄罗斯)有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	46小时	添加到咨询列表	Speecon俄罗斯数据库	细微的差别	有定稿的录音	俄语	俄国	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	E
225	俄罗斯（俄罗斯）词性词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	rus_rus_POS	全球的动作	词性词典	俄语	俄国	N/A	N/A	N/A	N/A	100 000	N/A	文本		E
129	俄语内尔语料库	文本	内尔，内容分类, 搜索引擎	N/A	29,888个句子	添加到咨询列表	鲁苏内尔001	全球的动作	尼珥	俄语	俄国	N/A	N/A	N/A	29 888	可根据要求提供	N/A	文本		E
269	俄语（俄国）自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	30.89小时	添加到咨询列表	RUS_ASR003_CN	阿彭中国	自由说	俄语（俄国）	俄国	低背景噪音（家庭/办公室）	32	1	NA	NA	16	wav		E
151	保加利亚语（保加利亚）发音词典	文本	ASR，TTS，语言建模	N/A	55,000个单词	添加到咨询列表	布卢布格罗芬酒店	全球的动作	发音词典	保加利亚语	保加利亚	N/A	N/A	N/A	N/A	000年55	N/A	文本		B
6	保加利亚语（保加利亚）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	38小时	添加到咨询列表	BUL_ASR001	全球的动作	对话录音	保加利亚语	保加利亚	低背景噪音（家庭/办公室）	217	2	可根据要求提供	22 342	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	B
107	保加利亚语（保加利亚）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	22小时	添加到咨询列表	BUL_ASR002	全球手机	有定稿的录音	保加利亚语	保加利亚	低背景噪音（家庭/办公室）	77	1	674年8	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	B
157	克罗地亚语（克罗地亚）发音词典	文本	ASR，TTS，语言建模	N/A	20000个单词	添加到咨询列表	hrv_hrv_PHON	全球的动作	发音词典	克罗地亚语	克罗地亚	N/A	N/A	N/A	N/A	20 000	N/A	文本		K
8	克罗地亚语（克罗地亚）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	39小时	添加到咨询列表	CRO_ASR001	全球的动作	对话录音	克罗地亚语	克罗地亚	低背景噪音（家庭/办公室）	200	2	可根据要求提供	919年23	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	K
112	克罗地亚语（克罗地亚）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	263小时	添加到咨询列表	CRO_ASR003_CN	阿彭中国	有定稿的录音	克罗地亚语	克罗地亚	低背景噪音（家庭/办公室）	243	1	73 467	136 140	16	wav	数据集已完全转录	K
9	克罗地亚语（克罗地亚）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	11小时	添加到咨询列表	CRO_ASR002	全球手机	有定稿的录音	克罗地亚语	克罗地亚	低背景噪音（家庭/办公室）	94	1	4 499	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	K
261	内蒙古方言（中国）双人对话式录音语料库	音频	ASR,对话式AI,语音分析	移动电话	100小时	添加到咨询列表	NMG_ASR001_CN	阿彭中国	对话录音	内蒙古族语	中国	低背景噪音（家庭/办公室）	200	1	NA	NA	16	wav	覆盖地区:通辽呼和浩特锡林郭勒盟。单人发音时长约30分钟，内容为2人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
155	加泰罗尼亚语（西班牙）发音词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	猫咪	全球的动作	发音词典	加泰罗尼亚语	西班牙	N/A	N/A	N/A	N/A	10 000	N/A	文本		J
193	匈牙利语（匈牙利）发音词典	文本	ASR，TTS，语言建模	N/A	500个单词	添加到咨询列表	hun_HUN_PHON	全球的动作	发音词典	匈牙利语	匈牙利	N/A	N/A	N/A	N/A	500	N/A	文本		X
115	匈牙利语（匈牙利）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	286小时	添加到咨询列表	HUN_ASR001_CN	阿彭中国	有定稿的录音	匈牙利语	匈牙利	低背景噪音（家庭/办公室）	254	1	94 031	201 921	16	wav	数据集已完全转录	X
45	匈牙利语（匈牙利）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	65小时	添加到咨询列表	匈牙利SpeechDat (E)	细微的差别	有定稿的录音	匈牙利语	匈牙利	低背景噪音	1 000	1	48 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制48个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	X
200	卡纳达语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	35,000个单词	添加到咨询列表	kan_IND_PHON	全球的动作	发音词典	坎那达语	印度	N/A	N/A	N/A	N/A	35 000	N/A	文本		K
54	卡纳达语（印度）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	15小时	添加到咨询列表	KAN_ASR001	全球的动作	对话录音	坎那达语	印度	混合	178	2	可根据要求提供	15 660	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	K
105	卡纳达语（印度）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	57小时	添加到咨询列表	KAN_ASR001A	全球的动作	对话录音	坎那达语	印度	混合	1 000	2	可根据要求提供	15 660	8	阿拉	数据集中大约25%的会话被转录并加盖了时间戳，可以提供完整的转录文本数据库附带一个包含所有转录词的发音词典	K
162	卢奥语（肯尼亚）发音词典	文本	ASR，TTS，语言建模	N/A	20000个单词	添加到咨询列表	罗根峰	全球的动作	发音词典	卢奥语	肯尼亚	N/A	N/A	N/A	N/A	20 000	N/A	文本		l
284	印地语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.65小时	添加到咨询列表	印地语ASR001中国	阿彭中国	自由说	印地语	印度	低背景噪音（家庭/办公室）	6		NA	NA	16	wav		Y
192	印地语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	35,000个单词	添加到咨询列表	hin_IND_PHON	全球的动作	发音词典	印地语	印度	N/A	N/A	N/A	N/A	35 000	N/A	文本		Y
44	印地语（印度）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	32小时	添加到咨询列表	HIN_ASR002	全球的动作	对话录音	印地语	印度	混合	996	2	可根据要求提供	266年12	8	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典在大多数的通话中，对话双方的说话内容都被收集并转录了，但是对于一小部分的通话，只有一半的对话被收集并转录了	Y
43	印地语（印度）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话	224小时	添加到咨询列表	HIN_ASR001	全球的动作	有定稿的录音	印地语	印度	低背景噪音	1 920	1	96 000	9 853	8	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制50个语料，语料包括数字，自然数，个人、地点和企业名称，网址，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	Y
147	印尼文（印度尼西亚）发音词典	文本	ASR，TTS，语言建模	N/A	95,000个单词	添加到咨询列表	独立电话	全球的动作	发音词典	印度尼西亚语	印度尼西亚	N/A	N/A	N/A	N/A	95 000	N/A	文本		Y
148	印尼文（印度尼西亚）词性词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	ind_IDN_POS	全球的动作	词性词典	印度尼西亚语	印度尼西亚	N/A	N/A	N/A	N/A	10 000	N/A	文本		Y
286	印尼语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.77小时	添加到咨询列表	印度ASR001中国	阿彭中国	自由说	印尼语	印尼	低背景噪音（家庭/办公室）	7		NA	NA	16	wav		Y
3.	印尼语（印度尼西亚）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	31小时	添加到咨询列表	BAH_ASR001	全球的动作	对话录音	印度尼西亚语	印度尼西亚	低背景噪音	1 002	2	可根据要求提供	11 480	8	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典对于很大比例的电话录音，只有一半的对话被收集和转录	Y
279	台湾自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.12小时	添加到咨询列表	台湾ASR001中国	阿彭中国	自由说	台湾	中国	低背景噪音（家庭/办公室）	10		NA	NA	16	wav		Z
251	吴语（中国）发音词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	wuu_CHN_PHON	全球的动作	发音词典	吴语	中国	N/A	N/A	N/A	N/A	10 000	N/A	文本		W
201	哈萨克语（哈萨克斯坦）发音词典	文本	ASR，TTS，语言建模	N/A	30000个单词	添加到咨询列表	卡苏卡苏芬	全球的动作	发音词典	哈萨克语	哈萨克斯坦	N/A	N/A	N/A	N/A	30 000	N/A	文本		H
283	四川语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.86小时	添加到咨询列表	SICHUAN_ASR001_CN	阿彭中国	语料朗读	四川	中国	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		Z
245	土耳其语（土耳其）发音词典	文本	ASR，TTS，语言建模	N/A	255,000个单词	添加到咨询列表	图尔图尔丰	全球的动作	发音词典	土耳其语	土耳其	N/A	N/A	N/A	N/A	255 000	N/A	文本		T
98	土耳其语（土耳其）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	41小时	添加到咨询列表	TUR_ASR001	全球的动作	对话录音	土耳其语	土耳其	低背景噪音	200	2	可根据要求提供	32 386	8	法律或wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	T
117	土耳其语（土耳其）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	739小时	添加到咨询列表	TUR_ASR003_CN	阿彭中国	有定稿的录音	土耳其语	土耳其	低背景噪音（家庭/办公室）	664	1	185 706	215 135	16	wav	数据集已完全转录	T
65	土耳其语（土耳其）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	118小时	添加到咨询列表	OrienTel土耳其数据库	细微的差别	有定稿的录音	土耳其语	土耳其	低背景噪音	1 700	1	76 500	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制45个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	T
246	土耳其语（土耳其）词性词典	文本	ASR，TTS，语言建模	N/A	257000个单词	添加到咨询列表	tur_tur_位置	全球的动作	词性词典	土耳其语	土耳其	N/A	N/A	N/A	N/A	257 000	N/A	文本		T
99	土耳其语（土耳其）麦克风录音数据库	音频	ASR、虚拟助手,聊天机器人	麦克风	17小时	添加到咨询列表	TUR_ASR002	全球手机	有定稿的录音	土耳其语	土耳其	低背景噪音（家庭/办公室）	One hundred.	1	6 950	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	T
240	塔加洛语（菲律宾）发音词典	文本	ASR，TTS，语言建模	N/A	30000个单词	添加到咨询列表	tgl_PHL_PHON	全球的动作	发音词典	塔加拉族语	菲律宾	N/A	N/A	N/A	N/A	30 000	N/A	文本		T
226	塞尔维亚语（塞尔维亚）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	srp_SRB_PHON	全球的动作	发音词典	塞尔维亚语	塞尔维亚	N/A	N/A	N/A	N/A	000年15	N/A	文本		年代
239	塞海蒂语（孟加拉国-印度）发音词典	文本	ASR，TTS，语言建模	N/A	22000个单词	添加到咨询列表	syl_BGD -IND_PHON	全球的动作	发音词典	塞海蒂语	孟加拉国-印度	N/A	N/A	N/A	N/A	22 000	N/A	文本		年代
264	外国人说中文语音数据库	音频	ASR,对话式AI,语音分析	移动电话	200小时	添加到咨询列表	FOREIGNER_ASR001_CN	阿彭中国	有定稿的录音	中文(外国人）	多国	低背景噪音（家庭/办公室）	200		NA	NA	16	wav	数据库包含200小时的外国人说中文人数：200人覆盖国家: 美国（不含加州和伊利诺伊州），印度，菲律宾，日本，加拿大，泰国，澳大利亚，越南，俄罗斯，土耳其，埃及，印度尼西亚。注：数据不包含韩国，巴西境外数据同时也不包含未成年人录制数据。单人发音时长约1.小时，单句时长3-10秒之间内容为单人朗读形式采集工具为手机麦克风单声道采样率 16KHZ录音环境为家庭/办公室。数据为脱敏数据，编号和录制人信息会打乱。	Z
266	多姿态多光线人像图片数据库	图像	图片标签识别训练	手机/照相机	680张	添加到咨询列表	IMG_BODY_POSE_CN	阿彭中国	物体图片	N/A	多国	多种光线	NA	NA	NA	NA	NA	jpg	共680张，多人室内67张，多人室外强光11张，多人室外弱光4张，单人室内550张，单人室外强光7张，单人室外弱光41张	Z
263	多标签图片数据库	图像	图片标签识别训练	手机/照相机	2196 张	添加到咨询列表	IMG_TAG_CN	阿彭中国	物体图片	N/A	N/A	多种光线	NA	NA	NA	NA	NA	jpg	共2196张多场景图片样例库，可做速成库。分类为:KTV: 50张,百货商店:55张,办公室:100张;博物馆:63张;电器:55张;海洋:191张;汽车:50张;手提包:35张;夜景:54张,运动器材:54张,便利店:34张;餐厅:54张;车窗风景:62张;宠物:82张;船50张;动物园,70张;服装店:53张;海滩:95张;机场:65张;健身房:47张;景点:77张;人群:67张;沙漠:73张;沙滩:68张;山区:54张;商场:55张;树:85张;天空:102张;雪景:71张;雪山:53张;夜景:78张;游乐场:94张。	Z
215	奥里雅语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	ori_IND_PHON	全球的动作	发音词典	奥里雅语	印度	N/A	N/A	N/A	N/A	000年15	N/A	文本		一个
120	婴幼儿啼哭语料库	音频	婴儿监控器, 安全及其他消费者应用程序	移动电话	3小时	添加到咨询列表	CRY_ASR001	阿彭中国	人声	N/A	中国	低背景噪音（家庭/办公室）	One hundred.	1	NA	NA	16	wav	0到3岁婴儿的哭声，每个录音持续2分钟左右	Z
150	孟加拉语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	29000个单词	添加到咨询列表	ben_IND_PHON	全球的动作	发音词典	孟加拉语	印度	N/A	N/A	N/A	N/A	29 000	N/A	文本		米
5	孟加拉语（孟加拉国）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	47小时	添加到咨询列表	BEN_ASR001	全球的动作	对话录音	孟加拉语	孟加拉国	混合（车内/路边/家庭/办公室）	1 000	2	可根据要求提供	17 922年	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	米
156	宿雾语（菲律宾）发音词典	文本	ASR，TTS，语言建模	N/A	20000个单词	添加到咨询列表	ceb_PHL_PHON	全球的动作	发音词典	宿雾语	菲律宾	N/A	N/A	N/A	N/A	20 000	N/A	文本		年代
149	巴斯克（西班牙）发音词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	eus_ESP_PHON	全球的动作	发音词典	巴斯克语	西班牙	N/A	N/A	N/A	N/A	10 000	N/A	文本		B
191	希伯来语（以色列）发音词典	文本	ASR，TTS，语言建模	N/A	31000个单词	添加到咨询列表	海布伊斯尔丰酒店	全球的动作	发音词典	希伯来语	以色列	N/A	N/A	N/A	N/A	31 000	N/A	文本		X
42	希伯来语（以色列）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	34小时	添加到咨询列表	HEB_ASR001	全球的动作	对话录音	希伯来语	以色列	低背景噪音	200	2	可根据要求提供	19 250	8	法律或wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	X
187	希腊语（希腊）发音词典	文本	ASR，TTS，语言建模	N/A	5000个单词	添加到咨询列表	厄尔·格鲁·冯	全球的动作	发音词典	希腊语	希腊	N/A	N/A	N/A	N/A	000年5	N/A	文本		X
114	希腊语（希腊）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	191小时	添加到咨询列表	GRE_ASR001_CN	阿彭中国	有定稿的录音	希腊语	希腊	低背景噪音（家庭/办公室）	287	1	54 113	68 271	16	wav	数据集已完全转录	X
152	广东话（中国）发音词典	文本	ASR，TTS，语言建模	N/A	37,000个单词	添加到咨询列表	余春凤	全球的动作	发音词典	广东话 (粤语)	中国	N/A	N/A	N/A	N/A	000年37	N/A	文本	简体	G
153	广东话（中国）发音词典	文本	ASR，TTS，语言建模	N/A	40000个单词	添加到咨询列表	余春凤	全球的动作	发音词典	广东话 (粤语)	中国	N/A	N/A	N/A	N/A	40 000	N/A	文本	繁体	G
154	广东话（中国）词性词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	yue_HKG_POS	全球的动作	词性词典	广东话 (粤语)	中国	N/A	N/A	N/A	N/A	10 000	N/A	文本	繁体	G
278	广东语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	4.06小时	添加到咨询列表	广东ASR001中国	阿彭中国	语料朗读	广东	中国	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		Z
204	库尔曼吉（土耳其）发音词典	文本	ASR，TTS，语言建模	N/A	60,000个单词	添加到咨询列表	kur_TUR_PHON	全球的动作	发音词典	库尔德语	土耳其	N/A	N/A	N/A	N/A	60 000	N/A	文本		K
267	德语 (德国)自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	20.19小时	添加到咨询列表	DEU_ASR004_CN	阿彭中国	自由说	德语 (德国)	德国	低背景噪音（家庭/办公室）	80	1	NA	NA	16	wav		D
57	德语（卢森堡）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	33小时	添加到咨询列表	卢森堡德语演讲（II）FDB-500（固定1LG）	细微的差别	有定稿的录音	德语	卢森堡	低背景噪音	500	1	26 500	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制53个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	D
64	德语（土耳其）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	31小时	添加到咨询列表	土耳其语讲德语	细微的差别	有定稿的录音	德语	土耳其	低背景噪音	300	1	15 600	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制52个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	D
185	德语（德国）发音词典	文本	ASR，TTS，语言建模	N/A	146,000个单词	添加到咨询列表	德乌德乌芬	全球的动作	发音词典	德语	德国	N/A	N/A	N/A	N/A	146 000	N/A	文本		D
14	德语（德国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	16小时	添加到咨询列表	DEU_ASR001	全球的动作	有定稿的录音	德语	德国	低背景噪音（录音棚）	127	2	700年12	6 826	16	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典每个发音人录制100个语料，语料包括数字，自然数，人名，城市名，电话号码，通用指令和特定指令，语音丰富的句子和单词	D
15	德语（德国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	25小时	添加到咨询列表	DEU_ASR003	全球手机	有定稿的录音	德语	德国	低背景噪音（家庭/办公室）	77	1	10 085	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	D
38	德语（德国）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	31小时	添加到咨询列表	德语演讲（II）FDB-1000	细微的差别	有定稿的录音	德语	德国	低背景噪音（家庭/办公室）	988	1	43 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制44个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	D
39	德语（德国）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	268小时	添加到咨询列表	德国SpeechDat (II)身上- 4000	细微的差别	有定稿的录音	德语	德国	低背景噪音（家庭/办公室）	4 000	1	160 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制40个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	D
186	德语（瑞士）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	德乌切芬	全球的动作	发音词典	德语	瑞士	N/A	N/A	N/A	N/A	000年15	N/A	文本		D
90	德语（瑞士）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	53小时	添加到咨询列表	斯佩肯德国（瑞士）数据库	细微的差别	有定稿的录音	德语	瑞士	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	D
195	意大利文（意大利）发音词典	文本	ASR，TTS，语言建模	N/A	197,000个单词	添加到咨询列表	ita_ITA_PHON	全球的动作	发音词典	意大利语	意大利	N/A	N/A	N/A	N/A	197 000	N/A	文本		Y
48	意大利文（意大利）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	36小时	添加到咨询列表	ITA_ASR003	全球的动作	对话录音	意大利语	意大利	低背景噪音	200	2	可根据要求提供	18 974	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	Y
46	意大利文（意大利）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	44小时	添加到咨询列表	ITA_ASR001	全球的动作	有定稿的录音	意大利语	意大利	混合	200	4	40 000	316年7	22	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典每个发音人录制200个语料，语料包括100个命令和特定指令，100个语音丰富的句子	Y
47	意大利文（意大利）有定稿的麦克风录音语料库	音频	ASR，虚拟助手, 车载人机界面及娱乐设备	麦克风	47小时	添加到咨询列表	ITA_ASR002	全球的动作	有定稿的录音	意大利语	意大利	混合（车内）	103	4	35 875	10 366	48	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典每个发音人录制350个语料，语料包括数字，街道名称，通用指令和特定指令，语音丰富的句子和单词每个发音人录制了1到2段样本，第一段在未熄火的停靠车辆中录制，第二段在以每小时60英里（100 公里 / 小时）的速度行驶的车辆中录制	Y
49	意大利文（意大利）有定稿的麦克风录音语料库	音频	语音合成	麦克风	3小时	添加到咨询列表	ITA_TTS001	全球的动作	有定稿的录音	意大利语	意大利	低背景噪音（录音棚）	1	1	3 300	可根据要求提供	22	阿拉	数据集随附一个发音词典，其中包含该数据集中所说的所有单词每个发音人录制3300条语料，包括语音丰富的句子	Y
50	意大利文（意大利）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	38小时	添加到咨询列表	意大利固定网络语音SpeechDat（M）语料库	细微的差别	有定稿的录音	意大利语	意大利	低背景噪音（家庭/办公室）	1 000	1	39 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制39个语料，语料包含连续和间隔的数字，自然数，金额，拼写单词，时间和日期短语，是/否问题，常见的应用词汇，在短语中的应用词汇以及语音丰富的句子	Y
51	意大利文（意大利）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	228小时	添加到咨询列表	意大利演讲（二）FDB-3000	细微的差别	有定稿的录音	意大利语	意大利	低背景噪音（家庭/办公室）	3 040	1	134 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制44个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	Y
52	意大利文（意大利）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话	103小时	添加到咨询列表	意大利SpeechDat (II) mdb - 250	细微的差别	有定稿的录音	意大利语	意大利	低背景噪音（家庭/办公室）	375	1	19 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制51个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	Y
85	意大利文（意大利）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话	13小时	添加到咨询列表	意大利移动网络语音数据库	细微的差别	有定稿的录音	意大利语	意大利	低背景噪音（家庭/办公室）	342	1	500年13	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制40个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	Y
196	意大利文（意大利）词性词典	文本	ASR，TTS，语言建模	N/A	147000个单词	添加到咨询列表	ita_ita_POS	全球的动作	词性词典	意大利语	意大利	N/A	N/A	N/A	N/A	147 000	N/A	文本		Y
290	意大利自由说语语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.8小时	添加到咨询列表	ITA_ASR001_CN	阿彭中国	自由说	意大利语	意大利	低背景噪音（家庭/办公室）	6		NA	NA	16	wav		Y
244	托皮辛（巴布亚新几内亚）发音词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	tpi_PNG_PHON	全球的动作	发音词典	托克皮辛语	巴布亚新几内亚	N/A	N/A	N/A	N/A	10 000	N/A	文本		T
213	挪威语（挪威）发音词典	文本	ASR，TTS，语言建模	N/A	115,000个单词	添加到咨询列表	诺乌诺乌峰	全球的动作	发音词典	挪威语	挪威	N/A	N/A	N/A	N/A	115 000	N/A	文本		N
214	挪威语（挪威）词性词典	文本	ASR，TTS，语言建模	N/A	3,000个单词	添加到咨询列表	nor\u nor\u POS	全球的动作	词性词典	挪威语	挪威	N/A	N/A	N/A	N/A	3 000	N/A	文本		N
158	捷克文（捷克共和国）发音词典	文本	ASR，TTS，语言建模	N/A	50,000个单词	添加到咨询列表	ces_CZE_PHON	全球的动作	发音词典	捷克语	捷克共和国	N/A	N/A	N/A	N/A	50 000	N/A	文本		J
11	捷克文（捷克共和国）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	93小时	添加到咨询列表	捷克SpeechDat (E)的数据集	细微的差别	有定稿的录音	捷克语	捷克共和国	低背景噪音	1 000	1	52 000	可根据要求提供	8	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制52个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	J
10	捷克文（捷克共和国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	31小时	添加到咨询列表	CZE_ASR001	全球手机	有定稿的录音	捷克语	捷克共和国	低背景噪音（家庭/办公室）	102	1	12 425	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	J
81	斯洛伐克(斯洛伐克)有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	65小时	添加到咨询列表	斯洛伐克SpeechDat (E)数据库	细微的差别	有定稿的录音	斯洛伐克语	斯洛伐克	低背景噪音	1 000	1	48 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制48个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	年代
82	斯洛文尼亚语（斯洛文尼亚语）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	76小时	添加到咨询列表	斯洛文尼亚演讲（二）FDB-1000	细微的差别	有定稿的录音	斯洛维尼亚语	斯洛文尼亚	低背景噪音（家庭/办公室）	1 000	1	40 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制大约40个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	年代
236	斯瓦希里语（肯尼亚）发音词典	文本	ASR，TTS，语言建模	N/A	66000个单词	添加到咨询列表	swa_KEN_PHON	全球的动作	发音词典	斯瓦西里语	肯尼亚	N/A	N/A	N/A	N/A	66 000	N/A	文本		年代
76	旁遮普语（巴基斯坦）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	20小时	添加到咨询列表	PAP_ASR001	全球的动作	对话录音	旁遮普语	巴基斯坦	低背景噪音	205	2	可根据要求提供	7 298	8	阿拉	数据集已完全转录并加盖了时间戳数据集附带一个包含所有转录词的发音词典在71%的对话中，对话双方（呼入者和呼出者）的说话内容都被收集转录了，在剩下的29%的对话中，只有一半的对话被收集并转录了	P
132	日语尼珥语料库	文本	内尔，内容分类, 搜索引擎	N/A	20,629个句子	添加到咨询列表	JPY_NER001	全球的动作	尼珥	日语	日本	N/A	N/A	N/A	629	可根据要求提供	N/A	文本		R
285	日语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.38小时	添加到咨询列表	JAP_ASR001_CN	阿彭中国	自由说	日语	日本	低背景噪音（家庭/办公室）	6		NA	NA	16	wav		R
197	日语（日本）发音词典	文本	ASR，TTS，语言建模	N/A	262,000个单词	添加到咨询列表	jpn_JPN_PHON	全球的动作	发音词典	日语	日本	N/A	N/A	N/A	N/A	262 000	N/A	文本		R
53	日语（日本）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	33小时	添加到咨询列表	JPN_ASR001	全球手机	有定稿的录音	日语	日本	低背景噪音（家庭/办公室）	144	1	067年13	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	R
91	日语（日本）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	57小时	添加到咨询列表	斯佩肯日语	细微的差别	有定稿的录音	日语	日本	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	R
198	日语（日本）词性词典	文本	ASR，TTS，语言建模	N/A	265,000个单词	添加到咨询列表	jpn_JPN_POS	全球的动作	词性词典	日语	日本	N/A	N/A	N/A	N/A	265 000	N/A	文本		R
281	昆明语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.53小时	添加到咨询列表	KUNMING_ASR001_CN	阿彭中国	语料朗读	昆明	中国	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		Z
216	普什图（阿富汗）发音词典	文本	ASR，TTS，语言建模	N/A	65,000个单词	添加到咨询列表	pus_AFG_PHON	全球的动作	发音词典	普什图语	阿富汗	N/A	N/A	N/A	N/A	65 000	N/A	文本		P
68	普什图（阿富汗）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	55小时	添加到咨询列表	PAS_ASR001	全球的动作	对话录音	普什图语	阿富汗	低背景噪音	967	2	可根据要求提供	13 633	8	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典在大多数的通话中，对话双方的说话内容都被收集并转录了，但是对于一小部分的通话，只有一半的对话被收集并转录了	P
69	普什图（阿富汗）对话式麦克风录音语料库	音频	ASR,对话式AI,语音分析	麦克风	39小时	添加到咨询列表	PAS_ASR002	全球的动作	对话录音	普什图语	阿富汗	低背景噪音	40	2	可根据要求提供	9 480	16	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典转录文本可全部被翻译成法文，作为可选的额外购买项平均通话时间为120分钟，每则通话中由一名发言人担任采访者，另一名发言人担任受访者，模仿类似于特朗斯塔克风格的场景（例如民政事务询问，检查站询问等）面试官出现在不止一组对话中，但每组对话中的被面试者都是唯一的	P
70	普什图（阿富汗）广播录音数据库	音频	ASR、自动字幕,关键字检索	麦克风	51小时	添加到咨询列表	PAS_BRC001	全球的动作	广播录音	普什图语	阿富汗	低背景噪音（录音棚）	N/A	1	可根据要求提供	可根据要求提供	N/A	wav	数据集已完全转录并加上时间戳数据集主要是语音，不包括音乐或广告数据类型包括：脱口秀，访谈，新闻广播（不包括主持人阅读的新闻）	P
130	普通话尼珥语料库	文本	内尔，内容分类, 搜索引擎	N/A	17313个句子	添加到咨询列表	MAC_NER001	全球的动作	尼珥	普通话	中国	N/A	N/A	N/A	17 313年	可根据要求提供	N/A	文本		P
58	普通话（中国）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	323小时	添加到咨询列表	MAC_ASR001	全球的动作	有定稿的录音	普通话	中国	混合	2 000	1	200 000	7 145	8	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制98个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令（从215个指令中挑选），语音丰富的句子和单词	P
59	普通话（中国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	26小时	添加到咨询列表	MAC_ASR002	全球手机	有定稿的录音	普通话	中国	低背景噪音（家庭/办公室）	132	1	10 225	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	P
209	普通话（简体）（中国）发音词典	文本	ASR，TTS，语言建模	N/A	35,000个单词	添加到咨询列表	zho_CHN_PHON	全球的动作	发音词典	中文（简体）	中国	N/A	N/A	N/A	N/A	35 000	N/A	文本		P
210	普通话（繁体）（台湾）发音词典	文本	ASR，TTS，语言建模	N/A	50,000个单词	添加到咨询列表	周东丰	全球的动作	发音词典	中文（繁体）	台湾	N/A	N/A	N/A	N/A	50 000	N/A	文本		P
273	杭州方言语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.49小时	添加到咨询列表	杭州ASR001中国	阿彭中国	语料朗读	杭州方言	中国	低背景噪音（家庭/办公室）	10		NA	NA	16	wav		Z
259	武汉方言（中国）多人对话式录音语料库	音频	ASR,对话式AI,语音分析	录音笔/麦克风	42.7小时	添加到咨询列表	武汉ASR001中国	阿彭中国	对话录音	武汉方言	中国	低背景噪音（家庭/办公室）	135	1	NA	NA	16	wav	覆盖地区: 武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区注：数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟，单个语音对话20~30分钟之间内容为2~5人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
260	武汉方言（中国）多人对话式录音语料库	音频	ASR,对话式AI,语音分析	移动电话	58.1小时	添加到咨询列表	WUHAN_ASR002_CN	阿彭中国	对话录音	武汉方言	中国	低背景噪音（家庭/办公室）	180	1	NA	NA	8	wav	覆盖地区:武汉市下辖的江岸、江汉、硚口、汉阳、武昌五区注：数据不包含东北郊区口音数据以及未成年人录制数据。单人发音时长约40分钟，单个语音对话20~30分钟之间内容为2~5人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
280	武汉语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.19小时	添加到咨询列表	武汉ASR003中国	阿彭中国	语料朗读	武汉	中国	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		Z
275	河南语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.9小时	添加到咨询列表	河南ASR001中国	阿彭中国	语料朗读	河南	中国	低背景噪音（家庭/办公室）	7		NA	NA	16	wav		Z
268	法语 (法国)自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	16.6小时	添加到咨询列表	FRA_ASR004_CN	阿彭中国	自由说	法语 (法国)	法国	低背景噪音（家庭/办公室）	96	1	NA	NA	16	wav		F
182	法语（加拿大）发音词典	文本	ASR，TTS，语言建模	N/A	67,000个单词	添加到咨询列表	弗拉·卡努·冯	全球的动作	发音词典	法语	加拿大	N/A	N/A	N/A	N/A	67 000	N/A	文本		F
32	法语（加拿大）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	9小时	添加到咨询列表	FRC_ASR003	全球的动作	对话录音	法语	加拿大	混合	68	2	可根据要求提供	6 022	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典平均通话时长为10到15分钟在大多数通话中，只有一半的对话被收集并转录了，但是对于一小部分的通话，对话双方（呼入者和呼出者）的说话内容都被收集并转录了	F
30	法语（加拿大）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话	131小时	添加到咨询列表	FRC_ASR001	全球的动作	有定稿的录音	法语	加拿大	混合	1 000	1	100 000	11 697	8	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制100个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	F
31	法语（加拿大）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	46小时	添加到咨询列表	FRC_ASR002	全球的动作	有定稿的录音	法语	加拿大	低背景噪音（家庭/办公室）	150	1	22 500	10 755	16	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典每个发音人录制150个语料，语料包含数字，数字串（随机生成的），地址，语音丰富的句子和单词	F
56	法语（卢森堡）电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	45小时	添加到咨询列表	卢森堡法语演讲	细微的差别	有定稿的录音	法语	卢森堡	低背景噪音	614	1	000年32	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制53个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	F
4	法语（比利时）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	76小时	添加到咨询列表	比利时法语演讲(II)	细微的差别	有定稿的录音	法语	比利时	低背景噪音	1 000	1	53 000	可根据要求提供	8	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制53个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词以及自由发挥的特定指令	F
183	法语（法国）发音词典	文本	ASR，TTS，语言建模	N/A	112,000个单词	添加到咨询列表	fra_FRA_PHON	全球的动作	发音词典	法语	法国	N/A	N/A	N/A	N/A	112 000	N/A	文本		F
36	法语（法国）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	25小时	添加到咨询列表	FRF_ASR001	全球的动作	对话录音	法语	法国	低背景噪音	563	2	可根据要求提供	11 922	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典在大多数的通话中，对话双方的说话内容都被收集并转录了，但是对于一小部分的通话，只有一半的对话被收集并转录了	F
33	法语（法国）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	41小时	添加到咨询列表	法国SpeechDat (II)身上- 1000	细微的差别	有定稿的录音	法语	法国	低背景噪音（家庭/办公室）	1 017	1	48 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制48个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	F
34	法语（法国）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	305小时	添加到咨询列表	法国SpeechDat (II)身上- 5000	细微的差别	有定稿的录音	法语	法国	低背景噪音	5 040	1	237 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制47个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	F
37	法语（法国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	26小时	添加到咨询列表	FRF_ASR003	全球手机	有定稿的录音	法语	法国	低背景噪音（家庭/办公室）	98	1	273	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	F
184	法语（法国）词性词典	文本	ASR，TTS，语言建模	N/A	95,000个单词	添加到咨询列表	fra_FRA_POS	全球的动作	词性词典	法语	法国	N/A	N/A	N/A	N/A	95 000	N/A	文本		F
35	法语（法国）车内录音语料库	音频	ASR，虚拟助手, 车载人机界面及娱乐设备	麦克风和移动电话		添加到咨询列表	法语演讲车	细微的差别	有定稿的录音	法语	法国	混合（车内）	300	5	37 500	可根据要求提供	16和8	可根据要求提供	数据集已完全转录，并附有发音词典和验证报告每个发音人录制大约125个语料，语料包含数字，自然数，字母串，个人、地点和企业名称（一些是自由发挥的），通用指令和特定指令，语音丰富的句子和单词以及自由发挥的语料	F
141	法语（阿尔及利亚）发音词典	文本	ASR，TTS，语言建模	N/A	4,000个单词	添加到咨询列表	弗拉扎蓬	全球的动作	发音词典	法语	阿尔及利亚	N/A	N/A	N/A	N/A	4 000	N/A	文本	阿拉伯文字	F
217	波兰语（波兰）发音词典	文本	ASR，TTS，语言建模	N/A	40000个单词	添加到咨询列表	pol_pol_PHON	全球的动作	发音词典	波兰语	波兰	N/A	N/A	N/A	N/A	40 000	N/A	文本		B
116	波兰语（波兰）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	293小时	添加到咨询列表	POL_ASR002_CN	阿彭中国	有定稿的录音	波兰语	波兰	低背景噪音（家庭/办公室）	353	1	106 674	168 544	16	wav	数据集已完全转录	B
72	波兰语（波兰）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	仅固定电话	78小时	添加到咨询列表	波兰演讲数据库（E）	细微的差别	有定稿的录音	波兰语	波兰	低背景噪音	1 000	1	48 000	可根据要求提供	8	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制48个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	B
71	波兰语（波兰）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	25小时	添加到咨询列表	POL_ASR001	全球手机	有定稿的录音	波兰语	波兰	低背景噪音（家庭/办公室）	99	1	10 130	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	B
218	波兰语（波兰）词性词典	文本	ASR，TTS，语言建模	N/A	4,000个单词	添加到咨询列表	pol_pol_POS	全球的动作	词性词典	波兰语	波兰	N/A	N/A	N/A	N/A	4 000	N/A	文本		B
131	波斯语内尔语料库	文本	内尔，内容分类, 搜索引擎	N/A	19,584个句子	添加到咨询列表	法鲁内尔001	全球的动作	尼珥	波斯语	伊朗	N/A	N/A	N/A	19日584年	可根据要求提供	N/A	文本		B
28	波斯语（伊朗）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	30小时	添加到咨询列表	FAR_ASR002	全球的动作	对话录音	波斯语	伊朗	混合	1 000	2	可根据要求提供	12 358	8	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	B
27	波斯语（伊朗）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	85小时	添加到咨询列表	FAR_ASR001	全球的动作	有定稿的录音	波斯语	伊朗	混合	789	1	38 400	8 716	8	阿拉	完全转录为东方酒店类型数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制48个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	B
241	泰卢固语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	50,000个单词	添加到咨询列表	电话：INDU PHON	全球的动作	发音词典	泰卢固语	印度	N/A	N/A	N/A	N/A	50 000	N/A	文本		T
242	泰米尔文（印度）发音词典	文本	ASR，TTS，语言建模	N/A	105000个单词	添加到咨询列表	塔姆杜芬酒店	全球的动作	发音词典	泰米尔语	印度	N/A	N/A	N/A	N/A	105 000	N/A	文本		T
271	泰语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.95小时	添加到咨询列表	THA_ASR002_CN	阿彭中国	自由说	泰语（泰国）	泰国	低背景噪音（家庭/办公室）			NA	NA	17	wav		T
123	泰语(泰国)印刷文本OCR	图像	文件处理, 文件搜索	照相机	1219张图片	添加到咨询列表	IMG_OCR_THA_CN	阿彭中国	光学字符识别	泰语	泰国	不同光线	10	NA	NA	NA	NA	jpg	包含文字的图像，例如购物收据，票据，发票，出租车发票等等	T
243	泰语（泰国）发音词典	文本	ASR，TTS，语言建模	N/A	30000个单词	添加到咨询列表	tha_tha_PHON	全球的动作	发音词典	泰语	泰国	N/A	N/A	N/A	N/A	30 000	N/A	文本		T
97	泰语（泰国）麦克风录音数据库	音频	ASR、虚拟助手,聊天机器人	麦克风	28小时	添加到咨询列表	THA_ASR001	全球手机	有定稿的录音	泰语	泰国	低背景噪音（家庭/办公室）	98	1	14 039	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	T
189	海地克里奥尔语（海地）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	哈蒂峰酒店	全球的动作	发音词典	海地克里奥尔语	海地	N/A	N/A	N/A	N/A	000年15	N/A	文本		H
252	湘语（中国）发音词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	许振峰	全球的动作	发音词典	湘语	中国	N/A	N/A	N/A	N/A	10 000	N/A	文本		X
199	爪哇语（印度尼西亚）发音词典	文本	ASR，TTS，语言建模	N/A	20000个单词	添加到咨询列表	jav_IDN_PHON	全球的动作	发音词典	爪哇语	印度尼西亚	N/A	N/A	N/A	N/A	20 000	N/A	文本		G
237	瑞典文（瑞典）发音词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	swe_SWE_PHON	全球的动作	发音词典	瑞典语	瑞典	N/A	N/A	N/A	N/A	100 000	N/A	文本		R
238	瑞典文（瑞典）词性词典	文本	ASR，TTS，语言建模	N/A	105000个单词	添加到咨询列表	swe_swe_位置	全球的动作	词性词典	瑞典语	瑞典	N/A	N/A	N/A	N/A	105 000	N/A	文本		R
94	瑞典（瑞典/芬兰）麦克风录音数据库	音频	ASR、虚拟助手,聊天机器人	麦克风	30小时	添加到咨询列表	SWE_ASR001	全球手机	有定稿的录音	瑞典语	瑞典-芬兰	低背景噪音（家庭/办公室）	98	1	816年11	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	R
188	瓜拉尼语（巴拉圭）发音词典	文本	ASR，TTS，语言建模	N/A	35,000个单词	添加到咨询列表	grn_PRY_PHON	全球的动作	发音词典	瓜拉尼语	巴拉圭	N/A	N/A	N/A	N/A	35 000	N/A	文本		G
253	祖鲁人（南非）发音词典	文本	ASR，TTS，语言建模	N/A	75000个单词	添加到咨询列表	祖鲁扎夫丰	全球的动作	发音词典	祖鲁语	南非	N/A	N/A	N/A	N/A	75 000	N/A	文本		Z
206	立陶宛语（立陶宛）发音词典	文本	ASR，TTS，语言建模	N/A	60,000个单词	添加到咨询列表	轻装电话	全球的动作	发音词典	立陶宛语	立陶宛	N/A	N/A	N/A	N/A	60 000	N/A	文本		l
122	简体中文印刷文本OCR	图像	文件处理, 文件搜索	照相机	200张图片	添加到咨询列表	IMG_OCR_MAC_CN	阿彭中国	光学字符识别	N/A	中国	不同光线	30	NA	NA	NA	NA	jpg	每张图片中的文字均被线条边框所标记包含大量中文的图像，例如书籍，出版物，海报，收据，幻灯片演示文件以及印刷品等等	Z
228	索拉尼（伊拉克）发音词典	文本	ASR，TTS，语言建模	N/A	25,000个单词	添加到咨询列表	kur_IRQ_PHON	全球的动作	发音词典	索马里语	伊拉克	N/A	N/A	N/A	N/A	25 000	N/A	文本		年代
227	索马里（索马里）发音词典	文本	ASR，TTS，语言建模	N/A	76,000个单词	添加到咨询列表	som_som_PHON	全球的动作	发音词典	索马里语	索马里	N/A	N/A	N/A	N/A	76 000	N/A	文本		年代
83	索马里（索马里）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	50小时	添加到咨询列表	SOM_ASR001	全球的动作	对话录音	索马里语	索马里	低背景噪音	1 000	2	可根据要求提供	23 217	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	年代
262	维吾尔方言（中国）双人对话式录音语料库	音频	ASR,对话式AI,语音分析	移动电话	122小时	添加到咨询列表	WWE_ASR001_中国	阿彭中国	对话录音	维吾尔族语	中国	低背景噪音（家庭/办公室）	231	1	NA	NA	16	wav	覆盖地区: 和田方言，中央方言。单人发音时长约30分钟，内容为2.人自由对话形式数据为脱敏数据，编号和录制人信息会打乱。数据库只是语音库，不含有转写文字	Z
274	维语语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.9小时	添加到咨询列表	WWE_ASR002_CN	阿彭中国	语料朗读	维语	中国	低背景噪音（家庭/办公室）	N/A		NA	NA	16	wav	主题有歌曲，赛事，游戏	Z
223	罗马尼亚语（罗马尼亚）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	罗恩鲁丰	全球的动作	发音词典	罗马尼亚语	罗马尼亚	N/A	N/A	N/A	N/A	000年15	N/A	文本		l
77	罗马尼亚语（罗马尼亚）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	37小时	添加到咨询列表	ROM_ASR001	全球的动作	对话录音	罗马尼亚语	罗马尼亚	低背景噪音	200	2	可根据要求提供	16 658	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	l
205	老挝（老挝）发音词典	文本	ASR，TTS，语言建模	N/A	9000个单词	添加到咨询列表	劳劳丰	全球的动作	发音词典	老挝语	老挝	N/A	N/A	N/A	N/A	9 000	N/A	文本		l
124	芬兰语（芬兰）印刷文本光学字符识别	图像	文件处理, 文件搜索	照相机	7293张图片	添加到咨询列表	IMG\U OCR\U FIN\U CN	阿彭中国	光学字符识别	芬兰语	芬兰	不同光线	4	NA	NA	NA	NA	jpg	包含文字的图像，例如广告牌，产品外包装，标志牌，杂志以及菜单等等	F
180	芬兰语（芬兰）发音词典	文本	ASR，TTS，语言建模	N/A	85,000个单词	添加到咨询列表	fin_FIN_PHON	全球的动作	发音词典	芬兰语	芬兰	N/A	N/A	N/A	N/A	85 000	N/A	文本		F
181	芬兰语（芬兰）词性词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	fin_FIN_POS	全球的动作	词性词典	芬兰语	芬兰	N/A	N/A	N/A	N/A	10 000	N/A	文本		F
272	苏州方言语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.84小时	添加到咨询列表	SUZHOU_ASR001_CN	阿彭中国	语料朗读	苏州方言	中国	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		Z
166	英文（加拿大）发音词典	文本	ASR，TTS，语言建模	N/A	50,000个单词	添加到咨询列表	eng_CAN_PHON	全球的动作	发音词典	英语	加拿大	N/A	N/A	N/A	N/A	50 000	N/A	文本		Y
19	英文（加拿大）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	144小时	添加到咨询列表	附件ASR001	全球的动作	有定稿的录音	英语	加拿大	混合	1 000	1	99 000	12 483	8	法律或wav	完全转录为萨拉二世/演讲类型数据集附带一个包含所有转录词的发音词典每个发音人录制99个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	Y
167	英文（加拿大）词性词典	文本	ASR，TTS，语言建模	N/A	3,000个单词	添加到咨询列表	发动机CAN位置	全球的动作	词性词典	英语	加拿大	N/A	N/A	N/A	N/A	3 000	N/A	文本		Y
170	英文（印度）发音词典	文本	ASR，TTS，语言建模	N/A	60,000个单词	添加到咨询列表	eng_IND_PHON	全球的动作	发音词典	英语	印度	N/A	N/A	N/A	N/A	60 000	N/A	文本		Y
22	英文（印度）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	67小时	添加到咨询列表	ENI_ASR002	全球的动作	对话录音	英语	印度	低背景噪音	540	2	77 565	11 646	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了271个电话对话	Y
21	英文（印度）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	217小时	添加到咨询列表	ENI_ASR001	全球的动作	有定稿的录音	英语	印度	混合	2 358年	1	117 900	9 190	8	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典[SAMPA] 每个发音人录制49个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词	Y
171	英文（印度）词性词典	文本	ASR，TTS，语言建模	N/A	13,000个单词	添加到咨询列表	工程师职位	全球的动作	词性词典	英语	印度	N/A	N/A	N/A	N/A	000年13	N/A	文本		Y
168	英文（菲律宾）发音词典	文本	ASR，TTS，语言建模	N/A	5000个单词	添加到咨询列表	eng_PHL_PHON	全球的动作	发音词典	英语	菲律宾	N/A	N/A	N/A	N/A	000年5	N/A	文本		Y
20	英文（菲律宾）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	53小时	添加到咨询列表	ENF_ASR001	全球的动作	对话录音	英语	菲律宾	低背景噪音	450	2	41 602	7 272	8	法律或wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典平均通话时长为10到15分钟	Y
18	英文（阿拉伯文-黎凡特/埃及）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	28小时	添加到咨询列表	ENA_ASR001	全球的动作	对话录音	英语	埃及	低背景噪音	250	2	可根据要求提供	5 619	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典平均通话时长为10到15分钟	Y
127	英语内尔语料库	文本	内尔，内容分类, 搜索引擎	N/A	22768个句子	添加到咨询列表	ENG_NER001	全球的动作	尼珥	英语	N/A	N/A	N/A	N/A	22 768	可根据要求提供	N/A	文本		Y
165	英语（澳大利亚）发音词典	文本	ASR，TTS，语言建模	N/A	157,000个单词	添加到咨询列表	英澳丰	全球的动作	发音词典	英语	澳大利亚	N/A	N/A	N/A	N/A	157 000	N/A	文本		Y
1	英语（澳大利亚）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	92小时	添加到咨询列表	澳大利亚ASR001	全球的动作	有定稿的录音	英语	澳大利亚	低背景噪音（家庭/办公室）	500	1	82 500	35 137	8	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典每个发音人录制162个朗读录音，录音包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令（从215个指令中挑选），语音丰富的句子和单词	E
2	英语（澳大利亚）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	118小时	添加到咨询列表	澳大利亚大学ASR002	全球的动作	有定稿的录音	英语	澳大利亚	混合	1 000	1	75 000	19	8	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典每个发音人录制75个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词语料包含了有定稿的录音和自由发挥的录音，其中每个稿子包含了5.条自由发挥的录音	E
172	英语（爱尔兰）发音词典	文本	ASR，TTS，语言建模	N/A	12000个单词	添加到咨询列表	eng_IRL_PHON	全球的动作	发音词典	英语	爱尔兰	N/A	N/A	N/A	N/A	12 000	N/A	文本		Y
173	英语（纽西兰）发音词典	文本	ASR，TTS，语言建模	N/A	50,000个单词	添加到咨询列表	eng_NZL_PHON	全球的动作	发音词典	英语	纽西兰	N/A	N/A	N/A	N/A	50 000	N/A	文本		Y
176	英语（美国）发音词典	文本	ASR，TTS，语言建模	N/A	330000个单词	添加到咨询列表	美国英语	全球的动作	发音词典	英语	美国	N/A	N/A	N/A	N/A	330 000	N/A	文本		Y
103	英语（美国）对话式的智能手机录音语料库	音频	ASR,对话式AI,语音分析	移动电话	1000小时	添加到咨询列表	使用ASR003	全球的动作	对话录音	英语	美国	低背景噪音	2 000	1	500 000	52 586	16	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典对话涵盖了各种主题，包括学习/专业/工作，家乡，生活安排，天气和季节，准时，电视节目/电影	Y
89	英语（美国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	53小时	添加到咨询列表	美国speech English数据库	细微的差别	有定稿的录音	英语	美国	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	Y
102	英语（美国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	62小时	添加到咨询列表	使用_ASR001	全球的动作	有定稿的录音	英语	美国	低背景噪音（录音棚）	200	2	80 000	18 318	48	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典每个发音人录制400个语料，语料包括数字，自然数，人名，城市名，电话号码，通用指令和特定指令，语音丰富的句子和单词	Y
177	英语（美国）词性词典	文本	ASR，TTS，语言建模	N/A	263,000个单词	添加到咨询列表	eng_USA_POS	全球的动作	词性词典	英语	美国	N/A	N/A	N/A	N/A	263 000	N/A	文本		Y
95	英语（英国）	音频	语音合成	头戴式麦克风	11小时	添加到咨询列表	TC-STAR女声基线劳拉	细微的差别	有定稿的录音	英语	英国	低背景噪音（录音棚）	1	1	可根据要求提供	可根据要求提供	96	可根据要求提供	数据集包括人工正字法转录的转录文件，自动分割的音素，自动生成的音高标记（已手动检查了一定比例的语音段和音高标记）数据集附有一个包含词性，词元和音标的发音词典	Y
96	英语（英国）	音频	语音合成	头戴式麦克风	7.小时	添加到咨询列表	TC-STAR男声基线伊恩	细微的差别	有定稿的录音	英语	英国	低背景噪音（录音棚）	1	1	可根据要求提供	可根据要求提供	96	可根据要求提供	数据集包括人工正字法转录的转录文件，自动分割的音素，自动生成的音高标记（已手动检查了一定比例的语音段和音高标记）数据集附有一个包含词性，词元和音标的发音词典	Y
174	英语（英国）发音词典	文本	ASR，TTS，语言建模	N/A	195,000个单词	添加到咨询列表	eng_GBR_PHON	全球的动作	发音词典	英语	英国	N/A	N/A	N/A	N/A	195 000	N/A	文本		Y
One hundred.	英语（英国）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	150小时	添加到咨询列表	UKE_ASR001	全球的动作	对话录音	英语	英国	低背景噪音	1 150	2	298 562	24 193	8	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	Y
254	英语（英国）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	50小时	添加到咨询列表	UKE_ASR001B	全球的动作	对话录音	英语	英国	低背景噪音	1 150	2	可根据要求提供	13 192	8	wav	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	Y
175	英语（英国）词性词典	文本	ASR，TTS，语言建模	N/A	155000个单词	添加到咨询列表	eng_GBR_POS	全球的动作	词性词典	英语	英国	N/A	N/A	N/A	N/A	155 000	N/A	文本		Y
164	英语（阿拉伯联合酋长国）发音词典	文本	ASR，TTS，语言建模	N/A	5000个单词	添加到咨询列表	eng_ARE_PHON	全球的动作	发音词典	英语	阿拉伯联合酋长国	N/A	N/A	N/A	N/A	000年5	N/A	文本		Y
63	英语（阿拉伯联合酋长国）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	33小时	添加到咨询列表	阿拉伯联合酋长国所说的东方英语	细微的差别	有定稿的录音	英语	阿拉伯联合酋长国	低背景噪音	500	1	25 500年	可根据要求提供	8	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制51个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词以及自由发挥的特定指令	Y
169	英语（香港）发音词典	文本	ASR，TTS，语言建模	N/A	18000个单词	添加到咨询列表	香港电话	全球的动作	发音词典	英语	香港	N/A	N/A	N/A	N/A	18 000	N/A	文本		Y
29	荷兰语（比利时）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	麦克风	80小时	添加到咨询列表	佛兰芒语演讲（II）FDB-1000（固定1FL）	细微的差别	有定稿的录音	荷兰语	比利时	低背景噪音	1 000	1	52 000	可根据要求提供	8	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制52个语料，语料包含数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词以及自由发挥的特定指令	H
87	荷兰语（比利时）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	47小时	添加到咨询列表	来自比利时的斯佩肯·达奇	细微的差别	有定稿的录音	荷兰语	比利时	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	H
16	荷兰语（荷兰和比利时）有定稿的车内录音语料库	音频	ASR，虚拟助手, 车载人机界面及娱乐设备	麦克风和移动电话	27小时	添加到咨询列表	荷兰和佛兰芒语演讲车	细微的差别	有定稿的录音	荷兰语	荷兰-比利时	混合（车内）	302	5	100年15	可根据要求提供	16和8	阿拉	数据集已完全转录，并附有发音词典和验证报告每个成年发音人录制125个语料，语料包括数字，自然数，字母串，个人、地点和企业名称（一些是自由发挥的），通用指令和特定指令，语音丰富的句子和单词及自由发挥的语料	H
163	荷兰语（荷兰）发音词典	文本	ASR，TTS，语言建模	N/A	45000个单词	添加到咨询列表	nld_NLD_PHON	全球的动作	发音词典	荷兰语	荷兰	N/A	N/A	N/A	N/A	45 000	N/A	文本		H
62	荷兰语（荷兰）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	36小时	添加到咨询列表	NLD_ASR001	全球的动作	对话录音	荷兰语	荷兰	低背景噪音	200	2	可根据要求提供	14 964	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	H
88	荷兰语（荷兰）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	68小时	添加到咨询列表	荷兰语来自荷兰	细微的差别	有定稿的录音	荷兰语	荷兰	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	H
291	葡萄牙语(欧洲)自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.88小时	添加到咨询列表	POR_EUR_ASR001_CN	阿彭中国	自由说	葡萄牙语(欧洲)	葡萄牙	低背景噪音（家庭/办公室）	8		NA	NA	16	wav		P
219	葡萄牙语（巴西）发音词典	文本	ASR，TTS，语言建模	N/A	102,000个单词	添加到咨询列表	波鲁布拉丰酒店	全球的动作	发音词典	葡萄牙语	巴西	N/A	N/A	N/A	N/A	102 000	N/A	文本		P
74	葡萄牙语（巴西）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	33小时	添加到咨询列表	PTB_ASR002	全球的动作	对话录音	葡萄牙语	巴西	低背景噪音	200	2	可根据要求提供	11 287	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典	P
220	葡萄牙语（巴西）词性词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	por_BRA_位置	全球的动作	词性词典	葡萄牙语	巴西	N/A	N/A	N/A	N/A	100 000	N/A	文本		P
73	葡萄牙语（巴西）麦克风录音数据库	音频	ASR、虚拟助手,聊天机器人	麦克风	26小时	添加到咨询列表	PTB_ASR001	全球手机	有定稿的录音	葡萄牙语	巴西	低背景噪音（家庭/办公室）	102	1	10 417	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	P
221	葡萄牙语（葡萄牙）发音词典	文本	ASR，TTS，语言建模	N/A	112,000个单词	添加到咨询列表	por_PRT_PHON	全球的动作	发音词典	葡萄牙语	葡萄牙	N/A	N/A	N/A	N/A	112 000	N/A	文本		P
75	葡萄牙语（葡萄牙）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	36小时	添加到咨询列表	PTP_ASR001	全球的动作	对话录音	葡萄牙语	葡萄牙	低背景噪音	200	2	可根据要求提供	339年16日	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	P
222	葡萄牙语（葡萄牙）词性词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	por_PRT_POS	全球的动作	词性词典	葡萄牙语	葡萄牙	N/A	N/A	N/A	N/A	100 000	N/A	文本		P
212	蒙古语（蒙古）发音词典	文本	ASR，TTS，语言建模	N/A	30000个单词	添加到咨询列表	孟孟峰	全球的动作	发音词典	蒙古语	蒙古	N/A	N/A	N/A	N/A	30 000	N/A	文本		米
232	西班牙文（哥伦比亚）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	水疗中心	全球的动作	发音词典	西班牙语	哥伦比亚	N/A	N/A	N/A	N/A	000年15	N/A	文本		X
235	西班牙文（委内瑞拉）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	文丰温泉酒店	全球的动作	发音词典	西班牙语	委内瑞拉	N/A	N/A	N/A	N/A	000年15	N/A	文本		X
231	西班牙文（智利）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	水疗中心	全球的动作	发音词典	西班牙语	智利	N/A	N/A	N/A	N/A	000年15	N/A	文本		X
230	西班牙文（西班牙）发音词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	水疗中心	全球的动作	发音词典	西班牙语	西班牙	N/A	N/A	N/A	N/A	100 000	N/A	文本		X
113	西班牙文（西班牙）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	540小时	添加到咨询列表	ESP\U ASR002\U CN	阿彭中国	有定稿的录音	西班牙语	西班牙	低背景噪音（家庭/办公室）	347	1	258 395	134 939	16	wav	数据集已完全转录	X
25	西班牙文（西班牙）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	39小时	添加到咨询列表	ESP_ASR001	全球的动作	有定稿的录音	西班牙语	西班牙	混合	200	4	40 000	6 367	22	阿拉	完全转录为演讲类型数据集附带一个包含所有转录词的发音词典每个发音人录制200个语料，语料包括100个命令和特定指令，100个语音丰富的句子	X
26	西班牙文（西班牙）有定稿的麦克风录音语料库	音频	语音合成	麦克风	1小时	添加到咨询列表	ESP_TTS001	全球的动作	有定稿的录音	西班牙语	西班牙	低背景噪音（录音棚）	1	1	1 787	3 614	22	阿拉	数据集随附一个发音词典，其中包含该数据集中所说的所有单词每个演讲者提供1787条语料，包括语音丰富的句子	X
93	西班牙文（西班牙）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	46小时	添加到咨询列表	Speecon西班牙数据库	细微的差别	有定稿的录音	西班牙语	西班牙	混合（办公室/娱乐场所/车内/公共场所）	600（550个成年语料提供者及50个儿童语料提供者）	4	170 000	可根据要求提供	16	可根据要求提供	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个成年发音人录制290个语料，每个儿童发音人录制210个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，语音丰富的句子和单词，儿童发音人还需要提供关于玩具，手机的指令以及通用指令，成年发音人还需要提供应用词汇，以及自由发挥的语料	X
270	西班牙语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.小时	添加到咨询列表	ESP\U ASR002\U CN	阿彭中国	自由说	西班牙语	西班牙	低背景噪音（家庭/办公室）	N/A		NA	NA	16	wav		X
24	西班牙语（拉丁美洲-智利和哥伦比亚）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	22小时	添加到咨询列表	ESL_ASR002	全球的动作	对话录音	西班牙语	智利-哥伦比亚	混合	84	2	可根据要求提供	可根据要求提供	8	wav	数据集已完全转录并加了时间戳银行和电信领域的呼叫中心风格的对话（由64个客户和14个代理商提供的），主要使用移动电话	X
23	西班牙语（拉丁美洲）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	17小时	添加到咨询列表	ESL_ASR001	全球手机	有定稿的录音	西班牙语	哥斯达黎加	低背景噪音（家庭/办公室）	One hundred.	1	6 898	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	X
233	西班牙语（秘鲁）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	spa_PER_PHON	全球的动作	发音词典	西班牙语	秘鲁	N/A	N/A	N/A	N/A	000年15	N/A	文本		X
234	西班牙语（美国）发音词典	文本	ASR，TTS，语言建模	N/A	90000个单词	添加到咨询列表	spa_USA_PHON	全球的动作	发音词典	西班牙语	美国	N/A	N/A	N/A	N/A	90 000	N/A	文本		X
229	西班牙语（阿根廷）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	spa_ARG_PHON	全球的动作	发音词典	西班牙语	阿根廷	N/A	N/A	N/A	N/A	000年15	N/A	文本		X
40	豪萨语有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	20小时	添加到咨询列表	HAU_ASR001	全球手机	有定稿的录音	豪萨语	多国	低背景噪音（家庭/办公室）	103	1	7 895	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	H
190	豪萨（尼日利亚）发音词典	文本	ASR，TTS，语言建模	N/A	11000个单词	添加到咨询列表	豪雅峰	全球的动作	发音词典	豪萨语	奈及利亚	N/A	N/A	N/A	N/A	11 000	N/A	文本		H
41	豪萨（尼日利亚）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话	33小时	添加到咨询列表	HAU_ASR002	全球的动作	对话录音	豪萨语	奈及利亚	低背景噪音	200	2	可根据要求提供	7 949	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典这个项目记录了200个电话对话 - 是由100个呼入者，各进行2次呼叫（一次使用固定电话，一次使用移动电话）至100个接收者之一	H
288	越南语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.61小时	添加到咨询列表	VIE_ASR001_CN	阿彭中国	自由说	越南语	越南	低背景噪音（家庭/办公室）	7		NA	NA	16	wav		Y
250	越南（越南）发音词典	文本	ASR，TTS，语言建模	N/A	8000个单词	添加到咨询列表	vie_VNM_PHON	全球的动作	发音词典	越南语	越南	N/A	N/A	N/A	N/A	8 000	N/A	文本		Y
104	越南(越南)麦克风录音数据库	音频	ASR、虚拟助手,聊天机器人	麦克风	47小时	添加到咨询列表	VIE_ASR001	全球手机	有定稿的录音	越南语	越南	低背景噪音（家庭/办公室）	129	1	18 842	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	Y
125	身体移动视频库	视频	健身应用, 行为识别, 手势识别	移动电话	2,000 个视频	添加到咨询列表	VED_HUMAN_BODY_CN	阿彭中国	人体	N/A	中国	不同背景及光线	1000	NA	NA	NA	NA	mp4	每个视频片段长约10至20秒	Z
161	达里语（阿富汗）发音词典	文本	ASR，TTS，语言建模	N/A	30000个单词	添加到咨询列表	prs_AFG_PHON	全球的动作	发音词典	达里语	阿富汗	N/A	N/A	N/A	N/A	30 000	N/A	文本		D
12	达里语（阿富汗）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	40小时	添加到咨询列表	达鲁ASR001	全球的动作	对话录音	达里语	阿富汗	低背景噪音	500	2	可根据要求提供	11 168	8	阿拉	数据集已完全转录并加上时间戳数据集主要是语音，不包括音乐或广告	D
13	达里语（阿富汗）广播录音数据库	音频	ASR、自动字幕,关键字检索	麦克风	51小时	添加到咨询列表	DAR_BRC001	全球的动作	广播录音	达里语	阿富汗	低背景噪音（录音棚）	N/A	1	可根据要求提供	可根据要求提供	N/A	wav	数据集已完全转录并加上时间戳数据集主要是语音，不包括音乐或广告数据类型包括：脱口秀，访谈，新闻广播（不包括主持人阅读的新闻）	D
282	长沙语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	2.18小时	添加到咨询列表	CHANGSHA_ASR001_CN	阿彭中国	语料朗读	长沙	中国	低背景噪音（家庭/办公室）	10		NA	NA	16	wav		Z
135	阿姆哈拉语（埃塞俄比亚）发音词典	文本	ASR，TTS，语言建模	N/A	45000个单词	添加到咨询列表	amh_ETH_PHON	全球的动作	发音词典	阿姆哈拉语	埃塞俄比亚	N/A	N/A	N/A	N/A	45 000	N/A	文本		一个
134	阿尔巴尼亚语（阿尔巴尼亚）发音词典	文本	ASR，TTS，语言建模	N/A	12000个单词	添加到咨询列表	sqi_ALB_PHON	全球的动作	发音词典	阿尔巴尼亚语	阿尔巴尼亚	N/A	N/A	N/A	N/A	12 000	N/A	文本		一个
126	阿拉伯语内尔语料库	文本	内尔，内容分类, 搜索引擎	N/A	20,774个句子	添加到咨询列表	ARB_NER001	全球的动作	尼珥	阿拉伯语	N/A	N/A	N/A	N/A	774	可根据要求提供	N/A	文本		一个
143	阿拉伯语发音词典	文本	ASR，TTS，语言建模	N/A	40000个单词	添加到咨询列表	arb_N / A_PHON	全球的动作	发音词典	阿拉伯语	N/A	N/A	N/A	N/A	N/A	40 000	N/A	文本		一个
137	阿拉伯语（伊拉克）发音词典	文本	ASR，TTS，语言建模	N/A	15,000个单词	添加到咨询列表	ara_IRQ_PHON	全球的动作	发音词典	阿拉伯语	伊拉克	N/A	N/A	N/A	N/A	000年15	N/A	文本	人名	一个
138	阿拉伯语（伊拉克）词性词典	文本	ASR，TTS，语言建模	N/A	13,000个单词	添加到咨询列表	ara_IRQ_POS	全球的动作	词性词典	阿拉伯语	伊拉克	N/A	N/A	N/A	N/A	000年13	N/A	文本		一个
139	阿拉伯语（利比亚）发音词典	文本	ASR，TTS，语言建模	N/A	48,000个单词	添加到咨询列表	ara_LBY_PHON	全球的动作	发音词典	阿拉伯语	利比亚	N/A	N/A	N/A	N/A	48 000	N/A	文本		一个
136	阿拉伯语（埃及）发音词典	文本	ASR，TTS，语言建模	N/A	40000个单词	添加到咨询列表	ara_EGY_PHON	全球的动作	发音词典	阿拉伯语	埃及	N/A	N/A	N/A	N/A	40 000	N/A	文本		一个
110	阿拉伯语（埃及）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	352小时	添加到咨询列表	是否为ASR001中国	阿彭中国	有定稿的录音	阿拉伯语	埃及	低背景噪音（家庭/办公室）	627	1	128 908	207 576	16	wav	数据集已完全转录	一个
142	阿拉伯语（摩洛哥）发音词典	文本	ASR，TTS，语言建模	N/A	60,000个单词	添加到咨询列表	阿劳马尔丰酒店	全球的动作	发音词典	阿拉伯语	摩洛哥	N/A	N/A	N/A	N/A	60 000	N/A	文本		一个
109	阿拉伯语（摩洛哥）对话式的电话录音翻译	文本	太,聊天机器人,对话式人工智能	N/A	80544个发音	添加到咨询列表	ARY_MT001	全球的动作	对话翻译	阿拉伯语	摩洛哥	N/A	180	N/A	80 430	23 844	N/A	文本	相应的音频，转录文本，完全可逆的罗马化的转录文本及发音词典见数据集ARY_ASR001和ARY_ASRMT001	一个
108	阿拉伯语（摩洛哥）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	33小时	添加到咨询列表	ARY_ASR001	全球的动作	对话录音	阿拉伯语	摩洛哥	低背景噪音	180	2	80 544	23 836	8	阿拉	每个发音人参与了1至4个对话,每个发音人由一个记录在人口统计文件中的唯一的4位数的演讲者ID来识别此转录文件有原始版本和完全可逆的罗马化版本，并附带发音词典产品转录的英文翻译见数据集ARY_MT001和ARY_ASRMT001	一个
111	阿拉伯语（沙特阿拉伯）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	322小时	添加到咨询列表	ARS_ASR001_CN	阿彭中国	有定稿的录音	阿拉伯语	沙特阿拉伯	低背景噪音（家庭/办公室）	227	1	104 574	156 282	16	wav	数据集已完全转录	一个
61	阿拉伯语（现代标准阿拉伯语）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	12小时	添加到咨询列表	MSA_ASR001	全球手机	有定稿的录音	阿拉伯语	突尼斯	低背景噪音（家庭/办公室）	78	1	908年4	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	一个
145	阿拉伯语（苏丹）发音词典	文本	ASR，TTS，语言建模	N/A	17,000个单词	添加到咨询列表	ara_SDN_PHON	全球的动作	发音词典	阿拉伯语	苏丹	N/A	N/A	N/A	N/A	17 000	N/A	文本		一个
17	阿拉伯语（阿尔及利亚东部）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	29小时	添加到咨询列表	EAR_ASR001	全球的动作	对话录音	阿拉伯语	阿尔及利亚	低背景噪音（家庭/办公室）	496	2	可根据要求提供	327年11	8	阿拉	数据集已完全转录并加上时间戳数据集附带一个包含所有转录词的发音词典在大多数通话中，对话双方（呼入者和呼出者）的说话内容都被收集并转录了，但是对于一小部分的通话，只有一半的对话内容被收集并转录了	一个
140	阿拉伯语（阿尔及利亚）发音词典	文本	ASR，TTS，语言建模	N/A	11000个单词	添加到咨询列表	ara_DZA_PHON	全球的动作	发音词典	阿拉伯语	阿尔及利亚	N/A	N/A	N/A	N/A	11 000	N/A	文本		一个
7	阿拉伯语（阿拉伯联合酋长国/沙特阿拉伯）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	86小时	添加到咨询列表	CGA_ASR001	全球的动作	有定稿的录音	阿拉伯语	阿拉伯联合酋长国-沙特阿拉伯	低背景噪音（家庭/办公室）	150	4	42 000	19 245	16	阿拉	语音文件内容已完全转录，精确到单词所有录音均使用了衍生于演讲模型的方法进行标记所有转录文件已被加注元音标识每个发音人录制280个语料，语料包括15个人的名字和姓氏（共计30个），10个分开朗读的数字（0-10），随机生成的数字序列（每个序列包含8个数字），200个语音平衡的句子，30个语音平衡单词串（每个单词串包含10个单词）	一个
144	阿拉伯语（阿拉伯联合酋长国）发音词典	文本	ASR，TTS，语言建模	N/A	75000个单词	添加到咨询列表	阿鲁阿鲁蓬	全球的动作	发音词典	阿拉伯语	阿拉伯联合酋长国	N/A	N/A	N/A	N/A	75 000	N/A	文本		一个
118	阿拉伯语（阿拉伯联合酋长国）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	170小时	添加到咨询列表	阿鲁ASR001中国	阿彭中国	有定稿的录音	阿拉伯语	阿拉伯联合酋长国	低背景噪音（家庭/办公室）	133	1	42 352	85 775	16	wav	数据集已完全转录	一个
66	阿拉伯语（阿拉伯联合酋长国）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	48小时	添加到咨询列表	阿拉伯联合酋长国MCA(现代阿拉伯口语)	细微的差别	有定稿的录音	阿拉伯语	阿拉伯联合酋长国	低背景噪音	880	1	43 000	可根据要求提供	8	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制49个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词以及自由发挥的特定指令	一个
67	阿拉伯语（阿拉伯联合酋长国）有定稿的电话录音语料库	音频	ASR，呼叫中心, 虚拟助手	移动电话和固定电话	31小时	添加到咨询列表	阿拉伯联合酋长国东方电信(现代标准阿拉伯语)	细微的差别	有定稿的录音	阿拉伯语	阿拉伯联合酋长国	低背景噪音	500	1	24 500	可根据要求提供	8	阿拉	数据集已完全转录为演讲类型，并附有发音词典和验证报告每个发音人录制49个语料，语料包括数字，自然数，字母串，个人、地点和企业名称，确认项（肯定，否定，不置可否的回答），通用指令和特定指令，语音丰富的句子和单词以及自由发挥的特定指令	一个
146	阿萨姆语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	40000个单词	添加到咨询列表	asm_IND_PHON	全球的动作	发音词典	阿萨姆语	印度	N/A	N/A	N/A	N/A	40 000	N/A	文本		一个
202	韩文（韩国）发音词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	科鲁科鲁丰	全球的动作	发音词典	韩语	韩国	N/A	N/A	N/A	N/A	100 000	N/A	文本		H
55	韩文（韩国）有定稿的麦克风录音语料库	音频	ASR、虚拟助手,聊天机器人	麦克风	20小时	添加到咨询列表	KOR_ASR001	全球手机	有定稿的录音	韩语	韩国	低背景噪音（家庭/办公室）	One hundred.	1	107年8	可根据要求提供	16	wav	数据集已完全转录，转录文件有原始版本和罗马化版本每个发音人朗读大量语音丰富的句子，这些句子选自全国性的报纸文章，这些文章可以从网络上找到，覆盖范围广，词汇量大与卡尔斯鲁厄理工学院(工具包)合作开发	H
203	韩文（韩国）词性词典	文本	ASR，TTS，语言建模	N/A	100000个单词	添加到咨询列表	kor_kor_位置	全球的动作	词性词典	韩语	韩国	N/A	N/A	N/A	N/A	100 000	N/A	文本		H
128	韩语尼珥语料库	文本	内尔，内容分类, 搜索引擎	N/A	25,830个句子	添加到咨询列表	KOR_NER001	全球的动作	尼珥	韩语	韩国	N/A	N/A	N/A	25 830	可根据要求提供	N/A	文本		H
289	韩语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.35小时	添加到咨询列表	韩国ASR001中国	阿彭中国	自由说	韩语	韩国	低背景噪音（家庭/办公室）	4		NA	NA	16	wav		H
211	马拉地语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	30000个单词	添加到咨询列表	mar_IND_PHON	全球的动作	发音词典	马拉地语	印度	N/A	N/A	N/A	N/A	30 000	N/A	文本		米
60	马拉地语（印度）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	15小时	添加到咨询列表	MAR_ASR001	全球的动作	对话录音	马拉地语	印度	混合	180	2	可根据要求提供	11 908	8	阿拉	数据集中大约29%的会话被转录并加盖了时间戳，可以提供完整的转录文本数据集附带一个包含所有转录词的发音词典	米
106	马拉地语（印度）对话式的电话录音语料库	音频	ASR,对话式AI,语音分析	移动电话和固定电话	52小时	添加到咨询列表	MAR_ASR001A	全球的动作	对话录音	马拉地语	印度	混合	1 000	2	可根据要求提供	11 908	8	阿拉	数据集的部分会话被转录并加盖了时间戳，可以提供完整的转录文本数据集附带一个包含所有转录词的发音词典	米
207	马拉雅拉姆语（印度）发音词典	文本	ASR，TTS，语言建模	N/A	4,000个单词	添加到咨询列表	mal_IND_PHON	全球的动作	发音词典	玛拉雅拉姆语	印度	N/A	N/A	N/A	N/A	4 000	N/A	文本		米
208	马来西亚（马来西亚）发音词典	文本	ASR，TTS，语言建模	N/A	10,000个单词	添加到咨询列表	msa_MYS_PHON	全球的动作	发音词典	马来语	马来西亚	N/A	N/A	N/A	N/A	10 000	N/A	文本		米
287	马来语自由说语音数据库	音频	ASR,对话式AI,语音分析	手机麦克风	3.01小时	添加到咨询列表	MAL_ASR001_CN	阿彭中国	自由说	马来语	马来西亚	低背景噪音（家庭/办公室）	9		NA	NA	16	wav		米
119	高棉语（柬埔寨）有定稿的智能手机录音语料库	音频	ASR、虚拟助手,聊天机器人	移动电话	90小时	添加到咨询列表	KHM_ASR001_CN	阿彭中国	有定稿的录音	高棉语	柬埔寨	低背景噪音（家庭/办公室）	94	1	24 618	52 157	16	wav	数据集已完全转录	G
121	黑人（东非）脸部照片库	图像	面部识别	照相机	13500张图片	添加到咨询列表	我的脸	阿彭中国	人脸	N/A	肯尼亚	不同背景及光线	One hundred.	NA	NA	NA	NA	jpg		K