废弃货架数据集

我们的授权数据集来启动你的人工智能项目

产品目录

虽然开放数据或公共数据集很方便，但我们提供了一个广泛的“现成的”目录，涵盖80种语言、多种方言的250多个可授权数据集，适用于各种常见的人工智能用例。我们很高兴地宣布30多个新的数据集，为我们的客户提供即时的价值。在我们的产品中，您可以找到语音识别数据集，机器学习算法的学习数据集，所有这些都是用最先进的可用数据科学创建的。

速度

可立即支持您的AI/ML项目今天

成本效益

授权数据集比自定义数据收集更经济

专业知识

20年以上数据收集经验

支持所有数据类型

图像、视频、语音、音频和文本

规模

提供正确数量的数据来有效地训练您的模型

质量

提高AI模型的质量并最小化偏差

请求报价0

数据集名称	产品类型	常见用例	记录装置	单位

	数据集名称	产品类型	常见用例	记录装置	单位
138	阿尔巴尼亚语(阿尔巴尼亚)发音字典	文本	ASR, TTS，语言建模	N/A	12000个单词	添加引用	sqi_ALB_PHON	全球的动作	发音字典	阿尔巴尼亚	阿尔巴尼亚	N/A	N/A	N/A	N/A	12000年	N/A	文本		阿尔巴尼亚语(阿尔巴尼亚)发音字典
139	阿姆哈拉语(埃塞俄比亚)发音词典	文本	ASR, TTS，语言建模	N/A	45000个单词	添加引用	amh_ETH_PHON	全球的动作	发音字典	阿姆哈拉语	埃塞俄比亚	N/A	N/A	N/A	N/A	45，000	N/A	文本		阿姆哈拉语(埃塞俄比亚)发音词典
144	阿拉伯语(阿尔及利亚)发音词典	文本	ASR, TTS，语言建模	N/A	11000个单词	添加引用	ara_DZA_PHON	全球的动作	发音字典	阿拉伯	阿尔及利亚	N/A	N/A	N/A	N/A	11，000	N/A	文本		阿拉伯语(阿尔及利亚)发音词典
20.	阿拉伯语（阿尔及利亚东部）会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	29个小时	添加引用	EAR_ASR001	全球的动作	会话演讲	阿拉伯	阿尔及利亚	低背景噪音(家庭/办公室)	496.	2	可以在请求	11,327	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典在大多数电话中，两位发言人(内联/外联)都被接话和录音，但在少数电话中，只有一半的通话被接话和录音	阿拉伯语（阿尔及利亚东部）会话电话
140	阿拉伯语(埃及)发音词典	文本	ASR, TTS，语言建模	N/A	40000个单词	添加引用	ara_EGY_PHON	全球的动作	发音字典	阿拉伯	埃及	N/A	N/A	N/A	N/A	40,000	N/A	文本		阿拉伯语(埃及)发音词典
114	阿拉伯语（埃及）脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	352小时	添加引用	ARE_ASR001_CN	Appen中国	脚本演讲	阿拉伯	埃及	低背景噪音(家庭/办公室)	627	1	128908年	207576年	16	wav	数据集完全转录	阿拉伯语（埃及）脚本智能手机
142	阿拉伯语(伊拉克)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	13000字	添加引用	ara_IRQ_POS	全球的动作	语音词典的一部分	阿拉伯	伊拉克	N/A	N/A	N/A	N/A	13,000.	N/A	文本		阿拉伯语(伊拉克)语音词典的一部分
141	阿拉伯语(伊拉克)发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	ara_IRQ_PHON	全球的动作	发音字典	阿拉伯	伊拉克	N/A	N/A	N/A	N/A	15,000	N/A	文本	人的名字	阿拉伯语(伊拉克)发音词典
143	阿拉伯语(利比亚)发音词典	文本	ASR, TTS，语言建模	N/A	48,000个单词	添加引用	ara_LBY_PHON	全球的动作	发音字典	阿拉伯	利比亚	N/A	N/A	N/A	N/A	48000年	N/A	文本		阿拉伯语(利比亚)发音词典
65	阿拉伯语(现代标准阿拉伯语)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	12小时	添加引用	MSA_ASR001	全球手机	脚本演讲	阿拉伯	突尼斯	低背景噪音(家庭/办公室)	78	1	4908年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	阿拉伯语(现代标准阿拉伯语)脚本麦克风
112	阿拉伯语(摩洛哥)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	33小时	添加引用	ARY_ASR001	全球的动作	会话演讲	阿拉伯	摩洛哥	低背景噪音	180	2	80,544	23836年	8	一条法律	每位演讲者参与1至4次对话。扬声器由一个独特的4位扬声器ID识别，该ID记录在人口统计文件中转录可用的原始脚本和完全可逆的罗马化版本与伴随的发音词典bob外围怎么样有产品转录的英文翻译(ARY_MT001, ARY_ASRMT001)	阿拉伯语(摩洛哥)会话电话
113	阿拉伯语（摩洛哥）会话电话翻译	文本	MT，聊天机器人，对话人工智能	N/A	80544年的话语	添加引用	ARY_MT001	全球的动作	对话翻译	阿拉伯	摩洛哥	N/A	180	N/A	80430年	23844年	N/A	文本	相应的音频、转录、完全可逆的罗马化转录和发音词典数据可用(ARY_ASR001, ARY_ASRMT001)	阿拉伯语（摩洛哥）会话电话翻译
146	阿拉伯语(摩洛哥)发音词典	文本	ASR, TTS，语言建模	N/A	60000个单词	添加引用	ara_MAR_PHON	全球的动作	发音字典	阿拉伯	摩洛哥	N/A	N/A	N/A	N/A	60，000	N/A	文本		阿拉伯语(摩洛哥)发音词典
147	阿拉伯语(N/A)发音字典	文本	ASR, TTS，语言建模	N/A	40000个单词	添加引用	arb_N / A_PHON	全球的动作	发音字典	阿拉伯	N/A	N/A	N/A	N/A	N/A	40,000	N/A	文本		阿拉伯语(N/A)发音字典
115	阿拉伯语(沙特阿拉伯)脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	322小时	添加引用	ARS_ASR001_CN	Appen中国	脚本演讲	阿拉伯	沙特阿拉伯	低背景噪音(家庭/办公室)	227	1	104574年	156282年	16	wav	数据集完全转录抄写没有元音每位演讲者提供300-1000个提示，涵盖教育、体育、娱乐、旅游、文化和科技等一般内容数据库不是伴随发音词典	阿拉伯语(沙特阿拉伯)脚本智能手机
149	阿拉伯语（苏丹）发音词典	文本	ASR, TTS，语言建模	N/A	17000个单词	添加引用	ara_SDN_PHON	全球的动作	发音字典	阿拉伯	苏丹	N/A	N/A	N/A	N/A	17000年	N/A	文本		阿拉伯语（苏丹）发音词典
148	阿拉伯语(阿拉伯联合酋长国(阿联酋))发音词典	文本	ASR, TTS，语言建模	N/A	75,000字	添加引用	阿鲁阿鲁蓬	全球的动作	发音字典	阿拉伯	阿拉伯联合酋长国(UAE)	N/A	N/A	N/A	N/A	75000年	N/A	文本		阿拉伯语(阿拉伯联合酋长国(阿联酋))发音词典
122	阿拉伯语(阿拉伯联合酋长国)脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	170小时	添加引用	ARU_ASR001_CN	Appen中国	脚本演讲	阿拉伯	阿拉伯联合酋长国(UAE)	低背景噪音(家庭/办公室)	133	1	42352年	85775年	16	wav	数据集完全转录	阿拉伯语(阿拉伯联合酋长国)脚本智能手机
70	阿拉伯语（阿拉伯联合酋长国（阿联酋））脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	48小时	添加引用	阿拉伯联合酋长国MCA(现代阿拉伯口语)	细微差别	脚本演讲	阿拉伯	阿拉伯联合酋长国(UAE)	低背景噪音	880.	1	43000年	可以在请求	8	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个发言者49个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，不是+模糊)，通用的命令和控制项目，语音丰富的句子和单词，自发项目的控制	阿拉伯语（阿拉伯联合酋长国（阿联酋））脚本电话
71	阿拉伯语（阿拉伯联合酋长国（阿联酋））脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	31个小时	添加引用	阿拉伯联合酋长国东方电信(现代标准阿拉伯语)	细微差别	脚本演讲	阿拉伯	阿拉伯联合酋长国(UAE)	低背景噪音	500	1	24500年	可以在请求	8	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个发言者49个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，不是+模糊)，通用的命令和控制项目，语音丰富的句子和单词，自发项目的控制	阿拉伯语（阿拉伯联合酋长国（阿联酋））脚本电话
9	阿拉伯语(阿拉伯联合酋长国(阿联酋)/沙特阿拉伯)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	86小时	添加引用	CGA_ASR001	全球的动作	脚本演讲	阿拉伯	阿拉伯联合酋长国(UAE) -沙特阿拉伯	低背景噪音(家庭/办公室)	150	4	42,000.	19245年	16	一条法律	在一个词的水平上完整的演讲文件的内容的转录所有的声音事件都使用来自于SpeechDATmodel的约定进行了标记所有的抄本都是完全元音的每个讲话者有280个提示，包括从15个集合中选出的30个人名(名和姓)，10个独立的数字0-10,8位数字序列(随机生成)，200个语音平衡的句子，30 x 10个单词的语音平衡的单词串	阿拉伯语(阿拉伯联合酋长国(阿联酋)/沙特阿拉伯)脚本麦克风
130	阿拉伯语新闻文本	文本	ner，内容分类，搜索引擎	N/A	20774句	添加引用	ARB_NER001	全球的动作	新闻尼珥	标准阿拉伯语	N/A	N/A	N/A	N/A	20774年	可以在请求	N/A	文本		阿拉伯语新闻文本
150	阿萨姆语(印度)发音词典	文本	ASR, TTS，语言建模	N/A	40000个单词	添加引用	asm_IND_PHON	全球的动作	发音字典	阿萨姆人的	印度	N/A	N/A	N/A	N/A	40,000	N/A	文本		阿萨姆语(印度)发音词典
124	婴儿哭泣的声音	音频	婴儿监视器，安全及其他消费者应用	移动电话	3个小时	添加引用	CRY_ASR001	Appen中国	人体声音	N/A	中国	低背景噪音(家庭/办公室)	One hundred.	1	N/A	N/A	16	wav	0-3岁婴儿的哭声，每次持续约2分钟。	婴儿哭泣的声音
4	印度尼西亚语会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	31个小时	添加引用	BAH_ASR001	全球的动作	会话演讲	印尼	印度尼西亚	低背景噪音	1,002	2	30695年	11480年	8	wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典对于大部分通话，只有一半的通话被收集和转录	印度尼西亚语会话电话
153	巴斯克(西班牙)发音词典	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	eus_ESP_PHON	全球的动作	发音字典	巴斯克	西班牙	N/A	N/A	N/A	N/A	10，000	N/A	文本		巴斯克(西班牙)发音词典
6	孟加拉语(孟加拉国)会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	47个小时	添加引用	BEN_ASR001	全球的动作	会话演讲	孟加拉语	孟加拉国	混合(车内、路边、家庭/办公室)	1,000	2	108923年	17,922	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典	孟加拉语(孟加拉国)会话式电话
154	孟加拉语(印度)发音词典	文本	ASR, TTS，语言建模	N/A	29000个单词	添加引用	ben_IND_PHON	全球的动作	发音字典	孟加拉语	印度	N/A	N/A	N/A	N/A	29000年	N/A	文本		孟加拉语(印度)发音词典
7	保加利亚会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	38小时	添加引用	BUL_ASR001	全球的动作	会话演讲	保加利亚	保加利亚	低背景噪音(家庭/办公室)	217	2	86453年	22342年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	保加利亚会话式电话
155	保加利亚语发音词典	文本	ASR, TTS，语言建模	N/A	55000个单词	添加引用	bul_BGR_PHON	全球的动作	发音字典	保加利亚	保加利亚	N/A	N/A	N/A	N/A	55000年	N/A	文本		保加利亚语发音词典
111	保加利亚(保加利亚)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	22小时	添加引用	BUL_ASR002	全球手机	脚本演讲	保加利亚	保加利亚	低背景噪音(家庭/办公室)	77	1	8674年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	保加利亚(保加利亚)脚本麦克风
273	企业对企业打印文本文档OCR	图像	文档处理，文档搜索	相机,扫描	4362份文件	添加引用	IMG_OCR_B2B.	全球的动作	文档OCR	N/A	N/A	混合照明条件	N/A	N/A	N/A	N/A	N/A	jpg	扫描包含打印文本的企业对企业文档。48%优质图像，包括采购订单、付款通知或汇款通知、订单确认和送货单;52%的标准质量图像，在各种不同的挑战条件下，在更广泛的类别，包括投诉或退货，送货通知，送货单，邓宁，货物收据，发票，要约，订单确认，付款凭条，付款通知或汇款通知，采购订单，收据，和供应商装载	企业对企业打印文本文档OCR
158	广东话(中国)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	yue_HKG_POS	全球的动作	语音词典的一部分	广东话	中国	N/A	N/A	N/A	N/A	10，000	N/A	文本	传统的	广东话(中国)语音词典的一部分
156	粤语（中国）发音词典	文本	ASR, TTS，语言建模	N/A	37000个单词	添加引用	余春凤	全球的动作	发音字典	广东话	中国	N/A	N/A	N/A	N/A	37000年	N/A	文本	简化	粤语（中国）发音词典
157	粤语（中国）发音词典	文本	ASR, TTS，语言建模	N/A	40000个单词	添加引用	余春凤	全球的动作	发音字典	广东话	中国	N/A	N/A	N/A	N/A	40,000	N/A	文本	传统的	粤语（中国）发音词典
159	加泰罗尼亚人（西班牙）的发音词典	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	cat_ESP_PHON	全球的动作	发音字典	加泰罗尼亚语的	西班牙	N/A	N/A	N/A	N/A	10，000	N/A	文本		加泰罗尼亚人（西班牙）的发音词典
160	Cebuano(菲律宾)发音词典	文本	ASR, TTS，语言建模	N/A	20000个单词	添加引用	ceb_PHL_PHON	全球的动作	发音字典	Cebuano	菲律宾	N/A	N/A	N/A	N/A	20,000	N/A	文本		Cebuano(菲律宾)发音词典
269	中国(外国)(多国)定稿录音	音频	ASR，会话人工智能，语音分析	移动电话	200小时	添加引用	FOREIGNER_ASR001_CN	Appen中国	完成记录	中文(外国人)	跨国公司	低背景噪音	309				16	wav	数据库包含200小时讲中文的外国人阿根廷、埃及、澳大利亚、俄罗斯、菲律宾、哈萨克斯坦、韩国、吉尔吉斯斯坦、加拿大、吉隆坡、肯尼亚、老挝、马来西亚、毛里求斯、美国、蒙古、南非、日本、塔吉克斯坦、泰国、土耳其、香港、新加坡、印度、印度尼西亚、越南这些数据不包括来自韩国的数据，巴西以外的数据也不包括未成年人记录的数据。一个发音持续1小时左右，一个句子持续3-10秒内容以个人阅读的形式收集工具是手机麦克风单声道16khz采样率录音环境是家庭/办公室。脱敏数据、编号和记录人员信息将被打乱。	中国(外国)(多国)定稿录音
10	克罗地亚（克罗地亚）对话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	39小时	添加引用	CRO_ASR001	全球的动作	会话演讲	克罗地亚	克罗地亚	低背景噪音(家庭/办公室)	200	2	可以在请求	23919年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	克罗地亚（克罗地亚）对话电话
161	克罗地亚语(克罗地亚)发音词典	文本	ASR, TTS，语言建模	N/A	20000个单词	添加引用	hrv_HRV_PHON	全球的动作	发音字典	克罗地亚	克罗地亚	N/A	N/A	N/A	N/A	20,000	N/A	文本		克罗地亚语(克罗地亚)发音词典
11	克罗地亚语（克罗地亚）脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	11小时	添加引用	CRO_ASR002	全球手机	脚本演讲	克罗地亚	克罗地亚	低背景噪音(家庭/办公室)	94	1	4499年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	克罗地亚语（克罗地亚）脚本麦克风
116	克罗地亚（克罗地亚）脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	263小时	添加引用	CRO_ASR003_CN	Appen中国	脚本演讲	克罗地亚	克罗地亚	低背景噪音(家庭/办公室)	243	1	73467年	136,140	16	wav	数据集完全转录	克罗地亚（克罗地亚）脚本智能手机
162	捷克(捷克共和国)发音字典	文本	ASR, TTS，语言建模	N/A	五万字	添加引用	ces_CZE_PHON	全球的动作	发音字典	捷克	捷克共和国	N/A	N/A	N/A	N/A	50，000	N/A	文本		捷克(捷克共和国)发音字典
12	捷克语(捷克共和国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	31个小时	添加引用	CZE_ASR001	全球手机	脚本演讲	捷克	捷克共和国	低背景噪音(家庭/办公室)	102	1	12425年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	捷克语(捷克共和国)脚本麦克风
13	捷克(捷克共和国)脚本电话	音频	ASR、虚拟助理	固定电话只	93小时	添加引用	捷克SpeechDat (E)的数据集	细微差别	脚本演讲	捷克	捷克共和国	低背景噪音	1,000	1	52,000	可以在请求	8	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 52个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的单词和句子	捷克(捷克共和国)脚本电话
164	丹麦语(丹麦语)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	100000个单词	添加引用	dan_DNK_POS	全球的动作	语音词典的一部分	丹麦	丹麦	N/A	N/A	N/A	N/A	100，000	N/A	文本		丹麦语(丹麦语)语音词典的一部分
163	丹麦语(丹麦)发音词典	文本	ASR, TTS，语言建模	N/A	107000个单词	添加引用	dan_DNK_PHON	全球的动作	发音字典	丹麦	丹麦	N/A	N/A	N/A	N/A	107,000.	N/A	文本		丹麦语(丹麦)发音词典
90	丹麦（丹麦）脚本话筒	音频	ASR，虚拟助理，聊天机器人	麦克风	53小时	添加引用	Speecon丹麦	细微差别	脚本演讲	丹麦	丹麦	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	丹麦（丹麦）脚本话筒
15	达里语(阿富汗)播出	音频	ASR，自动标题，关键字斑点	麦克风	51小时	添加引用	DAR_BRC001	全球的动作	广播讲话	达里语	阿富汗	低背景噪音(演播室)	N/A	1	可以在请求	可以在请求	N/A	wav	数据集是完全转录和时间戳数据集主要是语音，不包括音乐或广告数据类型包括:谈话节目、访谈、新闻广播(不包括主播阅读新闻)	达里语(阿富汗)播出
14	达里语(阿富汗)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	40小时	添加引用	DAR_ASR001	全球的动作	会话演讲	达里语	阿富汗	低背景噪音	500	2	可以在请求	11168年	8	一条法律	数据集是完全转录和时间戳数据集主要是语音，不包括音乐或广告	达里语(阿富汗)会话电话
165	达里语(阿富汗)发音词典	文本	ASR, TTS，语言建模	N/A	30000个单词	添加引用	prs_AFG_PHON	全球的动作	发音字典	达里语	阿富汗	N/A	N/A	N/A	N/A	30，000	N/A	文本		达里语(阿富汗)发音词典
166	Dholuo(肯尼亚)发音词典	文本	ASR, TTS，语言建模	N/A	20000个单词	添加引用	luo_ken_phon.	全球的动作	发音字典	Dholuo	肯尼亚	N/A	N/A	N/A	N/A	20,000	N/A	文本		Dholuo(肯尼亚)发音词典
262	中国东北方言会话	音频	ASR，会话人工智能，语音分析	记录笔/麦克风	84.6小时	添加引用	东北ASR001中国	Appen中国	会话演讲	东北方言	中国	低背景噪音	268	1			16	wav	覆盖区域:沈阳市和平区、沈河区、皇姑区、大东区、铁西区、绿园区、朝阳区、宽城区、二道区、南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、注:数据不包括东北郊区的口音数据和未成年人录音数据。单音约40分钟，单音对话约20 - 30分钟，内容为与2 - 5人自由对话。脱敏数据、编号、录音人信息将进行加密。这个数据库只是一个演讲库，它不包含文本。”	中国东北方言会话
263	中国东北方言会话	音频	ASR，会话人工智能，语音分析	移动电话	75.2小时	添加引用	东北ASR002中国	Appen中国	会话演讲	东北方言	中国	低背景噪音	185	1			8	wav	覆盖区域:沈阳市和平区、沈河区、皇姑区、大东区、铁西区、绿园区、朝阳区、宽城区、二道区、南关区、道里区、南岗区、道外区、平房区、松北区、香坊区、呼兰区、注:数据不包括东北郊区的口音数据和未成年人录音数据。单音约40分钟，单音对话约20 - 30分钟，内容为与2 - 5人自由对话。脱敏数据、编号、录音人信息将进行加密。这个数据库只是一个演讲库，它不包含文本。”	中国东北方言会话
91	荷兰语（比利时）脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	47个小时	添加引用	荷兰语，来自比利时	细微差别	脚本演讲	荷兰	比利时	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	荷兰语（比利时）脚本麦克风
33	荷兰(比利时)脚本电话	音频	ASR、虚拟助理	麦克风	80小时	添加引用	佛兰芒语音DAT（ii）FDB-1000（固定射线）	细微差别	脚本演讲	荷兰	比利时	低背景噪音	1,000	1	52,000	可以在请求	8	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 52个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，不是+模糊)，通用的命令和控制项目，语音丰富的句子和单词，自发项目的控制	荷兰(比利时)脚本电话
19	荷兰语(荷兰和比利时)编写在车内	音频	ASR，虚拟助理，汽车人机界面和娱乐	麦克风和手机	27小时	添加引用	荷兰语和佛兰德语的SpeechDat-Car	细微差别	脚本演讲	荷兰	荷兰-比利时	混合(车内)	302	5	15100年	可以在请求	16和8	一条法律	数据集完全转录，并伴有发音词典和验证报告每位成人演讲者125个提示，包括数字、自然数字、字母串、个人、地点和公司名称(有些是自发的)、通用的命令和控制项目、语音丰富的单词和句子以及自发的讲话提示	荷兰语(荷兰和比利时)编写在车内
66	荷兰语(荷兰)会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	36个小时	添加引用	NLD_ASR001	全球的动作	会话演讲	荷兰	荷兰	低背景噪音	200	2	可以在请求	14964年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	荷兰语(荷兰)会话式电话
167	荷兰语(荷兰)发音词典	文本	ASR, TTS，语言建模	N/A	45000个单词	添加引用	nld_NLD_PHON	全球的动作	发音字典	荷兰	荷兰	N/A	N/A	N/A	N/A	45，000	N/A	文本		荷兰语(荷兰)发音词典
92	荷兰(荷兰)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	68小时	添加引用	荷兰语来自荷兰	细微差别	脚本演讲	荷兰	荷兰	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	荷兰(荷兰)脚本麦克风
125	东非面部影像	图像	面部识别	摄像机	14948张图片	添加引用	我的脸	Appen中国	人类的脸	N/A	肯尼亚	混合背景和照明条件	99	N/A	N/A	N/A	N/A	jpg	图像包含9种不同照明条件的所有组合，参与者脸部和智能手机之间的2种不同距离，7种不同的相机角度每个人随机获得32张图片，包括墨镜、面具、假发或帽子等遮挡物随机拍摄的36张照片包括不同的面部表情，包括凝视、张嘴、撅嘴、微笑和皱眉照明条件:室内正常光、室外正常光、室内背光、室外背光、室内普通暗光、全黑屏补光、点光源(白光、路灯)、霓虹灯、侧眩光) 摄像机角度：前方，左侧45°，右侧45°，左侧15°，右侧15°，顶部30°，底部30°	东非面部影像
21	英语(阿拉伯语-黎凡特/埃及)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	28小时	添加引用	ENA_ASR001.	全球的动作	会话演讲	英语	埃及	低背景噪音	250	2	可以在请求	5619年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典平均通话时长:10-15分钟	英语(阿拉伯语-黎凡特/埃及)会话电话
169	英语(澳大利亚)发音词典	文本	ASR, TTS，语言建模	N/A	157000个单词	添加引用	英澳丰	全球的动作	发音字典	英语	澳大利亚	N/A	N/A	N/A	N/A	157,000.	N/A	文本		英语(澳大利亚)发音词典
2	英语（澳大利亚）脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	92小时	添加引用	aus_asr001.	全球的动作	脚本演讲	英语	澳大利亚	低背景噪音(家庭/办公室)	500	1	82500年	35137年	8	一条法律	完全转录到speech hdat类型约定数据集配有包含所有转录词的发音词典每个演讲者有162个提示(阅读演讲)，包括数字，自然数字，字母串，个人，地点，公司名称，确认项目(是，否+模糊)，通用的命令和控制项目(从215个)，语音丰富的句子和单词	英语（澳大利亚）脚本电话
3.	英语（澳大利亚）脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	118小时	添加引用	aus_asr002.	全球的动作	脚本演讲	英语	澳大利亚	混合	1,000	1	75000年	18952年	8	一条法律	完全转录到speech hdat类型约定数据集配有包含所有转录词的发音词典每位演讲者有75个提示，包括数字，自然数字，字母串，个人，地点和公司名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词提示是"阅读"和"引出"的组合每个脚本有5个提示是"自发的言论自由"	英语（澳大利亚）脚本电话
171	英语(加拿大)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	3000字	添加引用	发动机CAN位置	全球的动作	语音词典的一部分	英语	加拿大	N/A	N/A	N/A	N/A	3，000	N/A	文本		英语(加拿大)语音词典的一部分
170	英语（加拿大）发音词典	文本	ASR, TTS，语言建模	N/A	五万字	添加引用	eng_CAN_PHON	全球的动作	发音字典	英语	加拿大	N/A	N/A	N/A	N/A	50，000	N/A	文本		英语（加拿大）发音词典
22	英语(加拿大)脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	144小时	添加引用	ENC_ASR001	全球的动作	脚本演讲	英语	加拿大	混合	1,000	1	99000年	12483年	8	法律或wav	完全转录到Sala II / SpeemDAT类型的惯例数据集配有包含所有转录词的发音词典每位演讲者提供99个提示，包括数字、自然数字、字母串、个人、地点和企业名称、确认项目(是、否+模糊)、通用的命令和控制项目、语音丰富的句子和单词	英语(加拿大)脚本电话
173	英文(香港)发音字典	文本	ASR, TTS，语言建模	N/A	18000个单词	添加引用	香港电话	全球的动作	发音字典	英语	香港	N/A	N/A	N/A	N/A	18000年	N/A	文本		英文(香港)发音字典
25	英语(印度)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	67小时	添加引用	ENI_ASR002	全球的动作	会话演讲	英语	印度	低背景噪音	540	2	77565年	11646年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典 271个电话对话被记录在这个项目中	英语(印度)会话电话
175	英语（印度）词性词典	文本	ASR, TTS，语言建模	N/A	13000字	添加引用	eng_IND_POS	全球的动作	语音词典的一部分	英语	印度	N/A	N/A	N/A	N/A	13,000.	N/A	文本		英语（印度）词性词典
174	英语(印度)发音词典	文本	ASR, TTS，语言建模	N/A	60000个单词	添加引用	eng_IND_PHON	全球的动作	发音字典	英语	印度	N/A	N/A	N/A	N/A	60，000	N/A	文本		英语(印度)发音词典
24	英语(印度)脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	217小时	添加引用	ENI_ASR001	全球的动作	脚本演讲	英语	印度	混合	2358年	1	117900年	9,190	8	一条法律	完全转录成SpeechDAT类型惯例。数据集附带一个包含所有转录词的发音词典[SAMPA] 每个演讲者有49个提示，包括数字，自然数字，字母串，个人，地点和公司名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	英语(印度)脚本电话
176	英语(爱尔兰)发音词典	文本	ASR, TTS，语言建模	N/A	12000个单词	添加引用	eng_IRL_PHON	全球的动作	发音字典	英语	爱尔兰	N/A	N/A	N/A	N/A	12000年	N/A	文本		英语(爱尔兰)发音词典
177	英语（新西兰）发音词典	文本	ASR, TTS，语言建模	N/A	五万字	添加引用	eng_NZL_PHON	全球的动作	发音字典	英语	NZ.	N/A	N/A	N/A	N/A	50，000	N/A	文本		英语（新西兰）发音词典
23	英语(菲律宾)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	53小时	添加引用	ENF_ASR001	全球的动作	会话演讲	英语	菲律宾	低背景噪音	450.	2	41,602	7272年	8	法律或wav	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典平均通话时长:10-15分钟	英语(菲律宾)会话电话
172	英语（菲律宾）发音词典	文本	ASR, TTS，语言建模	N/A	五千字	添加引用	eng_PHL_PHON	全球的动作	发音字典	英语	菲律宾	N/A	N/A	N/A	N/A	5，000	N/A	文本		英语（菲律宾）发音词典
168	英语(阿拉伯联合酋长国)发音词典	文本	ASR, TTS，语言建模	N/A	五千字	添加引用	eng_ARE_PHON	全球的动作	发音字典	英语	阿拉伯联合酋长国(UAE)	N/A	N/A	N/A	N/A	5，000	N/A	文本		英语(阿拉伯联合酋长国)发音词典
67	英语（阿拉伯联合酋长国（阿联酋））脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	33小时	添加引用	阿拉伯联合酋长国所说的东方英语	细微差别	脚本演讲	英语	阿拉伯联合酋长国(UAE)	低背景噪音	500	1	25500年	可以在请求	8	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 51个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词，自发项目的控制	英语（阿拉伯联合酋长国（阿联酋））脚本电话
259	英语(英国)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	50小时	添加引用	UKE_ASR001B	全球的动作	会话演讲	英语	联合王国	低背景噪音	1150年	2	可以在请求	13192年	8	wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典	英语(英国)会话电话
104	英语(英国)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	150小时	添加引用	UKE_ASR001	全球的动作	会话演讲	英语	联合王国	低背景噪音	1150年	2	298,562	24193年	8	wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典	英语(英国)会话电话
179	英语（英国）词性词典	文本	ASR, TTS，语言建模	N/A	155000个单词	添加引用	eng_GBR_POS	全球的动作	语音词典的一部分	英语	联合王国	N/A	N/A	N/A	N/A	155000年	N/A	文本		英语（英国）词性词典
178	英语(联合王国)发音词典	文本	ASR, TTS，语言建模	N/A	195000个单词	添加引用	eng_GBR_PHON	全球的动作	发音字典	英语	联合王国	N/A	N/A	N/A	N/A	195000年	N/A	文本		英语(联合王国)发音词典
99	英语（英国）脚本麦克风 - 单身女性	音频	TTS	耳机麦克风	11小时	添加引用	TC-STAR女性基线声音劳拉	细微差别	脚本演讲	英语	联合王国	低背景噪音(演播室)	1	1	可以在请求	可以在请求	96	可以在请求	数据集包括手动正字法转录、自动音素分割、自动生成音高标记(其中一定百分比的音高段和音高标记已被手动检查) 数据集配有一个语音词典与POS，引理和音标	英语（英国）脚本麦克风 - 单身女性
One hundred.	英语（英国）脚本话筒-单身男性	音频	TTS	耳机麦克风	7个小时	添加引用	TC-STAR男声基线伊恩	细微差别	脚本演讲	英语	联合王国	低背景噪音(演播室)	1	1	可以在请求	可以在请求	96	可以在请求	数据集包括手动正字法转录、自动音素分割、自动生成音高标记(其中一定百分比的音高段和音高标记已被手动检查) 数据集配有一个语音词典与POS，引理和音标	英语（英国）脚本话筒-单身男性
272	英语（美国）对话短信 - 线程	文本	虚拟助手，Chatbot	N/A	106649条信息	添加引用	ENG_SMS001	全球的动作	SMS文本消息	英语	美国	N/A	390	N/A	106,649.	可以在请求	N/A	文本	这个数据集包含了两个参与者之间的线程短信对话，使用iMessage和Android短信。所有信息都是美式英语。包含时间戳和文本信息交换，元数据包括性别、年龄范围和参与者之间的关系。获得所有参与者的同意，数据集不包含PII。	英语（美国）对话短信 - 线程
107	英语(美国)会话智能手机	音频	ASR，会话人工智能，语音分析	移动电话	1000小时	添加引用	USE_ASR003	全球的动作	会话演讲	英语	美国	低背景噪音	2000年	1	500，000	52586年	16	wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典对话涵盖了各种各样的话题，包括:学习/专业/工作、家乡、生活安排、天气和季节、守时、电视节目/电影)	英语(美国)会话智能手机
181	英语(美国)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	263000个单词	添加引用	eng_USA_POS	全球的动作	语音词典的一部分	英语	美国	N/A	N/A	N/A	N/A	263,000.	N/A	文本		英语(美国)语音词典的一部分
180	英语(美国)发音词典	文本	ASR, TTS，语言建模	N/A	330000个单词	添加引用	eng_USA_PHON	全球的动作	发音字典	英语	美国	N/A	N/A	N/A	N/A	330000年	N/A	文本		英语(美国)发音词典
93	英语(美国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	53小时	添加引用	美国speech English数据库	细微差别	脚本演讲	英语	美国	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	英语(美国)脚本麦克风
106	英语(美国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	62小时	添加引用	USE_ASR001	全球的动作	脚本演讲	英语	美国	低背景噪音(演播室)	200	2	80,000	18318年	48	法律或wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典每位演讲者要阅读400个提示，包括数字、自然数字、人名和城市名、电话号码、通用的指挥和控制项目、语音丰富的句子和单词	英语(美国)脚本麦克风
131	英语NER新闻文本	文本	ner，内容分类，搜索引擎	N/A	22,768句	添加引用	ENG_NER001	全球的动作	新闻尼珥	英语	N/A	N/A	N/A	N/A	22768年	可以在请求	N/A	文本		英语NER新闻文本
135	波斯语/波斯语新闻文本	文本	ner，内容分类，搜索引擎	N/A	19584句	添加引用	FAR_NER001	全球的动作	新闻尼珥	伊朗波斯	伊朗	N/A	N/A	N/A	19584年	可以在请求	N/A	文本		波斯语/波斯语新闻文本
185	芬兰语(芬兰)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	fin_FIN_POS	全球的动作	语音词典的一部分	芬兰	芬兰	N/A	N/A	N/A	N/A	10，000	N/A	文本		芬兰语(芬兰)语音词典的一部分
128	芬兰语(芬兰)印刷文本OCR	图像	文档处理，文档搜索	摄像机	7293张图片	添加引用	IMG_OCR_FIN_CN	Appen中国	文档OCR	芬兰	芬兰	混合照明条件	4	N/A	N/A	N/A	N/A	jpg	包含文本的图像，如广告牌/外包装/标识/杂志/菜单等。	芬兰语(芬兰)印刷文本OCR
184	芬兰语发音词典	文本	ASR, TTS，语言建模	N/A	85,000个字	添加引用	fin_FIN_PHON	全球的动作	发音字典	芬兰	芬兰	N/A	N/A	N/A	N/A	85,000.	N/A	文本		芬兰语发音词典
145	法语（阿尔及利亚）发音词典	文本	ASR, TTS，语言建模	N/A	4000个单词	添加引用	fra_DZA_PHON	全球的动作	发音字典	法语	阿尔及利亚	N/A	N/A	N/A	N/A	4，000	N/A	文本	阿拉伯语字母	法语（阿尔及利亚）发音词典
5	法语(比利时)脚本电话	音频	ASR、虚拟助理	固定电话只	76小时	添加引用	比利时法语演讲(II)	细微差别	脚本演讲	法语	比利时	低背景噪音	1,000	1	53000年	可以在请求	8	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 53个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，不是+模糊)，通用的命令和控制项目，语音丰富的句子和单词，自发项目的控制	法语(比利时)脚本电话
36	法语(加拿大)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	9小时	添加引用	FRC_ASR003	全球的动作	会话演讲	法语	加拿大	混合	68	2	可以在请求	6022年	8	一条法律	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典平均通话时长:10-15分钟在大多数电话中，只有一半的通话内容被接话并记录下来，但在少数电话中，两个通话者(在线/离线)都被接话并记录下来	法语(加拿大)会话电话
186	法语（加拿大）的发音词典	文本	ASR, TTS，语言建模	N/A	67000字	添加引用	弗拉·卡努·冯	全球的动作	发音字典	法语	加拿大	N/A	N/A	N/A	N/A	67,000	N/A	文本		法语（加拿大）的发音词典
35	法语(加拿大)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	46小时	添加引用	FRC_ASR002	全球的动作	脚本演讲	法语	加拿大	低背景噪音(家庭/办公室)	150	1	22500年	10755年	16	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典每个演讲者有150个提示，包括数字，数字串(随机生成)，地址和语音丰富的句子和单词	法语(加拿大)脚本麦克风
34	法语(加拿大)脚本电话	音频	ASR、虚拟助理	移动电话	131小时	添加引用	FRC_ASR001	全球的动作	脚本演讲	法语	加拿大	混合	1,000	1	100，000	11697年	8	一条法律	完全转录到speech hdat类型约定数据集附带一个包含所有转录词的发音词典[SAMPA] 每位演讲者提供100个提示，包括数字、自然数字、字母串、个人、地点和企业名称、确认项目(是、否+模糊)、通用的命令和控制项目、语音丰富的句子和单词	法语(加拿大)脚本电话
40	法语(法国)会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	25小时	添加引用	FRF_ASR001	全球的动作	会话演讲	法语	法国	低背景噪音	563	2	可以在请求	11922年	8	一条法律	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典在大多数电话中，两位发言人(内联/外联)都被接话和录音，但在少数电话中，只有一半的通话被接话和录音	法语(法国)会话式电话
39	法国(法国)车内	音频	ASR，虚拟助理，汽车人机界面和娱乐	麦克风和手机		添加引用	法国演说 - 汽车	细微差别	脚本演讲	法语	法国	混合(车内)	300	5	37500年	可以在请求	16和8	可以在请求	数据集完全转录，并伴有发音词典和验证报告每个演讲者大约需要125个提示，包括数字、自然数字、字母串、个人、地点和公司名称(有些是自发的)、通用的命令和控制项目、语音丰富的单词和句子以及自发的讲话提示	法国(法国)车内
188	法语(法国)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	95000个单词	添加引用	fra_FRA_POS	全球的动作	语音词典的一部分	法语	法国	N/A	N/A	N/A	N/A	95,000	N/A	文本		法语(法国)语音词典的一部分
187	法语(法国)发音词典	文本	ASR, TTS，语言建模	N/A	112000个单词	添加引用	fra_FRA_PHON	全球的动作	发音字典	法语	法国	N/A	N/A	N/A	N/A	112,000	N/A	文本		法语(法国)发音词典
41	法国(法国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	26小时	添加引用	FRF_ASR003	全球手机	脚本演讲	法语	法国	低背景噪音(家庭/办公室)	98	1	10,273	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	法国(法国)脚本麦克风
37	法国（法国）脚本电话	音频	ASR、虚拟助理	固定电话只	41小时	添加引用	法国SpeechDat (II)身上- 1000	细微差别	脚本演讲	法语	法国	低背景噪音(家庭/办公室)	1,017	1	48000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 48个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	法国（法国）脚本电话
38	法国（法国）脚本电话	音频	ASR、虚拟助理	固定电话只	305小时	添加引用	法国SpeechDat (II)身上- 5000	细微差别	脚本演讲	法语	法国	低背景噪音	5,040	1	237000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 47每个发言者提示包括数字，自然数，字符串，个人，地点和商业名称，确认项目（是，否+模糊），通用命令和控制项目以及语音富裕的句子和单词	法国（法国）脚本电话
60	法国(卢森堡)电话	音频	ASR、虚拟助理	固定电话只	45小时	添加引用	卢森堡法语演讲	细微差别	脚本演讲	法语	卢森堡	低背景噪音	614	1	32000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 53个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	法国(卢森堡)电话
189	德语发音词典	文本	ASR, TTS，语言建模	N/A	146000个单词	添加引用	deu_deu_phon.	全球的动作	发音字典	德国	德国	N/A	N/A	N/A	N/A	146000年	N/A	文本		德语发音词典
16	德国(德国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	16个小时	添加引用	DEU_ASR001	全球的动作	脚本演讲	德国	德国	低背景噪音(演播室)	127	2	12700年	6826年	16	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典每个说话者阅读100条提示，包括数字、自然数字、个人和城市名称、电话号码、通用命令和控制项、语音丰富的句子和单词	德国(德国)脚本麦克风
18	德国(德国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	25小时	添加引用	DEU_ASR003	全球手机	脚本演讲	德国	德国	低背景噪音(家庭/办公室)	77	1	10085年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	德国(德国)脚本麦克风
42	德国(德国)电话	音频	ASR、虚拟助理	固定电话只	31个小时	添加引用	(二)FDB-1000	细微差别	脚本演讲	德国	德国	低背景噪音(家庭/办公室)	988	1	43000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 44个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	德国(德国)电话
43	德国(德国)电话	音频	ASR、虚拟助理	固定电话只	268小时	添加引用	德国SpeechDat (II)身上- 4000	细微差别	脚本演讲	德国	德国	低背景噪音(家庭/办公室)	4，000	1	160000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 40每个发言者提示包括数字，自然数，字符串，个人，地点和商业名称，确认项目（是，否+模糊），通用命令和控制项目以及语音富裕的句子和单词	德国(德国)电话
61	德国(卢森堡)电话	音频	ASR、虚拟助理	固定电话只	33小时	添加引用	卢森堡德语演讲（II）FDB-500（固定1LG）	细微差别	脚本演讲	德国	卢森堡	低背景噪音	500	1	26,500	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 53个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	德国(卢森堡)电话
190	德语（瑞士）发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	德乌切芬	全球的动作	发音字典	德国	瑞士	N/A	N/A	N/A	N/A	15,000	N/A	文本		德语（瑞士）发音词典
94	德国（瑞士）脚本话筒	音频	ASR，虚拟助理，聊天机器人	麦克风	53小时	添加引用	speech德语(瑞士)数据库	细微差别	脚本演讲	德国	瑞士	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	德国（瑞士）脚本话筒
68	德国(土耳其)电话	音频	ASR、虚拟助理	移动电话和固定电话	31个小时	添加引用	东方人:土耳其人说德语	细微差别	脚本演讲	德国	土耳其	低背景噪音	300	1	15600年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个扬声器52个提示，包括数字、自然数、字母串、个人、地名和企业名称、确认项（是、否+模糊）、通用命令和控制项以及语音丰富的句子和单词	德国(土耳其)电话
191	希腊(希腊)发音字典	文本	ASR, TTS，语言建模	N/A	五千字	添加引用	ell_grc_phon.	全球的动作	发音字典	希腊	希腊	N/A	N/A	N/A	N/A	5，000	N/A	文本		希腊(希腊)发音字典
118	希腊(希腊)脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	191小时	添加引用	GRE_ASR001_CN	Appen中国	脚本演讲	希腊	希腊	低背景噪音(家庭/办公室)	287	1	54113年	68,271	16	wav	数据集完全转录	希腊(希腊)脚本智能手机
192	瓜拉尼(巴拉圭)发音词典	文本	ASR, TTS，语言建模	N/A	35000个单词	添加引用	grn_PRY_PHON	全球的动作	发音字典	瓜拉尼	巴拉圭	N/A	N/A	N/A	N/A	35000年	N/A	文本		瓜拉尼(巴拉圭)发音词典
194	海地克里奥尔（海地）发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	哈蒂峰酒店	全球的动作	发音字典	海地克里奥尔	海地	N/A	N/A	N/A	N/A	15,000	N/A	文本		海地克里奥尔（海地）发音词典
45	Hausa（尼日利亚）会话电话	音频	ASR，会话人工智能，语音分析	移动电话	33小时	添加引用	HAU_ASR002	全球的动作	会话演讲	豪萨语	尼日利亚	低背景噪音	200	2	可以在请求	7,949	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	Hausa（尼日利亚）会话电话
195	豪萨(尼日利亚)发音词典	文本	ASR, TTS，语言建模	N/A	11000个单词	添加引用	hau_NGA_PHON	全球的动作	发音字典	豪萨语	尼日利亚	N/A	N/A	N/A	N/A	11，000	N/A	文本		豪萨(尼日利亚)发音词典
44	豪萨语的麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	20个小时	添加引用	HAU_ASR001	全球手机	脚本演讲	豪萨语	喀麦隆	低背景噪音(家庭/办公室)	103	1	7895年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	豪萨语的麦克风
46	希伯来语（以色列）会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	34小时	添加引用	HEB_ASR001	全球的动作	会话演讲	希伯来语	以色列	低背景噪音	200	2	可以在请求	19250年	8	法律或wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	希伯来语（以色列）会话电话
196	希伯来语(以色列)发音词典	文本	ASR, TTS，语言建模	N/A	31000个单词	添加引用	海布伊斯尔丰酒店	全球的动作	发音字典	希伯来语	以色列	N/A	N/A	N/A	N/A	31,000	N/A	文本		希伯来语(以色列)发音词典
48	印地语(印度)会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	32小时	添加引用	HIN_ASR002	全球的动作	会话演讲	北印度语	印度	混合	996	2	可以在请求	12266年	8	wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典在大多数电话中，两位发言人(内联/外联)都被接话和录音，但在少数电话中，只有一半的通话被接话和录音	印地语(印度)会话式电话
197	印地语(印度)发音字典	文本	ASR, TTS，语言建模	荷兰的	35000个单词	添加引用	hin_IND_PHON	全球的动作	发音字典	北印度语	印度	N/A	N/A	N/A	N/A	35000年	N/A	文本		印地语(印度)发音字典
47	印地语(印度)脚本电话	音频	ASR、虚拟助理	移动电话	224小时	添加引用	HIN_ASR001	全球的动作	脚本演讲	北印度语	印度	低背景噪音	1920年	1	96000年	9,853	8	一条法律	完全转录到speech hdat类型约定数据集附带一个包含所有转录词的发音词典[SAMPA] 每位演讲者50个提示，包括数字，自然数字，个人，企业和地方名称，网址，确认项目(是，否+模糊)，通用命令和控制项目，语音丰富的句子和单词	印地语(印度)脚本电话
129	人体运动	视频	健身应用，动作分类，手势识别	移动电话	2000个视频	添加引用	VED_HUMAN_BODY_CN	Appen中国	人体	N/A	中国	混合背景和照明条件	1000	N/A	N/A	N/A	N/A	mp4	视频剪辑大约有10-20秒长	人体运动
198	匈牙利语(匈牙利)发音字典	文本	ASR, TTS，语言建模	N/A	500个单词	添加引用	hun_HUN_PHON	全球的动作	发音字典	匈牙利	匈牙利	N/A	N/A	N/A	N/A	500	N/A	文本		匈牙利语(匈牙利)发音字典
119	匈牙利(匈牙利)脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	286小时	添加引用	HUN_ASR001_CN	Appen中国	脚本演讲	匈牙利	匈牙利	低背景噪音(家庭/办公室)	254	1	94,031	201921年	16	wav	数据集完全转录	匈牙利(匈牙利)脚本智能手机
49	匈牙利语（匈牙利）脚本电话	音频	ASR、虚拟助理	固定电话只	65小时	添加引用	匈牙利SpeechDat (E)	细微差别	脚本演讲	匈牙利	匈牙利	低背景噪音	1,000	1	48000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 48个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	匈牙利语（匈牙利）脚本电话
199	Igbo（尼日利亚）的发音词典	文本	ASR, TTS，语言建模	N/A	30000个单词	添加引用	ibo_NGA_PHON	全球的动作	发音字典	伊博人	尼日利亚	N/A	N/A	N/A	N/A	30，000	N/A	文本		Igbo（尼日利亚）的发音词典
152	印度尼西亚语(印度尼西亚语)是语言词典的一部分	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	ind_IDN_POS	全球的动作	语音词典的一部分	印尼	印度尼西亚	N/A	N/A	N/A	N/A	10，000	N/A	文本		印度尼西亚语(印度尼西亚语)是语言词典的一部分
151	印尼语(印度尼西亚)发音字典	文本	ASR, TTS，语言建模	N/A	95000个单词	添加引用	独立电话	全球的动作	发音字典	印尼	印度尼西亚	N/A	N/A	N/A	N/A	95,000	N/A	文本		印尼语(印度尼西亚)发音字典
266	中国内蒙古语会话演讲	音频	ASR，会话人工智能，语音分析	移动电话	100小时	添加引用	NMG_ASR001_CN	Appen中国	会话演讲	内蒙古	中国	低背景噪音	200	1			16	wav	覆盖地区:锡林郭勒盟、通辽、呼和浩特。单读音约30分钟，内容为2人自由对话形式	中国内蒙古语会话演讲
32	伊朗波斯语(波斯语)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	30个小时	添加引用	FAR_ASR002	全球的动作	会话演讲	伊朗波斯（波斯岛）	伊朗	混合	1,000	2	可以在请求	12358年	8	wav	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典	伊朗波斯语(波斯语)会话电话
31	伊朗波斯语(波斯语)(伊朗)脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	85小时	添加引用	FAR_ASR001	全球的动作	脚本演讲	伊朗波斯（波斯岛）	伊朗	混合	789	1	38400年	8,716	8	一条法律	完全转录到东方网类型约定数据集附带一个包含所有转录词的发音词典[SAMPA] 48个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	伊朗波斯语(波斯语)(伊朗)脚本电话
183	伊朗语波斯语(伊朗)语言词典的一部分	文本	ASR, TTS，语言建模	N/A	1400000个单词	添加引用	pes_IRN_POS	全球的动作	语音词典的一部分	伊朗波斯	伊朗	N/A	N/A	N/A	N/A	1400000年	N/A	文本		伊朗语波斯语(伊朗)语言词典的一部分
182	伊朗波斯语（伊朗）发音词典	文本	ASR, TTS，语言建模	N/A	80000个单词	添加引用	pes_IRN_PHON	全球的动作	发音字典	伊朗波斯	伊朗	N/A	N/A	N/A	N/A	80,000	N/A	文本		伊朗波斯语（伊朗）发音词典
52	意大利语（意大利）会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	36个小时	添加引用	ITA_ASR003	全球的动作	会话演讲	意大利	意大利	低背景噪音	200	2	可以在请求	18974年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	意大利语（意大利）会话电话
201	意大利语(意大利)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	147000个单词	添加引用	ita_ITA_POS	全球的动作	语音词典的一部分	意大利	意大利	N/A	N/A	N/A	N/A	147000年	N/A	文本		意大利语(意大利)语音词典的一部分
200	意大利语(意大利)发音词典	文本	ASR, TTS，语言建模	N/A	197000字	添加引用	ita_ITA_PHON	全球的动作	发音字典	意大利	意大利	N/A	N/A	N/A	N/A	197000年	N/A	文本		意大利语(意大利)发音词典
50	意大利(意大利)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	44小时	添加引用	ITA_ASR001	全球的动作	脚本演讲	意大利	意大利	混合	200	4	40,000	7316年	22	一条法律	完全转录到speech hdat类型约定数据集配有包含所有转录词的发音词典每个演讲者有200个提示，包括100个命令和控制类型项目和100个语音丰富的句子	意大利(意大利)脚本麦克风
51	意大利(意大利)脚本麦克风	音频	ASR，虚拟助理，汽车人机界面和娱乐	麦克风	47个小时	添加引用	ITA_ASR002	全球的动作	脚本演讲	意大利	意大利	混合(车内)	205	4	35875年	10366年	48	一条法律	完全转录到speech hdat类型约定数据集配有包含所有转录词的发音词典每个演讲者有350个提示，包括数字，街道名称，通用的指挥和控制项目，语音丰富的句子和单词每个扬声器记录1OR 2次会话，包括在停放的车辆中的会话1，其中发动机运行和在60英里/小时的车辆中的课程2（100 km / h）	意大利(意大利)脚本麦克风
53	意大利(意大利)脚本麦克风	音频	TTS	麦克风	3个小时	添加引用	ITA_TTS001.	全球的动作	脚本演讲	意大利	意大利	低背景噪音(演播室)	1	1	3300年	可以在请求	22	一条法律	数据集附带一个发音词汇表，其中包含数据集中说出的所有单词每个演讲者有3300个提示，包括语音丰富的句子	意大利(意大利)脚本麦克风
54	意大利(意大利)电话	音频	ASR、虚拟助理	固定电话只	38小时	添加引用	意大利固定网络语音语音语音（M）语料库	细微差别	脚本演讲	意大利	意大利	低背景噪音(家庭/办公室)	1,000	1	39,000	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个人39个提示，包括独立和连接的数字，自然数，金额，拼写单词，时间和日期短语，是/不是问题，城市名称，常见的应用单词，短语中的应用单词和语音丰富的句子	意大利(意大利)电话
55	意大利(意大利)电话	音频	ASR、虚拟助理	固定电话只	228小时	添加引用	意大利语演说（ii）FDB-3000	细微差别	脚本演讲	意大利	意大利	低背景噪音(家庭/办公室)	3040年	1	134000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 44个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	意大利(意大利)电话
56	意大利(意大利)电话	音频	ASR、虚拟助理	移动电话	103小时	添加引用	意大利SpeechDat (II) mdb - 250	细微差别	脚本演讲	意大利	意大利	低背景噪音(家庭/办公室)	375	1	19,000.	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个扬声器51个提示，包括数字、自然数、字母串、个人、地名和企业名称、确认项（是、否+模糊）、通用命令和控制项以及语音丰富的句子和单词	意大利(意大利)电话
89	意大利(意大利)电话	音频	ASR、虚拟助理	移动电话	13小时	添加引用	意大利移动网络语音数据库	细微差别	脚本演讲	意大利	意大利	低背景噪音(家庭/办公室)	342	1	13500年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 40每个发言者提示包括数字，自然数，字符串，个人，地点和商业名称，确认项目（是，否+模糊），通用命令和控制项目以及语音富裕的句子和单词	意大利(意大利)电话
203	日语（日本）词性词典	文本	ASR, TTS，语言建模	N/A	265000个单词	添加引用	jpn_JPN_POS	全球的动作	语音词典的一部分	日本	日本	N/A	N/A	N/A	N/A	265,000	N/A	文本		日语（日本）词性词典
202	日本（日本）发音词典	文本	ASR, TTS，语言建模	N/A	262000个单词	添加引用	jpn_JPN_PHON	全球的动作	发音字典	日本	日本	N/A	N/A	N/A	N/A	262000年	N/A	文本		日本（日本）发音词典
57	日语(日本)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	33小时	添加引用	JPN_ASR001	全球手机	脚本演讲	日本	日本	低背景噪音(家庭/办公室)	144	1	13067年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	日语(日本)脚本麦克风
95	日语(日本)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	57小时	添加引用	Speecon日本	细微差别	脚本演讲	日本	日本	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	日语(日本)脚本麦克风
136	日本东北新闻社	文本	ner，内容分类，搜索引擎	N/A	20629句	添加引用	JPY_NER001.	全球的动作	新闻尼珥	日本	日本	N/A	N/A	N/A	20629年	可以在请求	N/A	文本		日本东北新闻社
204	爪哇语(印度尼西亚)发音字典	文本	ASR, TTS，语言建模	N/A	20000个单词	添加引用	jav_IDN_PHON	全球的动作	发音字典	爪哇人	印度尼西亚	N/A	N/A	N/A	N/A	20,000	N/A	文本		爪哇语(印度尼西亚)发音字典
58	Kannada（印度）会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	15个小时	添加引用	KAN_ASR001	全球的动作	会话演讲	卡纳达	印度	混合	178	2	可以在请求	15660年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典	Kannada（印度）会话电话
109	Kannada（印度）会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	57小时	添加引用	KAN_ASR001A	全球的动作	会话演讲	卡纳达	印度	混合	1,000	2	可以在请求	15660年	8	一条法律	大约25%的数据集会话被转录，并有时间戳——完整的记录可以提供数据库是伴随着一个发音词典，包含所有转录词	Kannada（印度）会话电话
205	卡纳达(印度)发音词典	文本	ASR, TTS，语言建模	N/A	49,000字	添加引用	kan_IND_PHON	全球的动作	发音字典	卡纳达	印度	N/A	N/A	N/A	N/A	49000年	N/A	文本		卡纳达(印度)发音词典
206	哈萨克语(哈萨克斯坦)发音词典	文本	ASR, TTS，语言建模	N/A	30000个单词	添加引用	kaz_KAZ_PHON	全球的动作	发音字典	哈萨克语	哈萨克斯坦	N/A	N/A	N/A	N/A	30，000	N/A	文本		哈萨克语(哈萨克斯坦)发音词典
123	高棉（柬埔寨）脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	90小时	添加引用	KHM_ASR001_CN	Appen中国	脚本演讲	中央红色	柬埔寨	低背景噪音(家庭/办公室)	94	1	24618年	52157年	16	wav	数据集完全转录	高棉（柬埔寨）脚本智能手机
208	韩语(韩国)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	100000个单词	添加引用	kor_KOR_POS	全球的动作	语音词典的一部分	韩国人	南韩	N/A	N/A	N/A	N/A	100，000	N/A	文本		韩语(韩国)语音词典的一部分
207	韩国（韩国）的发音词典	文本	ASR, TTS，语言建模	N/A	100000个单词	添加引用	kor_KOR_PHON	全球的动作	发音字典	韩国人	南韩	N/A	N/A	N/A	N/A	100，000	N/A	文本		韩国（韩国）的发音词典
59	韩国(韩国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	20个小时	添加引用	KOR_ASR001	全球手机	脚本演讲	韩国人	南韩	低背景噪音(家庭/办公室)	One hundred.	1	8107年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	韩国(韩国)脚本麦克风
132	韩国NER新闻文本	文本	ner，内容分类，搜索引擎	N/A	25,830句	添加引用	KOR_NER001	全球的动作	新闻尼珥	韩国人	南韩	N/A	N/A	N/A	25830年	可以在请求	N/A	文本		韩国NER新闻文本
209	Kurmanji(土耳其)发音词典	文本	ASR, TTS，语言建模	N/A	60000个单词	添加引用	kur_TUR_PHON	全球的动作	发音字典	Kurmanji	土耳其	N/A	N/A	N/A	N/A	60，000	N/A	文本		Kurmanji(土耳其)发音词典
210	老挝语发音词典	文本	ASR, TTS，语言建模	N/A	9000个单词	添加引用	lao_LAO_PHON	全球的动作	发音字典	老挝	老挝	N/A	N/A	N/A	N/A	9000年	N/A	文本		老挝语发音词典
211	立陶宛语发音词典	文本	ASR, TTS，语言建模	N/A	71000字	添加引用	轻装电话	全球的动作	发音字典	立陶宛	立陶宛	N/A	N/A	N/A	N/A	71000年	N/A	文本		立陶宛语发音词典
212	Malayalam(印度)发音词典	文本	ASR, TTS，语言建模	N/A	19000个单词	添加引用	mal_IND_PHON	全球的动作	发音字典	马拉雅拉姆语	印度	N/A	N/A	N/A	N/A	19,000.	N/A	文本		Malayalam(印度)发音词典
213	马来西亚(马来西亚)发音字典	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	msa_MYS_PHON	全球的动作	发音字典	马来西亚	马来西亚	N/A	N/A	N/A	N/A	10，000	N/A	文本		马来西亚(马来西亚)发音字典
214	普通话（简体）（中国）发音词典	文本	ASR, TTS，语言建模	N/A	35000个单词	添加引用	zho_CHN_PHON	全球的动作	发音字典	中文(简体)	中国	N/A	N/A	N/A	N/A	35000年	N/A	文本		普通话（简体）（中国）发音词典
215	普通话(传统)(台湾)发音词典	文本	ASR, TTS，语言建模	N/A	五万字	添加引用	zho_TWN_PHON	全球的动作	发音字典	中文(繁体)	台湾	N/A	N/A	N/A	N/A	50，000	N/A	文本		普通话(传统)(台湾)发音词典
63	普通话(中国)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	26小时	添加引用	MAC_ASR002	全球手机	脚本演讲	普通话中文	中国	低背景噪音(家庭/办公室)	132	1	10225年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	普通话(中国)脚本麦克风
62	普通话中文（中国）脚本电话	音频	ASR、虚拟助理	移动电话和固定电话	323小时	添加引用	MAC_ASR001	全球的动作	脚本演讲	普通话中文	中国	混合	2000年	1	一千万	7,145	8	一条法律	完全转录到speech hdat类型约定数据集附带一个包含所有转录词的发音词典[SAMPA] 98个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目(从215个)，语音丰富的句子和单词	普通话中文（中国）脚本电话
134	中国话	文本	ner，内容分类，搜索引擎	N/A	17313句	添加引用	MAC_NER001	全球的动作	新闻尼珥	普通话中文	中国	N/A	N/A	N/A	17313年	可以在请求	N/A	文本		中国话
270	有中英文语言交流(中国)者	音频				添加引用	ZHE_ASR001_CN	Appen中国		Mandarin-English	中国								数据包含中英文混合录音	有中英文语言交流(中国)者
64	马拉地语(印度)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	15个小时	添加引用	MAR_ASR001	全球的动作	会话演讲	马拉地语	印度	混合	180	2	可以在请求	11908年	8	一条法律	大约29%的数据集会话被转录，并带有时间戳——完整的记录可以提供数据集配有包含所有转录词的发音词典	马拉地语(印度)会话电话
110	马拉地语(印度)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	52小时	添加引用	MAR_ASR001A	全球的动作	会话演讲	马拉地语	印度	混合	1,000	2	可以在请求	11908年	8	一条法律	数据集会话的一部分被转录并带有时间戳——完整的记录可以提供数据集配有包含所有转录词的发音词典	马拉地语(印度)会话电话
216	马拉地语(印度)发音词典	文本	ASR, TTS，语言建模	N/A	30000个单词	添加引用	mar_IND_PHON	全球的动作	发音字典	马拉地语	印度	N/A	N/A	N/A	N/A	30，000	N/A	文本		马拉地语(印度)发音词典
217	蒙古语发音词典	文本	ASR, TTS，语言建模	N/A	30000个单词	添加引用	mon_mng_phon.	全球的动作	发音字典	蒙古	蒙古	N/A	N/A	N/A	N/A	30，000	N/A	文本		蒙古语发音词典
219	挪威语(挪威)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	3000字	添加引用	nor_NOR_POS	全球的动作	语音词典的一部分	挪威	挪威	N/A	N/A	N/A	N/A	3，000	N/A	文本		挪威语(挪威)语音词典的一部分
218	挪威（挪威）发音词典	文本	ASR, TTS，语言建模	N/A	115000个单词	添加引用	nor_NOR_PHON	全球的动作	发音字典	挪威	挪威	N/A	N/A	N/A	N/A	115000年	N/A	文本		挪威（挪威）发音词典
268	对象图像集合	图像	图像标签识别训练	手机和相机	2196张图片	添加引用	IMG_TAG_CN	Appen中国	对象的形象	N/A	N/A	混合照明条件	N/A	N/A			N/A	jpg	共2196个多场景图片样本库，可以做一个快速的库。Classified as: KTV: 50, department store: 55, office: 100;Museum: 63;Electrical appliances: 55;Marine: 191;Car: 50;Handbags: 35;Night view: 54;Sports equipment: 54 pieces;Convenience stores: 34;Restaurant: 54;Window scenery: 62;Pets: 82;The ship 50;Zoo, 70;Clothing store: 53;Beach: 95;Airport: 65 tickets;Gym: 47;Attractions: 77;Crowd: 67;Desert: 73;Beach: 68;Mountain area: 54;Shopping mall: 55;Trees: 85;Sky: 102;Snow: 71;Snow Mountain: 53;Night view: 78;Playground: 94	对象图像集合
220	奥里亚(印度)发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	ori_IND_PHON	全球的动作	发音字典	奥里亚	印度	N/A	N/A	N/A	N/A	15,000	N/A	文本		奥里亚(印度)发音词典
80	旁遮普（巴基斯坦）对话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	20个小时	添加引用	PAP_ASR001	全球的动作	会话演讲	Panjabi.	巴基斯坦	低背景噪音	205	2	可以在请求	7298年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典 71％的呼叫，两个扬声器（在线/单线）都收集并转录，但是，对于29％的电话，只收集了一半的谈话，并转录	旁遮普（巴基斯坦）对话电话
74	Pashto（阿富汗）播出	音频	ASR，自动标题，关键字斑点	麦克风	51小时	添加引用	PAS_BRC001	全球的动作	广播讲话	北普什图-南普什图	阿富汗	低背景噪音(演播室)	N/A	1	可以在请求	可以在请求	N/A	wav	数据集是完全转录和时间戳数据集主要是语音，不包括音乐或广告数据类型包括:谈话节目、访谈、新闻广播(不包括主播阅读新闻)	Pashto（阿富汗）播出
73	普什图语(阿富汗语)对话麦克风	音频	ASR，会话人工智能，语音分析	麦克风	39小时	添加引用	PAS_ASR002	全球的动作	会话演讲	北普什图-南普什图	阿富汗	低背景噪音	40	2	34860	9480年	16	wav	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典作为可选的额外购买，还可提供法语成绩单的完整翻译平均通话时长:120分钟，其中一人作为采访者，另一人作为被采访者，场景类似于TransTAC风格(如民事、检查点等)。面试官出现在不止一组对话中，但每一组对话中的受访者都是独特的	普什图语(阿富汗语)对话麦克风
72	普什图语(阿富汗)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	55小时	添加引用	PAS_ASR001	全球的动作	会话演讲	北普什图-南普什图	阿富汗	低背景噪音	967	2	可以在请求	13633年	8	wav	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典在大多数电话中，两位发言人(内联/外联)都被接话和录音，但在少数电话中，只有一半的通话被接话和录音	普什图语(阿富汗)会话电话
221	普什图语(阿富汗)发音词典	文本	ASR, TTS，语言建模	N/A	65000个单词	添加引用	pus_AFG_PHON	全球的动作	发音字典	普什图语	阿富汗	N/A	N/A	N/A	N/A	65000年	N/A	文本		普什图语(阿富汗)发音词典
223	波兰语(波兰)语言词典的一部分	文本	ASR, TTS，语言建模	N/A	4000个单词	添加引用	pol_POL_POS	全球的动作	语音词典的一部分	波兰的	波兰	N/A	N/A	N/A	N/A	4，000	N/A	文本		波兰语(波兰)语言词典的一部分
222	波兰语发音词典	文本	ASR, TTS，语言建模	N/A	40000个单词	添加引用	pol_POL_PHON	全球的动作	发音字典	波兰的	波兰	N/A	N/A	N/A	N/A	40,000	N/A	文本		波兰语发音词典
75	波兰语（波兰）脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	25小时	添加引用	pol_asr001.	全球手机	脚本演讲	波兰的	波兰	低背景噪音(家庭/办公室)	99	1	10130年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	波兰语（波兰）脚本麦克风
120	波兰语（波兰）脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	293小时	添加引用	POL_ASR002_CN	Appen中国	脚本演讲	波兰的	波兰	低背景噪音(家庭/办公室)	353	1	106,674	168544年	16	wav	数据集完全转录	波兰语（波兰）脚本智能手机
76	波兰（波兰）脚本电话	音频	ASR、虚拟助理	固定电话只	78小时	添加引用	波兰SpeechDat (E)数据库	细微差别	脚本演讲	波兰的	波兰	低背景噪音	1,000	1	48000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 48个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	波兰（波兰）脚本电话
78	葡萄牙语(巴西)会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	33小时	添加引用	PTB_ASR002	全球的动作	会话演讲	葡萄牙语	巴西	低背景噪音	200	2	可以在请求	11287年	8	一条法律	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典 63%是固定电话，38%是移动电话	葡萄牙语(巴西)会话式电话
77	葡萄牙语(巴西)麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	26小时	添加引用	PTB_ASR001	全球手机	脚本演讲	葡萄牙语	巴西	低背景噪音(家庭/办公室)	102	1	10417年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	葡萄牙语(巴西)麦克风
225	葡萄牙语（巴西）词典的一部分	文本	ASR, TTS，语言建模	N/A	98000个单词	添加引用	por_bra_pos.	全球的动作	语音词典的一部分	葡萄牙语	巴西	N/A	N/A	N/A	N/A	98000	N/A	文本		葡萄牙语（巴西）词典的一部分
224	葡萄牙语(巴西)发音字典	文本	ASR, TTS，语言建模	N/A	102,000字	添加引用	por_BRA_PHON	全球的动作	发音字典	葡萄牙语	巴西	N/A	N/A	N/A	N/A	102000年	N/A	文本		葡萄牙语(巴西)发音字典
79	葡萄牙语(葡萄牙)会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	36个小时	添加引用	PTP_ASR001	全球的动作	会话演讲	葡萄牙语	葡萄牙	低背景噪音	200	2	可以在请求	16,339	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	葡萄牙语(葡萄牙)会话式电话
227	葡萄牙语（葡萄牙）词典的一部分	文本	ASR, TTS，语言建模	N/A	60000个单词	添加引用	por_PRT_POS	全球的动作	语音词典的一部分	葡萄牙语	葡萄牙	N/A	N/A	N/A	N/A	60，000	N/A	文本		葡萄牙语（葡萄牙）词典的一部分
226	葡萄牙语发音词典	文本	ASR, TTS，语言建模	N/A	112000个单词	添加引用	por_PRT_PHON	全球的动作	发音字典	葡萄牙语	葡萄牙	N/A	N/A	N/A	N/A	112,000	N/A	文本		葡萄牙语发音词典
81	罗马尼亚语(罗马尼亚)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	37小时	添加引用	ROM_ASR001	全球的动作	会话演讲	罗马尼亚	罗马尼亚	低背景噪音	200	2	可以在请求	16658年	8	一条法律	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	罗马尼亚语(罗马尼亚)会话电话
228	罗马尼亚语发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	ron_ROU_PHON	全球的动作	发音字典	罗马尼亚	罗马尼亚	N/A	N/A	N/A	N/A	15,000	N/A	文本		罗马尼亚语发音词典
82	俄语会话式电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	37小时	添加引用	RUS_ASR001	全球的动作	会话演讲	俄语	俄罗斯	低背景噪音	200	2	可以在请求	28284年	8	法律或wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池	俄语会话式电话
230	俄罗斯（俄罗斯）言语字典的一部分	文本	ASR, TTS，语言建模	N/A	100000个单词	添加引用	rus_RUS_POS	全球的动作	语音词典的一部分	俄语	俄罗斯	N/A	N/A	N/A	N/A	100，000	N/A	文本		俄罗斯（俄罗斯）言语字典的一部分
229	俄语(俄罗斯)发音字典	文本	ASR, TTS，语言建模	N/A	115000个单词	添加引用	RUS_RUS_PHON.	全球的动作	发音字典	俄语	俄罗斯	N/A	N/A	N/A	N/A	115000年	N/A	文本		俄语(俄罗斯)发音字典
83	俄罗斯（俄罗斯）脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	31个小时	添加引用	RUS_ASR002	全球手机	脚本演讲	俄语	俄罗斯	低背景噪音(家庭/办公室)	115	1	12,205	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	俄罗斯（俄罗斯）脚本麦克风
96	俄罗斯（俄罗斯）脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	46小时	添加引用	Speecon俄罗斯数据库	细微差别	脚本演讲	俄语	俄罗斯	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	俄罗斯（俄罗斯）脚本麦克风
84	俄罗斯脚本电话	音频	ASR、虚拟助理	固定电话只	180小时	添加引用	俄语演示（e）数据库	细微差别	脚本演讲	俄语	俄罗斯	低背景噪音	2，500	1	112,000	可以在请求	8	一条法律	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 45每位发言者提示，包括数字，自然数，字符串，个人，地点和商业名称，确认项目（是，否+模糊），通用命令和控制项目以及语音富裕的句子和单词	俄罗斯脚本电话
133	俄罗斯NER新闻文本	文本	ner，内容分类，搜索引擎	N/A	29888句	添加引用	RUS_NER001	全球的动作	新闻尼珥	俄语	俄罗斯	N/A	N/A	N/A	29888年	可以在请求	N/A	文本		俄罗斯NER新闻文本
231	塞尔维亚语发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	srp_SRB_PHON	全球的动作	发音字典	塞尔维亚	塞尔维亚	N/A	N/A	N/A	N/A	15,000	N/A	文本		塞尔维亚语发音词典
260	上海话(中国)会话	音频	ASR，会话人工智能，语音分析	记录笔/麦克风	21小时	添加引用	SHANGHAI_ASR001_CN	Appen中国	会话演讲	上海方言	中国	低背景噪音	51	1			16	wav	覆盖地区:上海市黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八个区。年代ingle pronunciation lasts about 40 minutes, and single voice dialogue lasts between 20 and 30 minutes The content is in the form of free dialogue with 2~5 people Data for desensitization data, numbering and recording person information will be scrambled. The database is only a language database, does not contain transliterated text Note: The data do not include the accent data of Shanghai suburbs and the recording data of minors.	上海话(中国)会话
261	上海话(中国)会话	音频	ASR，会话人工智能，语音分析	移动电话	4.5小时	添加引用	SHANGHAI_ASR002_CN	Appen中国	会话演讲	上海方言	中国	低背景噪音	14	1			8	wav	覆盖地区:上海市黄浦区、徐汇区、长宁区、静安区、普陀区、虹口区、杨浦区、浦东新区八个区。年代ingle pronunciation lasts about 40 minutes, and single voice dialogue lasts between 20 and 30 minutes The content is in the form of free dialogue with 2~5 people Data for desensitization data, numbering and recording person information will be scrambled. The database is only a language database, does not contain transliterated text Note: The data do not include the accent data of Shanghai suburbs and the recording data of minors.	上海话(中国)会话
126	简体中文打印文本OCR	图像	文档处理，文档搜索	摄像机	200张图片	添加引用	IMG_OCR_MAC_CN	Appen中国	文档OCR	N/A	中国	混合照明条件	30.	N/A	N/A	N/A	N/A	jpg	每个图像中的文本都用线条标记了边框图片包含厚重的中文文本，包括书籍、出版物、海报、收据、PPT、印刷纸张等。	简体中文打印文本OCR
85	斯洛伐克(斯洛伐克)脚本电话	音频	ASR、虚拟助理	固定电话只	65小时	添加引用	斯洛伐克SpeechDat (E)数据库	细微差别	脚本演讲	斯洛伐克语	斯洛伐克	低背景噪音	1,000	1	48000年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 48个提示，包括数字，自然数字，字母串，个人，地点和业务名称，确认项目(是，否+模糊)，通用的命令和控制项目，语音丰富的句子和单词	斯洛伐克(斯洛伐克)脚本电话
86	斯洛文尼亚(斯洛文尼亚)电话	音频	ASR、虚拟助理	固定电话只	76小时	添加引用	斯洛文尼亚SpeechDat (II)身上- 1000	细微差别	脚本演讲	斯洛维尼亚语	斯洛文尼亚	低背景噪音(家庭/办公室)	1,000	1	40,000	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每位演讲者大约需要40个提示，包括数字、自然数字、字母串、个人、地点和公司名称、确认项目(是、否+模糊)、通用的命令和控制项目以及语音丰富的句子和单词	斯洛文尼亚(斯洛文尼亚)电话
87	索马里语会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	50小时	添加引用	SOM_ASR001	全球的动作	会话演讲	索马里	索马里	低背景噪音	1,000	2	可以在请求	23,217	8	一条法律	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典	索马里语会话电话
232	索马里（索马里）的发音词典	文本	ASR, TTS，语言建模	N/A	76,000个字	添加引用	som_SOM_PHON	全球的动作	发音字典	索马里	索马里	N/A	N/A	N/A	N/A	76,000.	N/A	文本		索马里（索马里）的发音词典
233	Sorani(伊拉克)发音词典	文本	ASR, TTS，语言建模	N/A	25000个单词	添加引用	kur_IRQ_PHON	全球的动作	发音字典	Sorani	伊拉克	N/A	N/A	N/A	N/A	25，000	N/A	文本		Sorani(伊拉克)发音词典
88	索拉尼(库尔德语)会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	5个小时	添加引用	sor_asr001.	全球的动作	会话演讲	中央库尔德人(伊朗)	伊朗	低背景噪音	170	2	可以在请求	7,924	8	法律或wav	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典对于大部分通话，只有一半的通话被收集和转录	索拉尼(库尔德语)会话电话
234	西班牙语(阿根廷)发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	spa_ARG_PHON	全球的动作	发音字典	西班牙的	阿根廷	N/A	N/A	N/A	N/A	15,000	N/A	文本		西班牙语(阿根廷)发音词典
236	西班牙语（智利）发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	水疗中心	全球的动作	发音字典	西班牙的	智利	N/A	N/A	N/A	N/A	15,000	N/A	文本		西班牙语（智利）发音词典
237	西班牙语（哥伦比亚）的发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	spa_col_phon.	全球的动作	发音字典	西班牙的	哥伦比亚	N/A	N/A	N/A	N/A	15,000	N/A	文本		西班牙语（哥伦比亚）的发音词典
27	西班牙语(拉丁美洲-智利和哥伦比亚)会话电话	音频	ASR，呼叫中心，对话人工智能，语音分析	移动电话和固定电话	22小时	添加引用	ESL_ASR002	全球的动作	会话演讲	西班牙的	Chile-Columbia	混合	84	2	22,098	可以在请求	8	wav	数据集是完全转录和时间戳呼叫中心在银行和电信领域，主要使用移动电话的呼叫中心式对话(由64个客户，14个代理)	西班牙语(拉丁美洲-智利和哥伦比亚)会话电话
26	西班牙语(拉丁美洲)脚本麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	17个小时	添加引用	ESL_ASR001	全球手机	脚本演讲	西班牙的	哥斯达黎加	低背景噪音(家庭/办公室)	One hundred.	1	6898年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	西班牙语(拉丁美洲)脚本麦克风
238	西班牙语(秘鲁)发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	spa_PER_PHON	全球的动作	发音字典	西班牙的	秘鲁	N/A	N/A	N/A	N/A	15,000	N/A	文本		西班牙语(秘鲁)发音词典
235	西班牙语（西班牙）发音词典	文本	ASR, TTS，语言建模	N/A	100000个单词	添加引用	水疗中心	全球的动作	发音字典	西班牙的	西班牙	N/A	N/A	N/A	N/A	100，000	N/A	文本		西班牙语（西班牙）发音词典
28	西班牙语（西班牙）脚本话筒	音频	ASR，虚拟助理，聊天机器人	麦克风	39小时	添加引用	ESP_ASR001	全球的动作	脚本演讲	西班牙的	西班牙	混合	200	4	40,000	6,367	22	一条法律	完全转录到speech hdat类型约定数据集配有包含所有转录词的发音词典每个演讲者有200个提示，包括100个命令和控制类型项目和100个语音丰富的句子	西班牙语（西班牙）脚本话筒
30.	西班牙语（西班牙）脚本话筒	音频	TTS	麦克风	1小时	添加引用	ESP_TTS001	全球的动作	脚本演讲	西班牙的	西班牙	低背景噪音(演播室)	1	1	1,787	3614年	22	一条法律	数据集附带一个发音词汇表，其中包含数据集中说出的所有单词每个演讲者有1787个提示，包括语音丰富的句子	西班牙语（西班牙）脚本话筒
97	西班牙语（西班牙）脚本话筒	音频	ASR，虚拟助理，聊天机器人	麦克风	46小时	添加引用	Speecon西班牙数据库	细微差别	脚本演讲	西班牙的	西班牙	混合（办公室，娱乐，汽车，公共场所）	600人(550名成人及50名儿童)	4	170000年	可以在请求	16	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告每个成人演讲者290个提示，每个儿童演讲者210个提示，包括数字、自然数、字母串、个人、地名和企业名称、成人演讲者的应用词、儿童演讲者的命令（玩具、电话和通用）、语音丰富的单词和句子，以及成人演讲者的自由和自发反应	西班牙语（西班牙）脚本话筒
117	西班牙(西班牙)脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	540小时	添加引用	esp_asr002_cn.	Appen中国	脚本演讲	西班牙的	西班牙	低背景噪音(家庭/办公室)	347	1	258395年	134,939	16	wav	数据集完全转录	西班牙(西班牙)脚本智能手机
239	西班牙语(美国)发音词典	文本	ASR, TTS，语言建模	N/A	90000个单词	添加引用	spa_USA_PHON	全球的动作	发音字典	西班牙的	美国	N/A	N/A	N/A	N/A	90000年	N/A	文本		西班牙语(美国)发音词典
240	西班牙语(委内瑞拉)发音词典	文本	ASR, TTS，语言建模	N/A	15000字	添加引用	spa_VEN_PHON	全球的动作	发音字典	西班牙的	委内瑞拉	N/A	N/A	N/A	N/A	15,000	N/A	文本		西班牙语(委内瑞拉)发音词典
241	斯瓦希里语(肯尼亚)发音词典	文本	ASR, TTS，语言建模	N/A	66000个单词	添加引用	swa_KEN_PHON	全球的动作	发音字典	斯瓦希里语	肯尼亚	N/A	N/A	N/A	N/A	66000年	N/A	文本		斯瓦希里语(肯尼亚)发音词典
243	瑞典（瑞典）词典的一部分	文本	ASR, TTS，语言建模	N/A	105000个单词	添加引用	swe_swe_位置	全球的动作	语音词典的一部分	瑞典	瑞典	N/A	N/A	N/A	N/A	105,000.	N/A	文本		瑞典（瑞典）词典的一部分
242	瑞典（瑞典）发音词典	文本	ASR, TTS，语言建模	N/A	100000个单词	添加引用	swe_SWE_PHON	全球的动作	发音字典	瑞典	瑞典	N/A	N/A	N/A	N/A	100，000	N/A	文本		瑞典（瑞典）发音词典
98	瑞典(瑞典/芬兰)麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	30个小时	添加引用	SWE_ASR001	全球手机	脚本演讲	瑞典	瑞典 - 芬兰	低背景噪音(家庭/办公室)	98	1	11,816	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	瑞典(瑞典/芬兰)麦克风
244	Sylheti（孟加拉国-印度）发音词典	文本	ASR, TTS，语言建模	N/A	22000个单词	添加引用	syl_BGD -IND_PHON	全球的动作	发音字典	塞海蒂语	孟加拉国,印度	N/A	N/A	N/A	N/A	22,000.	N/A	文本		Sylheti（孟加拉国-印度）发音词典
271	他加禄语(菲律宾)会话语言	音频	ASR，会话人工智能，语音分析	移动电话		添加引用	tagalo_asr001_cn.	Appen中国	会话演讲	塔加拉族语	菲律宾	低背景噪音	84	1			16	Ulaw，Alaw.	覆盖范围：菲律宾独唱约4800首（500句），每句话持续3-10秒。内容由一人朗读。录音是在几种设备上进行的：移动电话、扬声器、固定电话、耳机。	他加禄语(菲律宾)会话语言
245	他加禄语(菲律宾)发音词典	文本	ASR, TTS，语言建模	N/A	30000个单词	添加引用	tgl_PHL_PHON	全球的动作	发音字典	塔加拉族语	菲律宾	N/A	N/A	N/A	N/A	30，000	N/A	文本		他加禄语(菲律宾)发音词典
247	泰米尔语(印度)发音词典	文本	ASR, TTS，语言建模	N/A	106000字	添加引用	tam_IND_PHON	全球的动作	发音字典	泰米尔	印度	N/A	N/A	N/A	N/A	106000年	N/A	文本		泰米尔语(印度)发音词典
246	泰卢固语(印度)发音词典	文本	ASR, TTS，语言建模	N/A	五万字	添加引用	tel_IND_PHON	全球的动作	发音字典	泰卢固语	印度	N/A	N/A	N/A	N/A	50，000	N/A	文本		泰卢固语(印度)发音词典
101	泰国(泰国)麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	28小时	添加引用	THA_ASR001	全球手机	脚本演讲	泰国	泰国	低背景噪音(家庭/办公室)	98	1	14039年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	泰国(泰国)麦克风
127	泰文(泰文)打印文本OCR	图像	文档处理，文档搜索	摄像机	1219图像	添加引用	IMG_OCR_THA_CN	Appen中国	文档OCR	泰国	泰国	混合照明条件	10	N/A	N/A	N/A	N/A	jpg	包含文本，购物收据/门票/发票/出租车的图像等	泰文(泰文)打印文本OCR
248	泰国(泰国)发音字典	文本	ASR, TTS，语言建模	N/A	30000个单词	添加引用	tha_tha_PHON	全球的动作	发音字典	泰国	泰国	N/A	N/A	N/A	N/A	30，000	N/A	文本		泰国(泰国)发音字典
249	新美拉尼(巴布亚新几内亚)发音词典	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	tpi_PNG_PHON	全球的动作	发音字典	托克皮辛语	巴布新几内亚	N/A	N/A	N/A	N/A	10，000	N/A	文本		新美拉尼(巴布亚新几内亚)发音词典
102	土耳其（土耳其）对话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	41小时	添加引用	TUR_ASR001	全球的动作	会话演讲	土耳其	土耳其	低背景噪音	200	2	可以在请求	32386年	8	法律或wav	数据集是完全转录和时间戳数据集配有包含所有转录词的发音词典该项目记录了200个电话对话 - 100名扬声器每次调用2（从固定电话，从机组人1中的1个）到100个呼叫接收器的池 48%固定电话，52%移动电话	土耳其（土耳其）对话电话
103	土耳其(土耳其)麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	17个小时	添加引用	TUR_ASR002	全球手机	脚本演讲	土耳其	土耳其	低背景噪音(家庭/办公室)	One hundred.	1	6950年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	土耳其(土耳其)麦克风
251	土耳其语（土耳其）词性词典	文本	ASR, TTS，语言建模	N/A	257,000字	添加引用	tur_TUR_POS	全球的动作	语音词典的一部分	土耳其	土耳其	N/A	N/A	N/A	N/A	257000年	N/A	文本		土耳其语（土耳其）词性词典
250	土耳其(土耳其)发音字典	文本	ASR, TTS，语言建模	N/A	255000个单词	添加引用	图尔图尔丰	全球的动作	发音字典	土耳其	土耳其	N/A	N/A	N/A	N/A	255000年	N/A	文本		土耳其(土耳其)发音字典
121	土耳其（土耳其）脚本智能手机	音频	ASR，虚拟助理，聊天机器人	移动电话	739小时	添加引用	TUR_ASR003_CN	Appen中国	脚本演讲	土耳其	土耳其	低背景噪音(家庭/办公室)	664	1	185706年	215135年	16	wav	数据集完全转录	土耳其（土耳其）脚本智能手机
69	土耳其(土耳其)电话	音频	ASR、虚拟助理	移动电话和固定电话	118小时	添加引用	OrienTel土耳其数据库	细微差别	脚本演讲	土耳其	土耳其	低背景噪音	1，700	1	76500年	可以在请求	8	可以在请求	数据集完全转录为SpeechDAT类型约定，并附有发音词典和验证报告 45每位发言者提示，包括数字，自然数，字符串，个人，地点和商业名称，确认项目（是，否+模糊），通用命令和控制项目以及语音富裕的句子和单词	土耳其(土耳其)电话
252	乌克兰（乌克兰）发音词典	文本	ASR, TTS，语言建模	N/A	五千字	添加引用	ukr_UKR_PHON	全球的动作	发音字典	乌克兰	乌克兰	N/A	N/A	N/A	N/A	5，000	N/A	文本		乌克兰（乌克兰）发音词典
105	乌尔都语（印度/巴基斯坦）会话电话	音频	ASR，会话人工智能，语音分析	移动电话和固定电话	47个小时	添加引用	URD_ASR001	全球的动作	会话演讲	乌尔都语	印度,巴基斯坦	混合	1,000	2	可以在请求	10871年	8	wav	数据集已全部转录并打上时间戳数据集配有包含所有转录词的发音词典	乌尔都语（印度/巴基斯坦）会话电话
254	乌尔都语(巴基斯坦)语音词典的一部分	文本	ASR, TTS，语言建模	N/A	12000个单词	添加引用	urd_PAK_POS	全球的动作	语音词典的一部分	乌尔都语	巴基斯坦	N/A	N/A	N/A	N/A	12000年	N/A	文本		乌尔都语(巴基斯坦)语音词典的一部分
253	乌尔都语(巴基斯坦)发音词典	文本	ASR, TTS，语言建模	N/A	40000个单词	添加引用	乌尔都白凤	全球的动作	发音字典	乌尔都语	巴基斯坦	N/A	N/A	N/A	N/A	40,000	N/A	文本		乌尔都语(巴基斯坦)发音词典
137	乌尔都语新闻文本	文本	ner，内容分类，搜索引擎	N/A	20634句	添加引用	URD_NER001	全球的动作	新闻尼珥	乌尔都语	巴基斯坦	N/A	N/A	N/A	20634年	可以在请求	N/A	文本		乌尔都语新闻文本
267	维吾尔语(中国)会话演讲	音频	ASR，会话人工智能，语音分析	移动电话	122小时	添加引用	WWE_ASR001_CN	Appen中国	会话演讲	维吾尔族	中国	低背景噪音	231	1			16	wav	覆盖地区:和田方言、中原方言。单读音约30分钟，内容为2人自由对话形式	维吾尔语(中国)会话演讲
108	越南(越南)麦克风	音频	ASR，虚拟助理，聊天机器人	麦克风	19小时	添加引用	VIE_ASR001	全球手机	脚本演讲	越南	越南	低背景噪音(家庭/办公室)	129	1	18842年	可以在请求	16	wav	数据集是完全转录和转录是可用的原始脚本和罗马化形式每个演讲者都会从网络上的全国性报纸文章中选择一些语音丰富的句子，以覆盖广泛的领域和大量的词汇与卡尔斯鲁厄理工学院(KIT)合作开发	越南(越南)麦克风
255	越南语发音词典	文本	ASR, TTS，语言建模	N/A	8000个单词	添加引用	vie_VNM_PHON	全球的动作	发音字典	越南	越南	N/A	N/A	N/A	N/A	8，000	N/A	文本		越南语发音词典
256	吴(中国)发音词典	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	wuu_CHN_PHON	全球的动作	发音字典	吴	中国	N/A	N/A	N/A	N/A	10，000	N/A	文本		吴(中国)发音词典
264	武汉方言（中国）会话演讲	音频	ASR，会话人工智能，语音分析	记录笔/麦克风	44.71小时	添加引用	WUHAN_ASR001_CN	Appen中国	会话演讲	武汉方言	中国	低背景噪音	135	1			16	wav	覆盖范围：武汉市江安、江汉、桥口、汉阳、武昌五区注：数据不包括东北郊口音数据和未成年人记录数据。单音约40分钟，单音对话20-30分钟，内容为2-5人自由对话	武汉方言（中国）会话演讲
265	武汉方言（中国）会话演讲	音频	ASR，会话人工智能，语音分析	移动电话	58.6小时	添加引用	WUHAN_ASR002_CN	Appen中国	会话演讲	武汉方言	中国	低背景噪音	180	1			8	wav	覆盖范围：武汉市江安、江汉、桥口、汉阳、武昌五区注：数据不包括东北郊口音数据和未成年人记录数据。单音约40分钟，单音对话20-30分钟，内容为2-5人自由对话	武汉方言（中国）会话演讲
257	中国发音词典	文本	ASR, TTS，语言建模	N/A	10000个单词	添加引用	hsn_CHN_PHON	全球的动作	发音字典	香	中国	N/A	N/A	N/A	N/A	10，000	N/A	文本		中国发音词典
258	祖鲁语(南非)发音词典	文本	ASR, TTS，语言建模	N/A	75,000字	添加引用	zul_ZAF_PHON	全球的动作	发音字典	祖鲁语	南非	N/A	N/A	N/A	N/A	75000年	N/A	文本		祖鲁语(南非)发音词典