Microsoft Speech Corpus(印度语言)发行版包含泰卢固语、泰米尔语和古吉拉特语的会话和短语语音训练和测试数据
VoxCeleb是一个视听数据集,由从上传到YouTube的采访视频中提取的人类语音短片组成。
ESC 数据集是一组以统一格式提供的短期环境记录(5 秒长剪辑、44.1 kHz、单通道、Ogg Vorbis 压缩 = 192 kbit/s)。
musdb18是一个数据集,包括150首不同流派的全长音乐曲目(约10小时的持续时间),以及它们各自独立的鼓、低音、人声和其他词干。
TIMIT数据集的语音采样频率为16kHz,共包含6300个句子,由来自美国八个主要方言地区的630人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。
来自英国各地的10,000个10秒的智能手机音频录音,音频总计持续44小时。音频将由Warblr根据知识共享许可发布。音频涵盖英国广泛的位置和环境,包括天气噪音,交通噪音,人类语音甚至人类鸟类模仿。
UCF体育数据集包括一组从各种体育活动中收集的动作,这些动作通常在广播电视频道(如BBC和ESPN)上播放。这些视频片段是从包括BBC动画画廊和GettyImages在内的大量库存视频网站上获得的。
这是第一个用于识别3种离散情感的阿拉伯自然音频数据集(ANAD):快乐,愤怒和惊讶。