这是 2009 年 4 月之前提交给 pdsounds.org 635 个无版权录音的备份。
musdb18是一个数据集,包括150首不同流派的全长音乐曲目(约10小时的持续时间),以及它们各自独立的鼓、低音、人声和其他词干。
ESC 数据集是一组以统一格式提供的短期环境记录(5 秒长剪辑、44.1 kHz、单通道、Ogg Vorbis 压缩 = 192 kbit/s)。
dsd100是一个数据集,包括100首不同风格的全长音乐曲目,以及它们各自独立的鼓、低音、人声和其他词干。
UCF体育数据集包括一组从各种体育活动中收集的动作,这些动作通常在广播电视频道(如BBC和ESPN)上播放。这些视频片段是从包括BBC动画画廊和GettyImages在内的大量库存视频网站上获得的。
Frames正是为了鼓励对对话代理的研究,这些代理可以支持复杂环境中的决策,在这种情况下,预订假期包括航班和酒店。
Microsoft Speech Corpus(印度语言)发行版包含泰卢固语、泰米尔语和古吉拉特语的会话和短语语音训练和测试数据
MISC包括音频和视频信号;谈话记录;情感和生理信号;搜索记录和其他计算机使用情况;以及关于情绪,成功和努力的任务后调查。
包含Microsoft Research收集的英语,中文和日语的会话,双语语音测试和调音数据。该软件包包括音频数据,成绩单和翻译,并允许在真实数据上对口语翻译系统进行端到端测试。
来自英国各地的10,000个10秒的智能手机音频录音,音频总计持续44小时。音频将由Warblr根据知识共享许可发布。音频涵盖英国广泛的位置和环境,包括天气噪音,交通噪音,人类语音甚至人类鸟类模仿。