包含7690个音频剪辑的数据集,这些数据是从Freesound音频档案库中的字段记录标签中采样的
这是第一个用于识别3种离散情感的阿拉伯自然音频数据集(ANAD):快乐,愤怒和惊讶。
HI-MIA,是一个智能家居场景下的固有唤醒词数据库。该数据库共包含340个说话人,每个说话人语料包含了近场麦克风拾音和远场麦克风阵列的多通道拾音。它可用于声纹识别、语音唤醒识别等研究。
本语料库的录制文本为日常用语。采集方式为手机录音;录音输出为PCM格式。37名来自日本不同区域(如东京、大阪、北海道等)的发言人参与采集。
TIMIT数据集的语音采样频率为16kHz,共包含6300个句子,由来自美国八个主要方言地区的630人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。
AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库,共 24.3 小时。
来自希尔贝壳的中文普通话语音数据库AISHELL-2的语音时长为1000小时
希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时,是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。
公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。
FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征,以及音轨和用户级元数据组成。它是一个公开数据集,用于评估 MIR 中的多项任务。