这是第一个用于识别3种离散情感的阿拉伯自然音频数据集(ANAD):快乐,愤怒和惊讶。
这是第一个用于识别3种离散情感的阿拉伯自然音频数据集(ANAD):快乐,愤怒和惊讶。
从在线阿拉伯脱口秀节目中下载了演播室外一个主播与人类之间的实时通话的八个视频。然后将每个视频分成轮流:呼叫者和接收者。为了给每个视频加上标签,要求18位听众收听每个视频,并选择他们是否感到快乐,愤怒或惊讶的情绪。消除了沉默,笑声和嘈杂的部分。然后将每个块自动分成1秒的语音单元,形成由1384个记录组成的最终语料库。
提取了二十五个声学特征,也称为低级描述符。这些功能包括:强度,过零率,MFCC 1-12(梅尔频率倒谱系数),F0(基本频率)和F0包络,发声的概率以及LSP频率0-7。在每个功能上应用了19个统计功能。函数包括:最大值,最小值,范围,最大值的绝对位置,最小值的绝对位置,均值算术,线性回归1,线性回归2,线性回归A,线性回归Q,标准偏差,峰度,偏度,四分位数1、2、3和,四分位间距1-2、2-3、1-3。每个LLD的增量系数也作为一阶导数的估计值进行计算,因此总共可以得到950个特征。