这是在一个统一的格式提供短环境记录的集合(5秒长的片段,44.1千赫,单通道的Ogg Vorbis压缩@ 192千比特/秒)。所有剪辑均摘自Freesound.org项目提供的公共现场记录。
该ESC的数据集是在一个统一的格式提供短环境记录的集合(5秒长的片段,44.1千赫,单通道的Ogg Vorbis压缩@ 192千比特/秒)。所有剪辑均摘自Freesound.org项目提供的公共现场记录。请参阅自述文件以获取详细的归属列表。根据知识共享许可-Attribution-NonCommercial的条款,可以使用该数据集。
数据集包括三个部分:
ESC-50:带有标签的2000个环境记录集(50个课程,每个课程40个剪辑)
ESC-10:带有标签的400套环境记录集(10类,每类40个剪辑)(这是ESC-50的子集-最初创建为概念证明/标准化选择的简单记录)
ESC-US:250,000个环境记录(5秒长的剪辑)的未标记数据集,适用于无监督的预训练。ESC-US数据集虽然没有手动注释,但包含原始上传用户提交的标签(标签),这些标签可能会用于弱监督学习(嘈杂和/或丢失标签)。
ESC-10和ESC-50数据集已被预先排列成5个大小均一的折叠,以便从同一原始源记录中提取的剪辑始终包含在单个折叠中。
带标签的数据集也可以在GitHub项目中使用:ESC-50 | ESC-10。有关更详尽的描述和分析,请参阅原始论文和补充的IPython Notebook。
该项目的目标是促进环境声音分类领域的开放研究计划,因为该领域的公开可用数据集仍然十分匮乏。