语音识别数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：28

MS-微软语音语料库（印度语）

Microsoft Speech Corpus (Indian languages)

5346

Microsoft Speech Corpus（印度语言）发行版包含泰卢固语、泰米尔语和古吉拉特语的会话和短语语音训练和测试数据

2020-06-23 （61月前）免积分下载

VoxForge 语音库

VoxForge

6097 12.6GB

VoxForge 创建的初衷是为免费和开源的语音识别引擎收集标注录音.

2020-12-31 （54月前）免积分下载

说话人深度识别数据集（VoxCeleb2）

VoxCeleb2

9651

VoxCeleb是一个视听数据集，由从上传到YouTube的采访视频中提取的人类语音短片组成。

2019-06-30 （72月前）免积分下载

ESC环境噪音分类数据集

ESC Dataset

8568 26.8GB

ESC 数据集是一组以统一格式提供的短期环境记录（5 秒长剪辑、44.1 kHz、单通道、Ogg Vorbis 压缩 = 192 kbit/s）。

2020-12-31 （54月前）免积分下载

musdb18曲目数据集

musdb18

6167 4.4GB

musdb18是一个数据集，包括150首不同流派的全长音乐曲目（约10小时的持续时间），以及它们各自独立的鼓、低音、人声和其他词干。

2020-12-31 （54月前）免积分下载

TIMIT 语料库

The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus

7109 826MB

TIMIT数据集的语音采样频率为16kHz，共包含6300个句子，由来自美国八个主要方言地区的630人每人说出给定的10个句子，所有的句子都在音素级别（phone level）上进行了手动分割，标记。

2019-09-17 （70月前）免积分下载

WHAM 噪音数据集

WHAM

10688

人工混合的噪音数据集；

2020-12-31 （54月前）免积分下载

Warblr众包语音数据集

Warblr

4754 4.3 Gb

来自英国各地的10,000个10秒的智能手机音频录音，音频总计持续44小时。音频将由Warblr根据知识共享许可发布。音频涵盖英国广泛的位置和环境，包括天气噪音，交通噪音，人类语音甚至人类鸟类模仿。

2020-05-01 （62月前）免积分下载

AISHELL-翻译机录制语音数据库

AISHELL2019C-EVAL

4715 4GB

来自AISHELL的开源语音数据产品：翻译机录制语音数据库

2019-08-02 （71月前）免积分下载

UCF 运动行为视频数据集

UCF Sports Action Data Set

5961 1.66GB

UCF体育数据集包括一组从各种体育活动中收集的动作，这些动作通常在广播电视频道（如BBC和ESPN）上播放。这些视频片段是从包括BBC动画画廊和GettyImages在内的大量库存视频网站上获得的。

2020-09-28 （58月前）免积分下载

AISHELL-语音唤醒词数据库

AISHELL-2019B-EVAL

5887 25.05GB

来自希尔贝壳的语音唤醒词数据库

2019-08-02 （71月前）免积分下载

阿拉伯自然音频数据集

Arabic Natural Audio Dataset

4335 500MB

这是第一个用于识别3种离散情感的阿拉伯自然音频数据集（ANAD）：快乐，愤怒和惊讶。

2020-04-07 （63月前）免积分下载