语音识别数据集-数据集市-免费数据资源共享网

行业数据

全部

机器学习训练数据

热门数据集

全网新闻数据(SogouCA) 2012版

搜狗实验室提供，来自若干新闻站点2012年6月—7月期间国内...

免积分下载

排序方式：默认，数量：28

音频档案研究数据集

freefield1010

4107

包含7690个音频剪辑的数据集，这些数据是从Freesound音频档案库中的字段记录标签中采样的

2020-04-07 （60月前）免积分下载

阿拉伯自然音频数据集

Arabic Natural Audio Dataset

4119 500MB

这是第一个用于识别3种离散情感的阿拉伯自然音频数据集（ANAD）：快乐，愤怒和惊讶。

2020-04-07 （60月前）免积分下载

固有唤醒词数据库 HI-MIA

HI-MIA

5261 45.8GB

HI-MIA，是一个智能家居场景下的固有唤醒词数据库。该数据库共包含340个说话人，每个说话人语料包含了近场麦克风拾音和远场麦克风阵列的多通道拾音。它可用于声纹识别、语音唤醒识别等研究。

2019-12-12 （64月前）免积分下载

爱数智慧日语手机朗读数据库

Japanese Read Speech Recognition Corpus

4607 2.4GB

本语料库的录制文本为日常用语。采集方式为手机录音；录音输出为PCM格式。37名来自日本不同区域（如东京、大阪、北海道等）的发言人参与采集。

2019-10-02 （66月前）免积分下载

TIMIT 语料库

The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus

6792 826MB

TIMIT数据集的语音采样频率为16kHz，共包含6300个句子，由来自美国八个主要方言地区的630人每人说出给定的10个句子，所有的句子都在音素级别（phone level）上进行了手动分割，标记。

2019-09-17 （67月前）免积分下载

AISHELL-语音唤醒词数据库

AISHELL-2019B-EVAL

5734 25.05GB

来自希尔贝壳的语音唤醒词数据库

2019-08-02 （68月前）免积分下载

AISHELL-家居环境近远讲同步语音数据库

AISHELL-2019A-EVAL

4494 2.9GB

AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库，共 24.3 小时。

2019-08-02 （68月前）免积分下载

AISHELL-翻译机录制语音数据库

AISHELL2019C-EVAL

4558 4GB

来自AISHELL的开源语音数据产品：翻译机录制语音数据库

2019-08-02 （68月前）免积分下载

AISHELL-2 开源中文语音数据库

AISHELL-2 Open Source Mandarin Speech Corpus

8074

来自希尔贝壳的中文普通话语音数据库AISHELL-2的语音时长为1000小时

2019-08-02 （68月前）免积分下载

AISHELL-1 开源中文语音数据库

AISHELL-ASR0009-OS1 Open Source Mandarin Speech Corpus

9583 14.5GB

希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时，是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。

2019-08-02 （68月前）免积分下载

大规模英语语料库（LibriSpeech）

LibriSpeech ASR corpus

15447 60 GB

公开数据集中最常用的英文语料，其中包含了1000小时的16kHz有声书录音，并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件，非常适合入门使用。

2019-06-30 （69月前）免积分下载

FMA大型音乐分析数据集

FMA

7875 1000GB

FMA 是音乐分析数据集，由整首 HQ 音频、预计算的特征，以及音轨和用户级元数据组成。它是一个公开数据集，用于评估 MIR 中的多项任务。

2019-06-30 （69月前）免积分下载