MISC包括音频和视频信号;谈话记录;情感和生理信号;搜索记录和其他计算机使用情况;以及关于情绪,成功和努力的任务后调查。
包含Microsoft Research收集的英语,中文和日语的会话,双语语音测试和调音数据。该软件包包括音频数据,成绩单和翻译,并允许在真实数据上对口语翻译系统进行端到端测试。
该数据集包含具有相应较短(压缩)版本的句子和简短段落。每个输入文本最多可进行五次压缩,并对其含义保留和语法进行质量判断。
这是用于人类动作检测实验的数据集。它由我们录制的许多视频序列组成。
Microsoft Research Cambridge的去马赛克数据集由原始图像集及其降级版本组成,可用于在线性空间和色彩空间中学习和评估去马赛克(以及可能的其他任务,例如去噪)。
这个新的数据集提供了前所未有的传感器记录数量(总共405个),包括部署在24个单独的身体部位上的多个IMU和红外(IR)传感器。
在剑桥的微软研究院,我们正在开发新的机器视觉算法,用于自动识别和分割许多不同的对象类别。我们对有监督和无监督的场景都感兴趣。
用于回答问题的语义解析的最新工作集中于冗长而复杂的问题,如果在两个人之间的正常对话中提出问题,其中许多问题似乎是不自然的。
WikiQA语料库是一组新的公开可用的问题和句子对,它们被收集并注释以用于开放域问题解答的研究。
美国知识问答网站 Quora 上的问题答案数据集,可用以进行重复问题检测。