3822

CodeSearchNet挑战赛代码数据集

CodeSearchNet Dataset

语料 代码 代码搜索 代码分析 自然语言处理 GitHub

CodeSearchNet挑战赛是GitHub和Weights&Biases携手推出的一项新赛事,旨在推动语义代码搜索的相关研究。

免积分下载
数据集市
2019年10月02日
20GB

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

CodeSearchNet语料库的数据取自GitHub上的开源项目,经过了充分的预处理。

其中包含了约600万种函数,取自Go,Java,JavaScript,PHP,Python和Ruby这六种编程语言的开源代码。 还包含了通过机械抓取、预处理相关函数文档,自动生成的类似查询的自然语言,适用于200万种函数。

数据规格

编程语言 Go,Java,JavaScript,PHP,Python和Ruby
还没有任何文件记录.