5207

COVID-19开放研究数据集

CORD-19

新冠病毒 COVID 疾病数据 疾病研究 病毒研究 冠状病毒 医疗研究

[艾伦AI研究所]与领先的研究小组合作,准备并分发了COVID-19开放研究数据集,该资源提供了超过45,000篇学术文章,其中包括33,000篇有关COVID-19和冠状病毒家族的病毒的全文。

免积分下载
数据集市
2020年03月29日

相关数据

 电子显微镜下骨细胞图像分割数据集
电子显微镜下骨细胞图像分割数据集
来自Open-i的电子显微镜下骨细胞图像分割数据集 免积分下载
2019新型冠状病毒疫情时间序列数据仓库
2019新型冠状病毒疫情时间序列数据仓库
github上开源的一个项目;2019新型冠状病毒(COVI... 免积分下载
带标注的疟疾细胞图片数据集
带标注的疟疾细胞图片数据集
间日疟原虫感染人血涂片细胞图片标注数据集 免积分下载

数据介绍

为了应对COVID-19大流行,艾伦AI研究所与领先的研究小组合作,准备并分发了COVID-19开放研究数据集(CORD-19),该资源免费提供了超过45,000篇学术文章,其中包括33,000篇有关COVID-19和冠状病毒家族的病毒的全文,供全球研究团体使用。

共影

该数据集旨在动员研究人员应用自然语言处理方面的最新进展,以产生新的见识来支持与这种传染病的斗争。随着新研究的发表在同行评审的出版物和诸如bioRxivmedRxiv等档案服务中,该语料库将每周更新。

CORD-19 Explorer是搜索CORD-19语料库的快速简便的方法,或者您可以从下面下载完整的数据。

参加CORD-19挑战赛

Kaggle主持了COVID-19开放研究数据集挑战赛,这是一系列重要问题,旨在激发社区使用CORD-19来寻找有关COVID-19大流行的新见解,包括该病毒的自然史,传播和诊断,人畜界面的管理措施,先前流行病学研究的经验教训等等。

下载CORD-19

下载此数据集即表示您同意数据集许可证。元数据文件中提供了数据集中各个文章的特定许可信息。

其他许可信息可在PMC网站medRxiv网站bioRxiv网站上找到

数据下载:

最新版本包含截至2020-03-27的论文,超过33,000篇全文文章。(*来自先前版本的**变更日志**。)*

每篇论文都表示为一个JSON对象。该架构在此处可用,而数据集的先前版本在此处可用。

描述:

数据集包含来自以下来源的所有COVID-19和与冠状病毒相关的研究(例如SARS,MERS等):

  • 使用此查询的 PubMed的PMC开放获取语料库(COVID-19和冠状病毒研究)
  • 世卫组织维护的语料库的其他COVID-19研究文章
  • 使用与PMC相同的查询进行bioRxiv和medRxiv的预印本(COVID-19和冠状病毒研究)

我们还提供了包含44,000个冠状病毒和COVID-19研究文章的综合元数据文件,并链接到PubMedMicrosoft AcademicWHO WHO COVID-19出版物数据库(包括没有开放获取全文的文章)。

我们建议使用综合文件中的元数据(如果有),而不是使用数据集中的已解析元数据。请注意,在有补充材料的情况下,数据集可能包含单个PMC ID的多个条目。

该存储库链接到WHO冠状病毒疾病出版物数据库和其他资源,例如Microsoft Academic Graph,PubMed和Semantic Scholar。由Chan Zuckerberg Initiative,乔治敦大学安全与新兴技术中心Microsoft Research和美国国立卫生研究院国家医学图书馆组成的联盟共同提供了这项服务。我们也感谢并感谢Unpaywall为部分数据集提供了开放访问许可证信息。

引文:

在发布或重新分发中包括CORD-19数据时,请引用数据集,如下所示:

在书目中:

COVID-19 Open Research Dataset (CORD-19). 2020. Version 2020-03-20. Retrieved from https://pages.semanticscholar.org/coronavirus-research. Accessed YYYY-MM-DD. doi:``10.5281/zenodo.3715505

在文字中:

(CORD-19, 2020)

随着形势的发展和新研究的发布,艾伦人工智能研究所,尤其是语义学者团队将继续为该数据集提供更新。

还没有任何文件记录.