4817

欧洲议会平行语料库1996-2011

Europarl

欧洲 平行语料 语料库 自然语言处理 NLP 语料 英文语料 机器翻译 SMT 阅读理解

平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。

免积分下载
数据集市
2020年04月18日

相关数据

谷歌随机生成的3D模型数据集
谷歌随机生成的3D模型数据集
为了在模拟中训练机器人的抓地力和其他任务,随机生成的3D模型... 免积分下载
IMDB电影评论数据集
IMDB电影评论数据集
IMDB上25,000条电影评论数据集 免积分下载
微软光纤数据
微软光纤数据
该数据集包含来自微软在北美的广域骨干网的14个月的光纤数据。 免积分下载

数据介绍

欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的,它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语),日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语),斯拉维克(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语),芬尼-乌格里克语(芬兰文,匈牙利文,爱沙尼亚文),波罗的海文(拉脱维亚文,立陶宛文)和希腊文。

下载

语料库的大小

删除XML后单语言数据的大小。

语言 句子
保加利亚语 411,636 --
捷克文 668,595 13,195,311
丹麦文 2,323,099 47,761,381
德语 2,176,537 47,236,849
希腊语 1,517,141 --
英语 2,218,201 53,974,751
西班牙文 2,123,835 54,806,927
爱沙尼亚语 692,210 11,358,009
芬兰 2,119,515 33,708,706
法文 2,190,579 54,202,850
匈牙利 658,824 12,606,986
意大利文 2,081,669 50,259,169
立陶宛语 678,665 11,512,131
拉脱维亚语 666,026 12,085,228
荷兰 2,333,816 53,487,257
波兰 387,490 7,087,016
葡萄牙语 2,121,889 52,300,149
罗马尼亚语 402,904 9,663,544
斯洛伐克文 674,359 13,116,301
斯洛文尼亚 634,488 12,665,974
瑞典 2,241,386 45,665,947

句子对齐和删除XML后并行语料库的大小。

平行语料库(L1-L2) 句子 L1字 英语单词
保加利亚英语 406,934 -- 9,886,291
捷克英语 646605 12,999,455 15,625,264
丹麦语-英语 1,968,800 44,654,417 48,574,988
德语-英语 1,920,209 44,548,491 47,818,827
希腊语-英语 1,235,976 -- 31,929,703
西班牙语-英语 1,965,734 51,575,748 49,093,806
爱沙尼亚语-英语 651,746 11,214,221 15,685,733
芬兰语-英语 1,924,942 32,266,343 47,460,063
法语-英语 2,007,723 51,388,643 50,196,035
匈牙利英语 624,934 12,420,276 15,096,358
意大利语-英语 1,909,115 47,402,927 49,666,692
立陶宛语-英语 635,146 11,294,690 15,341,983
拉脱维亚语-英语 637,599 11,928,716 15,411,980
荷兰语-英语 1,997,775 50,602,994 49,469,373
波兰语-英语 632,565 12,815,544 15,268,824
葡萄牙语-英语 1,960,407 49,147,826 49,216,896
罗马尼亚英语 399,375 9,628,010 9,710,331
斯洛伐克英语 640,715 12,942,434 15,442,233
斯洛文尼亚语-英语 623,490 12,525,644 15,021,497
瑞典语-英语 1,862,234 41,508,712 45,703,795

已知错误

  • 某些特殊的HTML实体和嘈杂的字符不会从数据中删除。
  • 最近的一些希腊数据在文件中仅包含部分成绩单。

使用条款

我们不了解该原始数据的任何版权限制。如果您在研究中使用这些数据,请联系 pkoehn@inf.ed.ac.uk。如果您发现数据有问题或想要其他语言对的数据,请告诉我们。我们建议使用2000年最后一个季度进行测试(从2000-10到2000-12),以便在报告有关此数据的研究结果时保持一致。

还没有任何文件记录.