平行语料库对于统计机器翻译(SMT)的研究至关重要,欧洲议会平行语料库是目前互联网上可免费获取的非常规范的平行语料库。
欧洲议会平行语料库是从欧洲议会的会议记录里抽取出来的,它包括21种欧洲语言的版本:罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语),日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语),斯拉维克(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语),芬尼-乌格里克语(芬兰文,匈牙利文,爱沙尼亚文),波罗的海文(拉脱维亚文,立陶宛文)和希腊文。
下载
语料库的大小
删除XML后单语言数据的大小。
语言 | 句子 | 话 |
---|---|---|
保加利亚语 | 411,636 | -- |
捷克文 | 668,595 | 13,195,311 |
丹麦文 | 2,323,099 | 47,761,381 |
德语 | 2,176,537 | 47,236,849 |
希腊语 | 1,517,141 | -- |
英语 | 2,218,201 | 53,974,751 |
西班牙文 | 2,123,835 | 54,806,927 |
爱沙尼亚语 | 692,210 | 11,358,009 |
芬兰 | 2,119,515 | 33,708,706 |
法文 | 2,190,579 | 54,202,850 |
匈牙利 | 658,824 | 12,606,986 |
意大利文 | 2,081,669 | 50,259,169 |
立陶宛语 | 678,665 | 11,512,131 |
拉脱维亚语 | 666,026 | 12,085,228 |
荷兰 | 2,333,816 | 53,487,257 |
波兰 | 387,490 | 7,087,016 |
葡萄牙语 | 2,121,889 | 52,300,149 |
罗马尼亚语 | 402,904 | 9,663,544 |
斯洛伐克文 | 674,359 | 13,116,301 |
斯洛文尼亚 | 634,488 | 12,665,974 |
瑞典 | 2,241,386 | 45,665,947 |
句子对齐和删除XML后并行语料库的大小。
平行语料库(L1-L2) | 句子 | L1字 | 英语单词 |
---|---|---|---|
保加利亚英语 | 406,934 | -- | 9,886,291 |
捷克英语 | 646605 | 12,999,455 | 15,625,264 |
丹麦语-英语 | 1,968,800 | 44,654,417 | 48,574,988 |
德语-英语 | 1,920,209 | 44,548,491 | 47,818,827 |
希腊语-英语 | 1,235,976 | -- | 31,929,703 |
西班牙语-英语 | 1,965,734 | 51,575,748 | 49,093,806 |
爱沙尼亚语-英语 | 651,746 | 11,214,221 | 15,685,733 |
芬兰语-英语 | 1,924,942 | 32,266,343 | 47,460,063 |
法语-英语 | 2,007,723 | 51,388,643 | 50,196,035 |
匈牙利英语 | 624,934 | 12,420,276 | 15,096,358 |
意大利语-英语 | 1,909,115 | 47,402,927 | 49,666,692 |
立陶宛语-英语 | 635,146 | 11,294,690 | 15,341,983 |
拉脱维亚语-英语 | 637,599 | 11,928,716 | 15,411,980 |
荷兰语-英语 | 1,997,775 | 50,602,994 | 49,469,373 |
波兰语-英语 | 632,565 | 12,815,544 | 15,268,824 |
葡萄牙语-英语 | 1,960,407 | 49,147,826 | 49,216,896 |
罗马尼亚英语 | 399,375 | 9,628,010 | 9,710,331 |
斯洛伐克英语 | 640,715 | 12,942,434 | 15,442,233 |
斯洛文尼亚语-英语 | 623,490 | 12,525,644 | 15,021,497 |
瑞典语-英语 | 1,862,234 | 41,508,712 | 45,703,795 |
已知错误
使用条款
我们不了解该原始数据的任何版权限制。如果您在研究中使用这些数据,请联系 pkoehn@inf.ed.ac.uk。如果您发现数据有问题或想要其他语言对的数据,请告诉我们。我们建议使用2000年最后一个季度进行测试(从2000-10到2000-12),以便在报告有关此数据的研究结果时保持一致。