该数据集包含僧伽罗语的多扬声器高质量转录音频数据,由斯里兰卡的Google收集。
ownthink致力于最大的中文开放知识图谱,目前已经对两千五百多万实体进行了融合,拥有亿级别的实体属性关系,知识还在不断更新中。
来自语料库在线的现代汉语语料库字词频数据集
我们将机器之心在编译技术文章和论文过程中所遇到的专业术语记录下来,希望有助于大家查阅和翻译。同时也希望大家能积极指出我们编译的不当之处,共同推进知识高效、广泛地传播(第二版)。
该数据集包括迄今为止所有NIPS论文的标题,作者,摘要和摘录的文本(范围从1987年第一次会议到2016年会议)。
谷歌发布的大型数据集合Wikilinks 可让程序更好地理解人类语言,该数据集包含超过3百万个实体的4000万个提及。
关于汉语单词和短语的连续分布表示的语料库。
最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。