3520

仇恨言语识别数据集

hate-speech-and-offensive-language

仇恨语言 文本识别 自然语言处理 仇恨 文本数据 文本分析

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。

免积分下载
数据集市
2020年10月31日
3MB

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。

包含3类短文本:

a)包含仇恨言论;

b)是冒犯性的,但没有仇恨言论;

c)根本没有冒犯性。

由15,000行文本构成,每个字符串都经过3人判断。

您可以在数据目录中找到我们标记的数据。我们已经将它们包含为pickle文件(Python 2.7)和CSV。

您还可以在src目录中找到一个包含Python 2.7代码的笔记,以复制文章中的分析结果以及我们生成的词典目录中的词典,以便更准确地分类仇恨言论。

分类器目录包含一个脚本,说明以及用于在新数据上运行分类器的必要文件,并提供了一个测试用例。

还没有任何文件记录.