仇恨言语识别数据集

hate-speech-and-offensive-language

仇恨语言文本识别自然语言处理仇恨文本数据文本分析

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。

下载所需积分：免积分下载

数据集发布者：数据集市

发布时间： 2020年10月31日

数据大小： 3MB

查看原始数据

该情感分析数据集包含1,578,627条分类推文，每行标记... 免积分下载

多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载

Euler图学习平台自研算法对应的开源图数据与样本数据免积分下载

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。

包含3类短文本：

a）包含仇恨言论；

b）是冒犯性的，但没有仇恨言论；

c）根本没有冒犯性。

由15,000行文本构成，每个字符串都经过3人判断。

您可以在数据目录中找到我们标记的数据。我们已经将它们包含为pickle文件（Python 2.7）和CSV。

您还可以在src目录中找到一个包含Python 2.7代码的笔记，以复制文章中的分析结果以及我们生成的词典目录中的词典，以便更准确地分类仇恨言论。

分类器目录包含一个脚本，说明以及用于在新数据上运行分类器的必要文件，并提供了一个测试用例。

还没有任何文件记录.