404

钓鱼欺诈网站识别数据集

phishing fraud website identification dataset

钓鱼网站 欺诈识别

sofasofa比赛数据。

免积分下载
数据集市
2020年03月28日

相关数据

Twitter情感分析训练语料库
Twitter情感分析训练语料库
该情感分析数据集 包含1,578,627条分类推文,每行标记... 免积分下载
多领域情感评论文本数据集
多领域情感评论文本数据集
多领域情感数据集包含从Amazon.com获取的部分产品评论... 免积分下载
Euler图学习开源数据集
Euler图学习开源数据集
Euler图学习平台自研算法对应的开源图数据与样本数据 免积分下载

数据介绍

训练集中共有10086条样本,预测集中有7000条样本。数据集共有18个变量。注意:变量中含有缺失值。

变量说明:

变量名 解释
contain_IP 网址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。
is_long 网址字符是否过长。1表示网址过长,0表示网址不长。
is_tinyurl 网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址,0表示不是。
contain_at 网址是否包含“@”符号。1表示包含,0表示不包含。
contain_double_slash 网址是否包含“//”符号,该符号用来表示网址跳转。1表示包含,0表示不包含。
contain_dash 网址是否包含“-”符号,该符号经常帮助用来伪装真网站,比如www.my-taobao.com 。 1表示包含,0表示不包含。
contain_subdomain 网址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。
is_SSL 网址是否是https安全链接。1表示包含,0表示不包含。
with_long_history 网址所属的主域名存在的时间。1表示长久,0表示不长久。
contain_icon 网址网页是否有小图标。1表示包含,0表示不包含。
contain_ext_domain 该网页是否加载其他域名下的附件或者网页。1表示包含,0表示不包含。
contain_email_to 该网页是否包含发送邮件的组建。1表示包含,0表示不包含。
allow_right_click 该网页是否允许用户进行右击操作。1表示允许,0表示不允许。
contain_pop_up_windowL 该网页是否包含弹窗。1表示包含,0表示不包含。
contain_Iframe 该网页是否包含Iframe(嵌套网页)。1表示包含,0表示不包含。
has_DNSRecord 网址是否有DNS记录。1表示有,0表示无。
traffic 该网站的流量大小。1表示大,0表示小。
google_rank 该网址在google搜索中的排名。1表示高于同类网站的平均排名,0表示低于同类网站的平均排名。
y 表示网站是否是钓鱼欺诈网站,1表示是,0表示不是。在test.csv中,这是需要被预测的标签;预测时,请提交每个样本为1的概率。
还没有任何文件记录.