sofasofa比赛数据。
训练集中共有10086条样本,预测集中有7000条样本。数据集共有18个变量。注意:变量中含有缺失值。
变量说明:
变量名 | 解释 |
---|---|
contain_IP | 网址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。 |
is_long | 网址字符是否过长。1表示网址过长,0表示网址不长。 |
is_tinyurl | 网址是否是短网址。比如https://bit.ly/2kXX6jV 就是短网址。1表示是短网址,0表示不是。 |
contain_at | 网址是否包含“@”符号。1表示包含,0表示不包含。 |
contain_double_slash | 网址是否包含“//”符号,该符号用来表示网址跳转。1表示包含,0表示不包含。 |
contain_dash | 网址是否包含“-”符号,该符号经常帮助用来伪装真网站,比如www.my-taobao.com 。 1表示包含,0表示不包含。 |
contain_subdomain | 网址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。 |
is_SSL | 网址是否是https安全链接。1表示包含,0表示不包含。 |
with_long_history | 网址所属的主域名存在的时间。1表示长久,0表示不长久。 |
contain_icon | 网址网页是否有小图标。1表示包含,0表示不包含。 |
contain_ext_domain | 该网页是否加载其他域名下的附件或者网页。1表示包含,0表示不包含。 |
contain_email_to | 该网页是否包含发送邮件的组建。1表示包含,0表示不包含。 |
allow_right_click | 该网页是否允许用户进行右击操作。1表示允许,0表示不允许。 |
contain_pop_up_windowL | 该网页是否包含弹窗。1表示包含,0表示不包含。 |
contain_Iframe | 该网页是否包含Iframe(嵌套网页)。1表示包含,0表示不包含。 |
has_DNSRecord | 网址是否有DNS记录。1表示有,0表示无。 |
traffic | 该网站的流量大小。1表示大,0表示小。 |
google_rank | 该网址在google搜索中的排名。1表示高于同类网站的平均排名,0表示低于同类网站的平均排名。 |
y | 表示网站是否是钓鱼欺诈网站,1表示是,0表示不是。在test.csv中,这是需要被预测的标签;预测时,请提交每个样本为1的概率。 |