有好几天没写文章了,记得恶意网站系列写过两篇文章就没再继续写了,今天上网碰到有人在v2ex对一些问题提出了一些质疑,从从业者角度做了一些回答,想想,整理下,发给大家看看.
对于恶意网站之前有做过介绍,比如百度搜索结果、QQ聊天窗口的那些恶意网站,那么这些恶意网站的提示是怎么做到的?

记得之前似乎做过介绍?其实这些一般都是根据一个恶意网址库进行匹配,如果网址在恶意网址库里,那么就提示恶意,并显示对应的恶意类型(如何查询、如何快速查询这些我们就不讨论了,涉及到一些数据库优化、缓存等等知识)。

 

说到这里,估计大家又会问,那么这些网址库是哪里来的?这就是今天主要要讲的内容。

 

一般恶意网址的来源有几个:

 

1、引擎检测,就是比如百度搜索每天有一大堆的搜索网址,直接拿来作为入口url,放到集群去检测,然后引擎识别是否恶意网址,不同引擎标注网址恶意类型

2、人工举报审核,各种平台会有一大堆网民举报的网址,然后通过人工审核,确认恶意情况入库到恶意网址数据库

3、数据交换,不同的恶意网址产生提供商之间为了更好的数据准确性及覆盖,一般会做一些数据交换,进行互补

 

正常情况下,那些安全厂商的恶意网址就是这样来的。

 

然后我们再来看看可能会出现哪些问题:

1、分类识别不准
2、误报
3、漏报

这几个情况基于以上三种数据来源来说:

 

1、人工审核就不说了,因为是人工看,不排除存在误报和分类不准情况,但一般基本是为0

2、引擎检测,这个没什么好说的,每家开发的引擎不一样,算法不一样,资源不一样,识别情况都是不同的,比如腾讯搞自家仿腾讯产品的仿冒网站就识别的比较准,淘宝搞识别阿里系网站也是比较准;还有就是专精,比如金山,专精钓鱼,因为他们有赔付服务,但是也避免不了误报。

3、厂商数据交换,这取决于厂商的能力,包含他们的引擎识别准确度等,一般会先做质检,然后才会根据情况使用。

 

再单独说下分类不准的情况,就钓鱼和仿冒来说,大部分的网站为了钓鱼会先仿冒所以就这种情况首先就不好归类;然后再谈谈细节问题,一般来说,引擎是无法做细化到具体的技术细节的,一般会给出个出问题的url,因为实现这种东西没必要,等于花那么多的钱去搞一个可能只是个别人重视的东西,一般这种技术细节也只有懂技术的人才会看,而懂的人一般根据恶意类型,然后知道根据url和恶意类型一般就能找出问题来。

 

大概的给大家做了个科普,算是之前文章的补充,然后有什么疑问可以直接回复提问,回头再整理给大家。

 

一些拓展阅读:

恶意网站小谈 - 微信公众号:oxsafe by Fooying - 知乎专栏

谈谈那些被黑的网站 - 微信公众号:oxsafe by Fooying - 知乎专栏

(题图来自网络)