一、首先,网页反作弊出现背景
在商业利益的驱动下,很多站长会对搜索引擎的排名进行分析,并采取一些措施来提高排名。这种行动本身无可厚非,很多优化行动都是符合搜索引擎排序规矩的,但与此同时也存在很多恶意的优化行动。所以网页反作弊也是所有商业搜索引擎需要解决的一个重要难点。
今天讲一些常见的互联网网页作弊方法,反作弊的整体思路,淘宝搜索反作弊机制与传统网页搜索反作弊的异同。
网页反作弊
二、网页作弊内容作弊类型:
从大的分类来说,比较常见的作弊方法包括:内容作弊、链接作弊、隐藏作弊以及最近几年兴起的Web2.0作弊方法。笔者研究认为,内容进行作弊与现阶段企业业务息息相关,因此我们会在通过本文着重讲下此类型及相关的反作弊思路。
网页作弊主要指通过更改或调控网页内容使网页在搜索引擎排名中获得与其网页不相称的高排名。常见的欺骗方法有关键词重复欺骗、无关查询词欺骗、图片alt标签文本欺骗、网页标题欺骗、网页重要标签欺骗和网页元信息欺骗。通过这些常见的作弊手段,作弊者的作弊意图无非如下:
1、 增加目标作弊词词频来影响排名;
2、 增长主题无关内容或者热门查询吸引流量;
3、关键位置插入目标作弊词影响排名。
Google在2011年2月高调宣布针对低质量网页内容调整排序算法,据报道此算法影响了大约11.8%的网页排名,而这项调整措施是专门针对以Demand Media(创建于2006年5月,雇员500人,它的业务比较庞杂,包括域名注册、内容广告交易等。其主要业务之一是拥有65个社交媒体网站。)网站为代表的内容作弊伎俩的。
内容的经营者廉价雇佣大量自由职业者,支持他们付费写作,但内容普遍质量不高,很多文章都是靠复制粘贴完成的。但是他们会研究搜索引擎的热门搜索词等情况,并有机地将这些词汇添加到写作内容中。这样,普通搜索引擎用户在搜索时,就会被内容网站吸引,通过大量低质量的内容吸引流量,内容就可以赚取广告费用。
与传统的内容作弊方式比,内容不采用机器拼接内容等机械方式,而是雇佣人员写作,但是由于写作者素质等原因决定了其发布内容质量低下,这种作弊方式搜索引擎往往难以给出是否作弊明确的界定,但是又严重影响搜索结果质量,所以是一种很难处理的作弊手法。
反作弊技术
三、网络反欺诈技术总体思路:
目前搜索引擎作弊手段五花八门且层出不穷,作为应对方的搜索引擎,也相应调剂技巧思路,所以如果收拾一下反作弊思路,则会创造技巧方法很多,理清思路着实不易。尽管如此,如果对大多数反作弊技术深入分析,会发现在整体技术思路上还是有规律可循。从基本思路看可以将反作弊手段大致分为3种信任传播模型不信任传播模型和异常发现模型。
1、所谓信任传播模型,基本思路如下:在海量的网页数据中,通过一定的技术手段或者人工半人工手段,从中筛选出部分完全值得信任的页面,也就是肯定不会作弊的页面(可以理解为白名单),算法以这些白名单内的页面作为出发点,赋予白名单内的页面节点较高的信任度分值,其他页面是否作弊,要根据其和白名单内节点的链接关系来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,如果某个节点最后得到的信任度分值高于一定阈值,则认为没有问题,而低于这一阈值的网页则会被认为是作弊网页。
2、不信任传播模型:从大的技术框架来看,和信任传播模型非常相似。最大的区别在于,初始页面本身不是一个值得信任的页面节点,而是确认作弊的页面集合(也就是我们日常所说的黑名单)。赋予黑名单内页面节点不信任分值,通过链接关系将这种不信任关系传播出去,如果最后页面节点的不信任分值大于设定的阈值,则会被认为是作弊网页。
3、而异常创造模型:简略的譬如分析网页内容来创造词频、链接等的异常,复杂点的像分析网站用户行动异常等。异常创造模型往往和信任流传模型和不信任流传模型进行组合处理。
事实上,纯粹信息技术教学手段目前是无法进行彻底解决作弊的问题,因此我们现在企业一般来说都是通过用户在浏览搜索研究结果甚至是上网浏览时举报作弊网页,搜索引擎公司管理内部控制会有一个专门的团队来审核与主动学习发现可疑页面,经过审核确认的网页则可以放入黑名单或者白名单当中。综上所述,必须将人工手段与技巧手段相互联合,才干取得较好的反作弊效果。
四、通用链接反作弊方法:
1、TrustRank 算法 (属于信任流传模型)
2、BadRank 算法 (属于不信任流传模型,据传是Google采用的反链接作弊算法。 注意:不要链接给作弊页面)
3、SpamRank (属于异常创造模型)
SpamRank 的基本假设是:
3.1、对于正常页面来说,其支持者页面的 PangRank 值应该满足 Power-Law 分布,即 PR值有大有小。
3.2、作弊网页不同,一般具有如下3个特点:
Ⅰ、支持者页面数量非常巨大
Ⅱ、支持者页面的 PangRank 值得分都较低
Ⅲ、支撑者页面的 PangRank 值都落在一个较小浮动领域内
五、专用链接反作弊技术:
1、识别链接:
①网页出链的统计散布规矩,作弊网页出链不符合 Power-Law 散布
②网页入链的统计散布规矩,作弊网页入链不符合 Power-Law 散布
③URL名称统计特征,作弊网页的网址倾向于较长,包含更多的点画线和数字等。
④很多作弊网页的URL地址尽管不同,但是常常会对应同一个IP地址。
⑤网页进行特征会随时间发展变化,比如入链的增长率、出链的增长率等
⑥链接结构特点,页面之间的链接非常紧密
2、识别 Google 轰炸:
确定锚文本是否与所指向的页面具有语义关系
六、识别内容作弊:
1、重复该关键字,以确定相同的关键字是否连续出现在文本中一定大小的窗口中
2、标题关键词作弊
3、统计正常页面中句子长度规则、停止词分布和词类分布情况
七、反隐藏作弊:
常见的暗藏作弊方法包含页面暗藏和网页重定向。
1、识别页面隐藏
抓取网页两次,第一次用正常搜索引擎爬虫抓取网页,第二次用人工访问抓取网页。这种方法非常昂贵。
2、识别网页重定向
Strider 系统给出了根据网页重定向来识别到底哪些是作弊网页的解决方案。