Web2.0反垃圾详细策略 百度辨别为垃圾内容案例

1、web2.0站点与垃圾内容

因为大部分web2.0智能建站存在漏洞,攻克技术本钱较低,且营销系统价格低廉,容易被作弊者借助,最近大家发现很多web2.0站点被群发的垃圾信息困扰。这类垃圾群发内容无孔不入,除平台、博客等传统的web2.0站点遭到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多范围内,甚至连新兴的推荐社区也遭到了影响。从以前的平台帖子、博客日志,扩展到供应求购信息页、视频页、用户资料页,这类任何由用户填写和生成内容的地方,都会被作弊者挖掘借助,形成很多的web2.0性质的垃圾页面。

搜索引擎在发现web2.0性质的垃圾页面后势必做出相应应付,但对真的操作群发的作弊者非常难有效的打击,所以作弊者容易借助web2.0站点极低本钱且自己安全这类特征,做出更多风险网站、风险用户、风险搜索引擎的行为。若网站自己管理不严控制不力,比较容易成为垃圾内容的温床;有的网站为了短期流量而对垃圾内容置之不理,这无异于饮鸩止渴。网站不应只是平台的提供者,更应该是内容的管理者,积极维护网站自己水平尤为重要。若网站任由垃圾内容滋长,不只会干扰网站的客户体验,同时也会破坏网站口碑和自己品牌建设,导致正常用户流失,紧急时,还会使搜索引擎减少对网站的评价。

对于作弊者来讲,在web2.0站点上发布垃圾内容的目的就是被搜索引擎网站收录,假如不可以让垃圾页面在网站和搜索引擎上消失,他们依旧会持续不断地产生更多垃圾内容。百度站长平台期望和站长一块打击垃圾页面,帮助网站良性进步,一同维护网络生态环境。

2、什么内容会被百度辨别为垃圾内容

所有对用户无意义,且会伤害用户的内容,就是垃圾内容。大家概要了以下几种比较典型的案例,以示说明:

1、与网站或平台版块主题不符的内容

群发者一般都是大面积群发内容,多数状况下不会注意站点及版块主题,有时大家会在视频网站中见到XXX医院治疗白癫风成效好的内容,会在化妆品平台发现航空企业的不真实电话,会在音乐网站中找到产品营销推广信息(当然不是卖CD的)等等。对于这类主题明确的站点或平台,清理垃圾内容的意义不只在于保证网站体验,也是从自己进步考虑维护用户忠诚度,提升核心竞争优势的事情。举例:

http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html网站主题为化妆品,出现找小姐等不好的内容广告

http://cang.baidu.com/cases99/snap/f84bec4e99508525a9e67fce.html网站主题为视频,出现明显商业广告性质的医疗信息

2、欺骗搜索引擎用户的内容

1)垃圾信息为了在海量搜索结果中崭露头角、吸引用户注意,一般会用诱惑的标题,或在内容中添加强量关键字,有别于真实用户发帖时用自然语言表达的状况。举例:

http://cang.baidu.com/cases99/snap/c2c0b07346650b4d292e0368.html优酷土豆%守望的天空29集--有悖于一般用户发布信息的习惯。

2)有的帖子内容是一段没任何意义的文字,或者随便采集来一篇文章,而中间穿插了一些热点关键字。举例:

http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html

http://cang.baidu.com/cases99/snap/1baad31c3d640eeceb11823d.html

3)有的文章看标题以为在说A事,而主要内容却在讲B,且与A毫无关系。举例:

http://cang.baidu.com/cases99/snap/ce87d21d625937ebd9eee4c2.html

http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html

4)对于视频音频网站来讲,无论内容上传者是不是为恶意,只须视频或音频文件难以满足用户需要或者与标题所述不符都要清除掉。举例:

http://cang.baidu.com/cases99/snap/c8ea73b9a98c51205104b3c1.html,实质视频平均不足1分钟

http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html视频内嵌入了联系方法,名为介绍武艺,实质是在推广另一艺人,视频站点成为其不收费的推广平台。

3、欺骗网站诈取分帐式广告收益的内容

部分web2.0站点为了鼓励用户上传内容,会设计一套现金鼓励机制,譬如视频网站,依据视频前面的广告展示量来计算用户收益,少数分成用户会采取一些不正当的方法从搜索引擎骗取流量,从站方诈取分成收益。如很多上传短短视频,并在视频网页上堆积诱惑的关键字。

4、恶意借助web2.0网站为自己做推广、谋福利的内容。举例:

http://cang.baidu.com/cases99/snap/16107c3e4e885c024d29ed38.html

http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html

视频内嵌入了联系方法,名为介绍武艺,实质是在推广另一艺人,视频站点成为其不收费的推广平台。

5、有违法律法规的不好的信息,如诈骗中奖联系方法、不真实联系电话、不好的信息。举例:

http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html

http://cang.baidu.com/cases99/snap/30c36a2b013ae249aacfbc3e.html

http://cang.baidu.com/cases99/snap/af71c5ec8b83e2eed1cb783d.html

http://cang.baidu.com/cases99/snap/f4633d781c76393f9b11343d.html

3、网站管理员面对垃圾内容,怎么样应付

出于对网站自己进步的考虑,为了使搜索引擎可以提供愈加公平的结果,为了维护网络生态环境,与给网民提供更好的上网体验,大家觉得web2.0站点或平台版块里存在上述内容是很不适合的,网站管理员应付垃圾内容进行重点清理,可以采取以下手段:

1、删除垃圾内容,并将这类页面设置为404页面后,准时通过百度站长平台的死链工具提交死链列表。不只令百度对站点的自我清理行为准时响应,更便捷站点主动控制网站内容在搜索引擎的呈现状况。

2、提升注册用户门槛,限制机器注册

1)营销系统一般用自动的程序探测平台默认的注册文件名、发帖文件名。管理员可以不按期的修改注册用户文件名、发帖文件名;注册、发帖按钮用图片;与程序默认的不同,可以预防被自动程序搜索到。

2)发帖机一般是机器注册,行为模式单一。管理员可添加一些需要人工操作的步骤,能够帮助限制机器注册。如:用验证码;限制同一邮箱注册ID的数目,同时启用邮箱验证;用更为复杂的验证机制;常常更换注册问答。

3)除去在注册处设置门槛外,还可以控制新用户权限。如需要完成上传头像、健全用户信息等人工操作步骤后才开放发帖功能;在肯定时间内限制新用户发帖;限制新用户发布带链接的帖子,待达到肯定级别后再放开。

3、严控机器发帖行为,如用验证码、限制短期内连续发帖等。

4、打造黑名单机制,将群发常用词、广告电话和网址等加入黑名单,对含有黑名单内容的帖子进行限制或清除。黑名单应该不断维护,以堵截原有垃圾词语发生变形和新生垃圾词语。

5、对站内的异常进行监控。发现注册量、帖子数,甚至站点流量爆增后,准时发现和查找问题。

6、对站点内用户的行为进行监控

1)部分异常用户的ID结构有别于一般用户,如用无意义的字母数字、或几个单个汉字的无序组合,如:gtu4gn6dy1、蝶淑琴;用商业词作为ID,如:轴承天地7、hangkongfuwu123。

2)发布内容间隔过短

3)发布的内容绝大多数很类似

4)发布的大多数内容里含有类似的特点,如某个网址、电话、QQ号码等联系方法

7、不允许发布带有可实行代码的内容,防止弹窗、跳转等严重干扰客户体验的状况发生。

8、对部分web2.0地方提及的链接,用nofollow进行标记,如:bbs签名内的链接、BLOG回复ID自置的链接http://cang.baidu.com/spamcase/snap/a3103920926c494f0e3030ad.html

9、平台中的广告、灌水版块,建议加上权限限制,或者禁止搜索引擎网站收录。

10、关注网站建设程序的安全更新,准时安装补丁程序。保障用户账号安全,防止发生盗用正常用户账号或历史沉寂用户账号发布垃圾内容的状况发生。

假如大伙对《Web2.0反垃圾详细策略》还有别的疑问,大伙可以到[学院同学汇][学习讨论]《Web2.0反垃圾详细策略》讨论帖中发表我们的怎么看,大家的员工会关注这里并与大伙进行探讨。

上一篇:没有了 下一篇:没有了