上一篇: Zoundry 终于恢复正常!  | 首頁 |  下一篇: 收到周浩正先生的航邮      

阻挡垃圾评论的杀手锏:正则表达式

收藏此页到365Key
Published on 11/03,2006

  最近在 搜索引擎研究 上看到了一篇关于利用正则表达式阻挡垃圾评论的文章,很受启发,于是很快把正则表达式学起来,在博客南开的后台增加了一条很酷的垃圾信息过滤规则(主要是阻挡纯英文垃圾评论,中文的垃圾评论还需进一步研究)。

  垃圾评论一直是博客服务商和用户最头痛的问题,尤其是我们这种中小博客网站,服务器资源和技术人员都很有限,垃圾评论对我们来说就像是农田里的蝗虫,眼看着精心架设的博客服务被这些该死的寄生虫污染,又无法对用户解释——博客用户没有必要了解网站建设的技术知识,也不会对垃圾评论治理所耗费的精力有多少感性认识。但我们必须每个几天花数个小时专门删除垃圾评论信息,同时还需要将频繁出现的垃圾关键词添加到过滤列表。

  而掌握了正则表达式以后,处理起来就方便多了。正则表达式的能力非常强,不但可以对常见的垃圾关键词进行屏蔽,还可以对评论内容的整体模式进行描述,比如说多数纯英文评论内容在正则表达式中可以用 /^[a-zA-z0-9]+$/ 进行匹配,其中 ^ 表示起始处含有英文,$ 表示结尾出含有英文,总起来说就是通篇都是英文内容。这在中文博客读者中是极其少见的,而英文内容的垃圾评论则几乎全部是这种模式,所以上面这简单的一串字符就将他们咔咔了。虽然这样有些歧视外国阅读者,但还是可作为权宜之计。况且并非所有含英文评论都会被当作垃圾信息处理,只要不是机器人,能够看到评论页面的提示信息就完全可以正常评论。

  当然真正的垃圾信息过滤远没有这么简单,只是因为目前我们的网站并不热门,大的热门网站可能受世界各国到各种各样垃圾信息的侵扰,那时候就得利用基于统计的垃圾评论过滤了。


本文引用地址(Trackback URL)

http://www.nklog.org/trackback.php?id=4556

引用了"阻挡垃圾评论的杀手锏:正则表达式"的文章:

对"阻挡垃圾评论的杀手锏:正则表达式"的评论

请您来说两句

内容

插入评论表情

本人有洁癖,不欢迎垃圾评论。无论是人造垃圾还是机器人,见一个删一个,黑名单伺候。


 
独立浏览者统计: