正 文:
前两天,我发现有些垃圾评论留言无法用关键词做屏蔽了,研究了下数据库里面的原始内容,发现这些spammer对特殊关键字进行了编码,他们利用汉字10位unicode编码后的代码直接提交,以逃避基于关键词的屏蔽方法。
比如采用了10位unicode编码后的汉字:
发 21457;
票 31080;
注意,#后没有空格,飘易只是为了防止它自动转码故意加了个空格,这些编码后的代码就可以逃避基于特定关键词的过滤方法了。比如,你的系统屏蔽了 “代开商业发票” 这个关键词,spammer就发这样的“代开商业发 31080;”,这样在显示的时候,会自动显示成“代开商业发票”,而且你也过滤不了它。
如果你同样需要过滤这些编码后的文字,你可以把这些 21457; 都屏蔽掉,甚至可以利用正则屏蔽一切 出现 21457; 编码的内容。