我的网站越来越大,它开始通过各种渠道吸引大量的垃圾邮件。 该网站有许多不同types的UGC(configuration文件,论坛,博客评论,状态更新,私人信息等)。 我正在进行各种缓解工作,我希望以闪电般的方式进行部署,说服垃圾邮件发送者我们不是一个有价值的目标。 我对自己在做function方面有很高的信心,但是一个缺失的部分是一次性清除所有旧的垃圾邮件。
这是我有:
大/好的语料库 (5位数字不好,6位或7位数字好)。 很多垃圾邮件都有非常可靠的指纹,而且我忽略了6个月的事实有助于:)
大型模块化Rails站点部署到AWS 。 这不是一个巨大的stream量站点,但是我们运行了8个SOA开始的实例。
Ruby,Redis,Resque,MysqL,Varnish,Nginx,Unicorn,Chef,都在Gentoo上
我的要求:
考虑到数据量,我希望它执行得相当好(因此我对一个纯粹的ruby解决scheme保持警惕)。
我应该能够对不同types的内容进行多重分类(419骗局与僵尸networking链接垃圾邮件)
我希望能够根据我们自己的侦探工作(模式匹配,IP重用等)添加手动因素
最终我想构build一个用于Ruby的漂亮界面。 如果这需要用C或其他任何东西来弄脏我的手,我可以处理它,但是如果可以的话我会避免的。
我意识到这是一个漫长而模糊的问题,但是我要找的主要是一个很好的软件包列表,其次是任何build立了类似系统的人的随机想法。
解密混淆perl脚本
如何在.htaccess文件中阻止来自多个引用者和子域的引荐stream量?
如果您得出相同结论并决定考虑专有反垃圾邮件,请查看付费Akismet协作垃圾邮件过滤服务。 我们从十几个中型网站上获得了不俗的表现。 它通过机架和rackismet与导轨集成。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。