当前位置:首页 » 技术教程 » SEO实战 » 详情

如何从大批量关键词中过滤敏感词?

为什么要处理敏感词

做为SEO的正规军,必须要每天都跟关键词打交道的。而且为了守护这人间的正义,我们的站点是不允许出现敏感词的。否则就非常容易被相关部门把网站给GG了,除非站点和域名都是在国外的,并且你做的就是是这个的话就无视我接下来的内容吧。

如果做过几年的seo,不难发现有很多的站点就是一个敏感词的问题被干掉的,有的甚至就因为某个网页里面出现了一个敏感词而导致整站被干的。这种具体是什么敏感词大家想想应该就知道了。

如何从大批量关键词中过滤敏感词?

什么是敏感词

敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语,也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词。一般有以下几种:

色情类

民生类

反动类

政治类

暴恐类

广告类

医疗类

特殊网址

那么,以上这些词库如果整理出来的话,估计得有个几十万甚至更多,反正新浪的似乎已经有上百万的敏感词了。如果要对这些词进行处理的话无疑是一个大工程。

一般对于敏感词的处理有两种方式,第一种是直接删除包含敏感词的关键词和内容,第二种是对敏感词进行替换,比如替换为***符号。但是不管哪种方式进行处理,首先都需要实现快速的找到敏感词,比如你有500万的关键词需要进行过滤,那么如果人工去看的话,这无疑是天方夜谭。估计公司都倒闭了这批词还没过滤完呢。这种时候就需要使用技术的力量了,让程序帮我们来干就好了。但是程序也是有效率问题的,那么如何高效的进行搜索发现呢?

如何处理敏感词

这里给大家介绍一个高效快速的算法,Trie树算法,这个算法也叫字典树或前缀树。可以给作为seoer的小伙伴们说的是这个算法在SEO中的很多地方都可以发挥很大的效果哦,而不仅仅是处理敏感词。那么先来说说这个算法吧,这个大家理解为前缀树算法可能更好些哈。大概长这样的(老外的东西就喜欢用英文做演示)


如何从大批量关键词中过滤敏感词?

它的构造过程是这样的

如何从大批量关键词中过滤敏感词?

添加节点的时候是这样的

如何从大批量关键词中过滤敏感词?

查询的时候是这样的,比如我们查询关键词code,那么它的查询路径就是箭头这样的。

如何从大批量关键词中过滤敏感词?

看不懂?没关系,不需要你看懂,会用就好啦。

它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。

相信看到这里,你也是一脸懵逼的,没关系。实现的东西只需要交给程序员就好了,你就告诉他我需要这样的工具。然后让我们来看看它的威力吧,我在第三期python与SEO实战课里面演示了如何用它来帮我们过滤敏感词和批量关键词内链添加的操作,之所以还可以进行内链添加主要就是因为我自己手工改造了一下这个算法的一些功能。

然后最终的测试效果,对70万的词进行过滤只花了3秒钟就完成了。效率还是很OK的,所以如果你正好有这个需求,不妨让你们公司的程序员也给实现一个,这个在网络上也有各种语言的实现了,但是如果要添加一些个性化的功能还是要程序员稍微的进行改造一下的。比如关键词内链添加,还有敏感词替换为***等特殊字符这类功能基本就需要自己实现了。

内容来源:网络

打赏站长

打赏方式:

X
  • 支付宝
  • 微信
  • QQ红包

打开支付宝扫一扫
文章作者:︻$▅▆▇◤ 日期:2023年11月22日 星期三   分类:SEO实战   浏览(170)
本文地址:https://www.zzjjd.cn/seosz/6105.html   [百度正在收录]
声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!
本文最后更新于2023-11-22,已超过 1 年没有更新,如果文章内容或图片资源失效,请留言反馈,我们会及时处理,谢谢!

留言咨询

自动获取QQ

昵称

邮箱

网址

寻元素 - 专注免抠png素材设计网站

    寻元素 - 专注免抠png素材设计网站

关于我们

    站长导航网提供网站SEO优化、SEM推广营销(百度/360/搜狗收录优化)、企业建站、搜索引擎教学等服务。
    联系我们:给我发QQ消息 加入QQ群

站点统计

  • 收录网址:222 个
  • 黑名单:0 个
  • 发布文章:2247 条
  • 总访问量:1392954次
  • 评论总数:0 条
  • 用户总数:239
  • 本站运行:2年11月9天
展开
关闭 提交收录 审核状态 SEO实战 SEO外链 在线工具 资源大全 骗子公布 本站公告