新闻是有分量的

雨杰棋牌(2)

2019-05-01 10:34栏目:新闻

第三回 策略介绍

十步杀一人,千里不留行

行走江湖,惩恶扬善,离不开一身过硬的本领。下面,就来介绍钟馗的各种武功:

  • 关键词策略 —— 七伤拳

关键词匹配是识别 Spam 最直接,最简单、最有效,也是最暴力的方法。钟馗拥有一套较为完善的关键词识别算法体系,如硬匹配、跳词匹配、联系方式匹配、拼音匹配、标点符号匹配、长句模糊匹配、完全匹配等。这些不同的匹配算法,在针对不同的垃圾文本中发挥着各自的作用。

这里给大家简单介绍一下两种关键词匹配算法,希望给大家有一个感性的认识。

硬匹配(HardMatch),顾名思义就是一种比较生硬的匹配算法,关键词是啥,识别的内容就要一个字不差的相同。硬匹配还支持多个关键词的匹配,如“售卖,会员”,那么如果一个文本是“低价会员.....售卖,联系我”,那就会被识别出来,不管是“售卖”和“会员”的相对出现顺序是什么。

跳词匹配是在硬匹配上进化而来的一种匹配算法。当我们要识别的内容的每个字都被空格,或者横杠隔开,那么通过硬匹配加词可能就有点不方便了。跳词匹配默认会把关键词中的每个词分开单独匹配。比如我们要识别“找--小–姐,私聊”,那么只要添加“找小姐”,就能够准确命中目标。

通常线上发现一些垃圾文本,运营第一时间会配置一些关键词加以控制,这样是最快速有效的。

关键词策略虽好,但是太过于暴力,稍有不慎,就有误伤,就像七伤拳一样,稍微控制不好,伤人伤己。

  • 规则策略 —— 独孤九剑

单单有关键词,还不足以识别所有的垃圾内容,毕竟关键词识别太具体了,能够识别的内容也是有限的。这个时候就需要编写一些规则去更加普适性的识别垃圾内容。

规则,可以用来解决一类问题,就像独孤九剑一样,有破剑式、破刀式、破鞭式等。钟馗的规则策略,也有破色情式、破广告式、破辱骂式等。只不过,钟馗会的招式更多。经过几年和黑产的斗争,钟馗已经积累的几十个不同的规则。

我们知道,现在很多小朋友在看动画片的时候,拿着 iPad,在键盘上乱敲一通,作为评论发送。其实这些都是属于无语义的内容,并不是啥正儿八经的评论,运营一般都会建议删除类似的评论。钟馗有一个规则叫“最长连续字母”,它是计算一句话中最长的连续的字母有多少,如果有 20 个,想必一般都不会是英文单词,从线上实际情况来看,基本都是无语义。当然也有类似 hahaha 这种,只要额外处理一下就行了。

评论归评论,升级到对明星个人攻击就不对了。我们有一个规则叫“基于依存分词器的情感分析”,专门用来识别这种评论。依存分析的结果是一个树,树的边对应一种语法关系,比如名词修饰,主谓短语。在我们的数据库中,会配置一些演员名,和一些语法关系,比如名词修饰关系 NMOD(傻逼,__ACTORS__),表示但凡有人称呼某个明星是傻逼,我们就认为这句话需要特殊关照一下。

对于不同的业务线,审核的力度和尺度都是有些不同的,所以我们使用的规则会把计算结果和评判的尺度解耦,同样一句话,同样的规则,计算的值肯定是一样的。但是配置不同的尺度,可能在有些业务线被判定为垃圾,有些可以存活下来。

  • 模型策略 —— 九阴真经

《九阴真经》分上下两卷,上卷内功心法、下卷武功招式。机器学习模型,亦是如此。标注语料如同内功心法、算法模型如同武功招式。强大的内功,加上凌厉的招式,方能击退敌人。

模型主要针对的文本类型有色情文本、广告文本、无语义文本、辱骂文本、低俗文本等。而模型类型经过多轮迭代,拥有了 LogisticRegression、LSTM、Convolutional-LSTM、CNN、BiLSTM-Attention、cw2vec-Attention 等众多形式的模型结构,每种模型都在垃圾文本识别中发挥着重要作用。