猛犸反欺诈

扫描二维码关注maxent新闻动态

分类目录

最新动态 行业洞察

文章归档

2017年06月 2017年05月

xKungfoo|猛犸反欺诈CTO:机器智能反欺诈特征工程

4月26日,由xKungfoo举办的“前行者·信息安全交流大会”在上海顺利召开。汇聚数十位安全专家,分享14个深度剖析的前沿议题,聚焦热点话题,专注于深入的黑客和防护技术讨论。

图中为Maxent猛犸反欺诈CTO 周辉

Maxent猛犸反欺诈CTO周辉受邀参加,并以“机器智能反欺诈的秘密武器--特征工程”为主题进行了精彩的演讲。一同出席的还有蚂蚁金服、阿里移动安全、平安、中科院软件等各位安全大神,干货满满,现场气氛热烈。

活动现场,周辉与业内人士共同探讨反欺诈相关内容

以下为大家分享猛犸反欺诈CTO周辉的现场实录:

大家好,我是猛犸反欺诈的CTO周辉,非常荣幸能在这里跟大家分享一下我们在机器智能反欺诈方面的实践心得,不管是机器智能还是反欺诈,都是比较大的主题。为了方便大家的理解,我们今天以薅羊毛为例,跟大家共同探讨。

什么是薅羊毛?

我们知道传统的零售业,专卖店,商场,超市,信用卡等,为了刺激消费,经常给消费者返利,以实物,现金或虚拟积分的方式进行。为大众所知的案例是香港地区的一位领导出差,住宾馆用自己的个人信用卡赚取积分套利的事件,轰动一时。

近几年,智能手机的普及,移动互联网成为主流,刚才提到的这些业务电商,金融等逐渐转至线上,为迅速发展,商家针对营销及交易环节的推广活动的返利力度极大。此类线上推广迅速滋生了针对返利系统性的优惠套利欺诈行为,俗称薅羊毛。

羊毛党已经成为线上业务的毒瘤。

根据我们的分析,羊毛党大体分为四类。

第一类,票友。个人手工进行,规模较小,这一类羊毛党,商家通常不太介意,只是当作为达到推广目标,需要付出的小小成本。

第二类和第三类都属于技术流。

第二类是仍然采用商家提供的应用或网站,使用外挂的自动化脚本,使过程自动化。

第三类直接破解后台接口,打造自己的伪客户端,进行薅羊毛。

第四类通常称为公会羊毛党或团长羊毛党。特点是有一个组织者,在网站发布羊毛信息,QQ群、微信群商讨操作手法。薅羊毛的行为通过用户自己的设备进行,线上组织,线下操作,也算一种“O2O”。

传统应对薅羊毛的技术手段主要是简单的静态规则。比如基于IP地址或DID的频次限制,这些手段很容易被欺诈者以IP代理池或一键新机的工具规避掉。此外,由于移动网络的特性,共享IP很普遍,也容易误伤到正常用户。有些系统因此辅以人工审核,但其效率低,那如何能避免上述问题呢?

反欺诈的新思路

近年来,机器学习方面的进展为反欺诈提供了一条新思路。

机器学习反欺诈可以简单的看作是由数据,特征和模型所构成的技术金字塔。下层为上层提供输入。在机器学习中,我们常说这么一句话。数据和特征定义机器学习的上届,模型去逼近这个真实的上届。

在今天的讲解里,我重点放在数据和特征层面,如何发掘这些Ground Truth(地面真相)。

我们在长期的反欺诈实践中,总结了对欺诈检测特别有效的特征,并形成了一个多层的模型。特征分层有什么用呢?

主要有两个方面:

1)不同层次的特征对不同场景有效性不同;

2)层次之间有依赖关系,分层实际上对这种依赖关系进行了建模。

这几层的特征和时间,空间维度相结合形成组合特征,维度即可达到成百上千。

第一层,即设备终端与网络层,如果套用Gartner的模型,简称为端点层。

在这一层有一项非常核心的特征是设备识别,也就是我们常说的设备指纹技术。

设备指纹技术一般可分为主动式、被动式和混合式三种。

纯粹的主动式设备指纹因为从终端设备采集较多的设备信息,往往能够取得更高的识别率,但其隐私性和对抗性都较差,而且场景受限,无法跨越web/app进行识别。被动式设备指纹技术门槛较高,隐私性、对抗性比较好,可以跨越web/app进行识别,由于不主动采集设备终端信息,在一些情况下识别率较低。

混合式设备指纹则兼具主动式和被动式二者之长,在识别率,应用场景和对抗性三个方面平衡。猛犸反欺诈同时提供全栈被动式设备指纹和混合式设备指纹,供客户根据不同的应用场景选用。

被动式设备指纹实际上是一个机器学习的典型应用,它的本质是一个分类器。对于两条请求,进行匹配或不匹配的分类。学术界对这类分类器有一个独特的名字:概率式记录关联。

作为在线反欺诈的基础技术,我们的做法是从数据包的OSI七层协议中,提取出这台设备的操作系统、协议栈和网络状态相关的特征,并结合机器学习算法以标识和跟踪具体的移动设备。

相比于主动式设备指纹技术,全栈被动式设备指纹技术™在适用范围和灵活性上,有着不可比拟的优势:

1)更大的适用范围,由于被动式设备指纹技术完全工作在服务器侧,一些无法植入SDK或JS的场景也可使用;

2)跨Web/App,跨浏览器的识别;

3)完全不侵犯用户隐私,避免了被AppStore下架的风险。

设备指纹是运用相关信息对移动设备进行识别,赋予其唯一的识别符。

除了设备指纹外,在端点层还有很多对欺诈检测非常有用的信息。比如设备终端:是否是模拟器,是否被越狱了等。而在网络层面,用户是否使用了代理或VPN, 用户的地理位置等对欺诈检测也有非常好的指向性。

前面所说的一些侦测手段集中在端点层面,以特征而言,则集中在单条事件本身所体现的特征。由此,我们换用户的视角,看用户事件序列,关注用户的整体使用行为,又会有新的手段。

另一项对薅羊毛反欺诈特别有效的特征是基于时间序列的异常检测。

所谓时间序列异常检测,就是分析被监控的某个事件(比如APP下载,新用户注册等)随着时间的分布情况。如果将事件随时间的分布情况可视化,我们会得到一张在整体上有规律可循的时间分布曲线。

人在异常识别的时候,其实做了三块效应的识别

1、从大的时间跨度来讲,识别曲线的整体移动趋势,比如安装数随时间整体增长;

2、从小的时间跨度来讲,识别安装行为的周期性;

3.、安装行为正常的随机波动;

然后在这三个识别的基础上,得到异常识别的能力。

上面提到的这三种效应识别,是规则系统难以处理的,因为这些效应并不是静态不变的,而是动态变化的。但从模型角度来讲,上面提到的三种效应,能很好地被ARIMA模型识别。

ARIMA是一类时间模型的统称,它在金融领域很广,它能自动处理时间维度上的动态变化,周期变化,噪音污染等问题。

对于全局的异常分析,ARIMA能够很好的建模发现异常,因为它很好的处理了时间维度上的动态。但对于局部的异常,比如在某一网段,或某一城市的时间序列,数据的稀疏可能导致根本无法满足ARIMA的条件。

所以我们搭建S-ARIMA(SpatiallyIntegrated ARIMA)模型来解决上面的问题,我们通过贝叶斯框架,将时间维度的模型ARIMA和空间上的模型Gamma-Poisson结合起来,形成一个生成式模型S-ARIMA。

这里的S并不是传统意义上的Seasonal,而是Spatial。当然我们的模型也包含Seasonal的因素。S-ARIMA能自动根据数据,在各个空间维度上,生成对应的异常检测规则。

通过S-ARIMA,原本ARIMA无法建模的空间上系颗粒度的时间序列得以建模,从而发现局部的异常。

前面所讲的是一个相对比较传统的机器学习模型的改造,能够很大程度上解决细颗粒度上的问题。但是如果我们要更进一步,使用空间上的组合维度,S-ARIMA就显得笨重,调参也比较复杂。

我们于是尝试了一种基于深度无监督学习的方法--STORN。

前面谈到羊毛党有四种类型,对于技术流羊毛党,设备指纹和时间序列模型的效果较好,而对于公会式羊毛党,通过网络发起组织,在一些单点特征上,同正常用户一样呈现出分散的特点,使得单点特征防御难以奏效。

但如果将用户行为用网络的形式建模展示,会发现在一些特殊的图形特征上,欺诈行为明显异于正常行为。实践中,我们借助于图学习(Graph Learning)的一些模型,发现网络图谱模型对于羊毛党的发现特别有效。当然欺诈网络发现依赖于设备指纹以及建立在其基础上的同人模型。

以上就是我今天演讲的主要内容,我总结一下要点:

薅羊毛有三大派,

静态规则不好使,

机器学习靠特征,

设备,时序,图挖掘。