金融机构利用人工智能反欺诈的利器:设备指纹技术的前世今生(上)

金融机构利用人工智能反欺诈的利器:设备指纹技术的前世今生(上)

在反欺诈的技术金字塔中,特征工程起着承上启下的作用。而居于特征工程的下一层的是基座层:数据。在机器学习里,大家有一个共识,高质量、相关的数据决定模型预测能力的上限,模型只是去逼近这个上限。

数据就像原油,好的特征就像汽油,而模型就是引擎,三者缺一不可。作为基座层的数据层的一个重要组成部分是设备终端和网络风险,Gartner的经典五层模型同样将其列为最基础的数据。今天我们就来探讨一下处于这一层的设备指纹以及由此衍生出来的设备风险识别。


背景

自苹果公司推出iPhone智能手机以来,以智能终端为代表的技术浪潮已将整个世界带入了移动互联的时代。移动互联网在扩展互联网的应用范围与场景、创造更多的业务机会的同时,其以移动App为核心的生态特点,也给广大的互联网企业带来了新的挑战。

不同于传统互联网,与个人紧密绑定的智能手机更难追踪。在推广的效果追踪、业务防欺诈、运营效果评估等领域,企业迫切需要一种新的设备识别与追踪技术,来区分有价值的用户、恶意用户甚至是欺诈团伙,以保护企业资产,并最大程度的提高市场推广与业务运营的ROI。

传统的设备识别技术

自PC互联网时代起,设备识别就是互联网用户追踪的重要手段。传统的设备识别技术主要包括:IP地址、cookie以及移动互联网特有的设备ID:

  • IP地址是最早出现的设备标识方案。因为其简单易用,直到现在仍然广泛使用。但是由于网络中存在大量以一个公网IP作为出口的局域内网,以及移动网络中的动态IP分配技术,使得IP地址作为设备标识的分辨率和准确度大为下降。
  • Cookie技术同样出现于90年代的互联网早期,在Web领域广泛应用于对设备的识别与标识。但是因为Cookie采用一种用户数据本地存储的实现方式,恶意用户可以通过清除本地数据的方式来轻易的逃避检测,所以其应用范围受到很大的限制。同时,由于对用户隐私保护的日益关注,主流浏览器厂商已经限制并逐步摒弃cookie技术的使用。
  • 设备ID是移动终端独有的物理设备标识符,包括iOS设备的IDFA,IDFV;Android设备的IMEI,MAC等。随着Apple公司收紧相关的政策,同时大量黑产改号工具的出现,使得设备ID用于设备识别的效果大为降低,特别是在业务反欺诈领域,设备ID成为黑产人员首先攻击的对象。

随着移动互联网的发展,传统的设备识别技术已经越来越不能适应当前的网络环境。企业迫切需要一种新的设备识别与追踪技术,来克服原有设备识别技术的不足,应对新的挑战。这就为设备指纹技术的推广带来了市场契机。


设备指纹技术的流派

传统的设备识别手段主要依赖于单一的信息源,与此不同,新一代的设备指纹技术使用更多的信息来完成设备的识别。它通过网络收集终端设备的特征信息,并在分析与鉴别的基础上,对每一组从终端设备采集的特征信息组合赋予唯一的设备指纹ID,用以标识该终端设备。

从实现的技术方法上看,可以分为主动式设备指纹与被动式设备指纹两种技术路线。

主动式设备指纹

主动式设备指纹技术一般采用JS代码或SDK,在客户端主动地收集与设备相关的信息和特征,通过对这些特征的识别来辨别不同的设备。一般的设备特征信息有:

  • 浏览器特征,包括UA、版本、OS、插件的配置、Canvas特征等;
  • 设备的传感器特征,比如麦克风、加速传感器的特征等;
  • 设备OS的特征,比如是否越狱等;
  • 设备的配置,比如网络配置,系统flash的配置等;

主动式设备指纹算法一般将这些信息组合起来,通过特定的hash算法得到一个设备指纹ID值,作为该设备的唯一标识符。同时,考虑到设备指纹的稳定性,一般还会结合其他的持久化的存储技术,将设备指纹ID长期保存起来。

被动式设备指纹

被动式设备指纹技术在终端设备与服务器通信的过程中,从数据报文的OSI七层协议中,提取出该终端设备的OS、协议栈和网络状态相关的特征集,并结合机器学习算法以标识和跟踪具体的终端设备。

与主动式设备指纹技术相比,被动式设备指纹并不必须在设备终端上嵌入用于收集设备特征信息的JS代码或SDK,其所需要的设备特征都是从终端设备发送过来的数据报文中提取,这也是其所谓“被动式”的原因。

主动式设备指纹技术,因为相对来说更为简单直接,所以业界大部分设备指纹技术厂商提供的都是该类设备指纹服务。被动式设备指纹技术,由于其需要使用机器学习技术构建设备指纹分类算法模型,具有较高的技术壁垒,因而还处于推广起步阶段。

混合式设备指纹技术

主动式设备指纹和被动式设备指纹技术,都存在着自身的缺点与局限性,限制了它们的应用范围:

  • 对于主动式设备指纹来说,其最大的局限在于其收集的设备特征在Web域和App域中存在着区隔,即在不同的浏览器中,收集到的设备特征也各不相同。因而主动式设备指纹在不同的浏览器中,以及Web和App之间,会生成不同的设备指纹ID,无法实现Web与App间,不同的浏览器之间的设备关联。主动式设备指纹的另一个缺陷是,由于依赖于客户端代码,指纹在反欺诈的场景中对抗性较弱。
  • 被动式设备指纹技术可以很好地解决Web与App之间、不同的浏览器之间的设备关联问题。但是由于其需要使用复杂的机器学习算法来进行设备的识别,所以占用的处理资源较多,响应时延也要比主动式设备指纹更长。

混合式设备指纹技术克服了主动式设备指纹和被动式设备指纹技术各自的固有的缺点,在准确识别设备的同时扩大了设备指纹技术的适用范围。

设备指纹的核心技术我们将在下篇文章中介绍。

编辑于 2017-12-27

文章被以下专栏收录