【授权转载】鲍忠铁:人工智能在反洗钱领域的应用探索

【授权转载】鲍忠铁:人工智能在反洗钱领域的应用探索

已获原文作者鲍忠铁先生转载授权。
鲍忠铁,TalkingData首席布道师,TalkingData首席金融行业专家,上海大数据产业联盟金融行业专家,网名大侠看客。

目录

1 反洗钱三项核心工作

1.1 客户身份识别

1.2 身份资料和交易信息保存

1.3 大额和可疑交易报告

2 银行反洗钱可疑交易报告上报面临的挑战

2.1 基于规则的可疑交易识别导致了较高的误报率,反洗钱工作成本过高

2.2 历史交易无法回溯进行计算和识别,影响反洗钱工作的有效性

2.3 规则引擎无法识别复杂的洗钱交易,特别是狡诈的洗钱犯罪集团

3 人工智能在反洗钱领域的应用探索

3.1 机器学习提升可疑交易甄选效率,有效降低反洗钱人工审核压力

3.2 基于大数据计算的可疑交易识别引擎,可处理海量历史数据

3.3 基于 Risk 分析的的半监督机器学习,有效识别复杂洗钱交易和地下钱庄


“洗钱”一词是由英文 “Money Laundering” 直译而来。本世纪初,美国旧金山一家饭店老板将肮脏的钱币放进洗涤剂中清洗,这是最初的“洗钱”。20 世纪 20 年代,美国芝加哥一黑手党金融专家开了一家洗衣店。在每晚计算当天的洗衣收入时,把非法收入混入洗衣收入中,再向税务部门纳税,扣去应缴的税款后,剩下的其他非法所得钱财就成了他的合法收入。这就是现代意义上的“洗钱”。

洗钱犯罪是指将毒品犯罪、黑社会性质的组织犯罪、贪污贿赂犯罪、恐怖活动犯罪、走私犯罪、破坏金融管理秩序犯罪、金融诈骗犯罪等 7 种上游犯罪的违法所得及其产生的收益,通过各种手段掩饰、隐瞒其来源和性质,使其在形式上合法化的行为。反洗钱主要是为 7 种上游犯罪提供情报证据,本身的刑法依据也是参考 7 种上游犯罪。国际犯罪集团的大部分洗钱行为不直接在银行金融领域内完成,更多地采用投资入股、不动产交易、进出口贸易、艺术品拍卖、现金走私等方法。洗钱的根本目的是将非法收入合法化,隐瞒和切断非法财产的真正来源。

参考联合国的报告,金融的洗钱犯罪占了全球 GDP 的 2%-5%,每年涉及到的资金超过 2 万亿美金。目前国际上的 AML 的规则只能抓住不到 1% 的非法现金流转。即使是这样的效率,其各大银行花费在 AML 合规上的费用也超过了千亿元,其中美国每年用在反洗钱上的资金投入就超过了 500 亿美元。

1 反洗钱三项核心工作

1.1 客户身份识别

了解你的客户(KYC):不仅要了解客户身份,而且也需要了解客户交易。客户身份识别,指的是识别代理人身份,识别受益人身份,重新识别客户身份,持续识别客户身份。

客户身份基本信息:自然人客户 “身份基本信息” 九要素,包括客户的姓名、性别、国籍、职业、住所地或者工作单位地址、联系方式,身份证件或者身份证明文件的种类、号码和有效期限。法人、其他组织和个体工商户客户身份基本信息“十五要素”,包括客户的名称、住所、经营范围、组织机构代码、税务登记证号码;可证明该客户依法设立或者可依法开展经营、社会活动的执照、证件或者文件的名称、号码和有效期限、控股股东或者实际控制人、法定代表人、负责人和授权办理业务人员的姓名、身份证件或者身份证明文件的种类、号码、有效期限。

客户身份识别的流程:了解客户的交易目的和交易性质、实际控制客户的自然人和交易的实际受益;核对客户的有效身份证件或其他身份证明文件;登记客户身份的基本信息;留存客户有效身份证件或其他身份证明文件的复印件或影印件,授权委托书原件。

1.2 身份资料和交易信息保存

客户身份资料和交易信息保存是反洗钱的重要措施。其主要目的是作为履行客户身份和交易报告的证明,为再现客户资金交易过程、发现可疑交易提供依据,为违法犯罪活动的调查、侦查、起诉、审判提供证据。

保存期限:开户资料自业务关系结束之日起、交易资料自交易结束之日起保存期限应至少在 15 年以上;各业务系统记录的电子交易信息应满足至少 5 年的联机查询要求。

特殊情况:如客户身份资料和交易记录涉及正在被反洗钱调查的可疑交易活动,且反洗钱调查工作在前款规定的最低保存期届满时仍未结束的,机构应将其保存至反洗钱调查工作结束。

1.3 大额和可疑交易报告

大额和可疑交易报告制度是反洗钱工作的重中之重。反洗钱的主要目的是发现和甄别违法犯罪活动的有关线索。2017 年 7 月 1 日起施行的中国人民银行的 3 号令《金融机构大额交易和可疑交易报告管理办法》,成为反洗钱领域的重要文件,其明确了金融机构履行可疑交易报告义务的要求,有助于提高金融机构可疑交易报告工作的合规性和有效性,有利于预防、遏制洗钱和恐怖融资等犯罪活动,维护我国金融体系的安全稳健,进一步与国际标准接轨。

3 号令中规定了 4 项大额交易报告标准、18 项可疑交易报告标准,加上人行过去发布的管理办法所列举的 15 种人民币交易和 27 种外币交易可疑标准,这些监管机构提出的可疑交易标准为各金融机构制定可疑交易规则提供了相对统一和可靠的参考。其中人行的 18 种可疑报告标准最为经典,几乎包含了国内外典型洗钱行为的特点,成为金融行业反洗钱可疑交易规则设计的重要指引,国内银行绝大多数可疑交易规则都围绕这 18 种可疑报告标准进行设计和细化。

可疑交易规则一方面来源于监管机构的指导性文件,金融机构对其进行细化落实,另一方面来源于洗钱犯罪行为的案件还原和经验总结。可疑交易规则设计的思路源于对异常交易的识别,主要关注于交易频率异常、分散转入、集中转出;交易金额和频率同客户身份、财务状况和经营业务明显不符合,账户表现异常;恶意逃避大额和可疑交易报送,转账频率和金额接近上报标准;非正常的现金交易以及关联账户、代理账户、多账户控制等异常行为等。可疑交易最大的挑战是可疑交易阙值的确定,定的太低,会大量拦截正常交易,耗费大量的人工进行复核;定的高低会放过可疑交易,影响反洗钱的有效性。

可疑交易上报体现金融企业反洗钱的合规性和有效性,现在大多数银行采用防御性可疑交易报告方式,宁可错报千笔也不要漏过一笔,导致有效的可疑交易报告占整体可疑交易报告比例较低。2010 年中国反洗钱交易中心共收到可疑交易报告 6185.2 万份,其中有可疑理由可以认为具有明确疑点的交易为 7734 份,占可疑交易报告的 0.0125%,不到万分之二。2016 年中国反洗钱监测分析中心接收可疑交易报告 543.57 万份,可疑交易报告数量同比减少 51.42%,数据质量明显改观。2016 年人民银行分支机构发现和接收重点可疑交易线索 8504 份,筛选后对 732 份线索开展了反洗钱行政调查,向侦查机关移送线索 1965 份,同比增长 27.60%;协助侦查机关调查涉嫌洗钱案件 1652 件,同比增长 10.58%;协助破获涉嫌洗钱等案件 307 件,同比增长 14.55%。可疑交易上报工作这几年取得了明显的进步,但是挑战依然艰巨。

反洗钱三项核心工作中,可疑交易报告最具挑战性。一方面由于中国金融行业支付手段丰富、金融服务不规范、数据治理落后、各行业管理水平相差较大等原因,另一方面是银行自身反洗钱技术升级较慢,落后于国际银行同业的发展。央行副行长殷勇曾表示,金融制裁合规风险凸显,我国金融机构海外反洗钱合规风险上升。

过去中国银行业海外业务占比不高,国际反洗钱监管压力传导不明显,但是这几年大型国有银行的反洗钱压力开始凸显,中国几大国有银行被国外监管机构实施了巨额罚款。2016 年 11 月 4 日,农行纽约分行因违反反洗钱法,掩盖可疑交易,被纽约金融服务局处以 2.15 亿美元罚款;2018 年 2 月 2 日,因反洗钱措施不利,建行被南非罚款 4000 万人民币,等等。同时国内的反洗钱监管也在趋严,2017 年中国人民银行国内反洗钱监管罚款也突破了 1 亿元人民币,反洗钱的处罚不仅仅面对金融企业,同时也面对个人,很多金融企业从业人员因为反洗钱管理不利,受到了除罚款之外的严厉处罚。

2 银行反洗钱可疑交易报告上报面临的挑战

随着互联网和移动支付等技术的发展,各种金融产品和支付方式相继出现,这些新的金融创新成果,既为企业和个人带来了便利,也为反洗钱工作带来了较大的挑战。互联网支付技术为洗钱和恐怖融资行为提供了土壤,客户身份识别难、交易过程不透明、监管体系不健全等都是目前反洗钱、反恐怖融资面临的难题。

例如数字货币比特币,在出现之初就成为中国地下钱庄洗钱的主要方式。在一段时间之内,98% 的比特币交易都是人民币交易,主要的交易类型是国内存入、国外支取。大部分交易发生在金融体系之外,导致反洗钱工作无法对其进行有效监控和拦截。

移动支付和线上支付带来了海量交易,很多交易行为具有小额高频的特点,导致金融机构很难从海量交易中识别可疑交易。金融机构特别是银行,在反洗钱可疑交易识别领域面临着以下的挑战。

2.1 基于规则的可疑交易识别导致了较高的误报率,反洗钱工作成本过高

银行反洗钱可疑交易主要识别方式是基于规则的过滤和识别,每天对海量交易进行规则过滤,生成基于账户的可疑交易包,再安排大量人工进行复核,挑选出确定的可疑交易进行上报。

基于规则的可疑交易筛选会带来较高的误报率,即使是经过优化的可疑交易规则,其误报率也高于 80%,也就是说一万笔可疑交易,被误报的交易就超过了 8000 笔。没有经过优化的可疑交易引擎误报率超过了 95%,每一万笔可疑交易就有 9500 笔是误报,需要大量的人工进行复核。大型国有银行从事反洗钱人工复核的人员超过千人,一年在反洗钱可疑交易复核工作投入的成本超过 3 亿元。如果包括各家分行投入的人工复核成本和衍生成本,五家大型国有银行每年在反洗钱可疑交易人工复核工作上投入的总成本超过 20 亿元人民币。

反洗钱可疑交易的误报率较高,导致商业银行人力物力的大量浪费,成为开展反洗钱工作的一大挑战。

2.2 历史交易无法回溯进行计算和识别,影响反洗钱工作的有效性

银行反洗钱系统依据可疑交易规则进行可疑交易筛选,银行每天都发生大量交易,可疑交易筛选的数据处理规模较大。大多数国内银行使用的反洗钱系统是建立在 RMDB 之上,没有采用在大数据存储和计算技术,无法对历史海量数据进行存储和计算。国内银行反洗钱可疑交易的回溯计算时间一般在 1 周到 1 个月之间,领先的国有银行会用到数据仓库 GP,存储和计算效率会有所提升,但是也无法以年为单位进行可疑交易过滤和计算。

短周期的可疑交易规则过滤,会漏掉一些重要的可疑交易线索,特别是国际上的洗钱犯罪集团或者地下黑产,他们控制了海量交易账户,每次进行洗钱交易时,会挑选一些过去不太使用的账号,利用这些过去很少交易的账户进行洗钱交易。一些用于洗钱的账户交易间隔超过 6 个月,不易被银行的规则引擎识别,导致可疑交易无法被及时发现。

有效的可疑交易识别,理想情况下其历史数据回溯周期最好在 3 年左右,目前很少金融机构可以做到。大多数银行目前无法对历史交易(例如 6 个月左右)进行可疑交易识别,影响了反洗钱可疑交易识别的有效性。

2.3 规则引擎无法识别复杂的洗钱交易,特别是狡诈的洗钱犯罪集团

反洗钱可疑交易规则源于对过去反洗钱工作经验的总结,参考反洗钱的 7 种上游犯罪的真实犯罪场景,监管机构和银行根据还原犯罪场景,将其提炼成可疑交易规则。例如短期内资金分散转入、集中转出或者集中转入、分散转出,与客户身份、财务状况、经营业务明显不符。长期闲置的账户原因不明地突然启用或者平常资金流量小的账户突然有异常资金流入,且短期内出现大量资金收付。

洗钱集团或者地下钱庄非常了解反洗钱可疑交易规则,他们通常会通过海量交易账号、复杂交易手段、投资贸易赌博、艺术品拍卖等非金融手段来掩盖其洗钱交易行为,往往采用多重身份、大量账号、低频交易、复杂交易路径,混于正常交易之中等方式来避开可疑交易规则筛查。国际上,基于贸易的洗钱活动逐步成为主要的洗钱方式之一,通过海关欺诈等方式,高估或者低估货物价值,高报或者低报货物数量;对同一份货物开具多份发票,多张发票在进口商和出口商之间反复转移价值进行洗钱。隐秘的网上赌场也正在成为重要的洗钱场所,犯罪集团只要将脏款打入赌博网站开设的账号,象征性地赌上一两次,然后再将钱以支票的形式转出来进行洗钱。初步计算,每年通过加勒比海地区数百个赌博网站清洗的黑钱约为 6000-15000 亿美元。

规则引擎无法对隐藏在正常贸易交易和低频转账交易中的可疑行为进行有效识别,也无法对海量交易和复杂交易手段的洗钱行为进行识别,这是银行反洗钱技术面临的巨大挑战。

3 人工智能在反洗钱领域的应用探索

人工智能中的机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎来分析问题。

归纳与演绎是逻辑思维的两种方式,归纳就是从个别到一般,演绎则是从一般到个别。机器学习的工作方式类似于归纳法,对于样本进行学习,了解影响其数据表现的主要特征变量,学习反洗钱专家判断可疑交易的依据,将其作为参考(知识库)。机器学习提炼出识别可疑交易的关键数据维度和数据特征值,利用算法来进行分析计算,在海量交易中识别具备洗钱特点的交易和账号,并按照相似程度(发生概率)进行排名。相对于规则引擎的可疑交易识别,机器学习具有参考数据维度多、覆盖全面、分析复杂、评估全面等客观特点。

机器学习分为有监督学习、无监督学习和半监督学习,其中有监督学习主要用于在数据标注比较丰富、数据表现明显、数据饱和度较高的可疑交易识别和筛选。无监督学习和半监督学习主要用于数据标签较少、数据表现不明显、数据饱和度不高的复杂洗钱交易的识别。半监督学习特别适合用于异常关联关系识别,对地下黑产、反洗钱犯罪集团、复杂网络洗钱具有较好的可识别性和可解释性。无监督和半监督学习过程中主要的技术手段是基于拓扑学的图分析和聚类算法,行业经验和对算法的理解深度对机器学习效果影响较大。

机器学习在反洗钱可疑交易识别中,对于偶然发生、频次较低的恐怖融资作用不大,这种洗钱交易主要依靠情报分析和客户识别。

3.1 机器学习提升可疑交易甄选效率,有效降低反洗钱人工审核压力

机器学习简单讲就是模仿人类,模仿人类在对陌生事物的认知过程,使其具有和人脑一样的认知过程。与传统计算机算法不同的是它会自主地生成一部分内容,通过已有的输入完善知识库。机器学习是从足够大的数据中列出特征量所对应的值,让机器从中建立一种规则,它能归纳出每个特征量所对应的值,然后,可以给定特征量要求值,或是给定值要求找特征量。

机器学习在反洗钱可疑交易识别中,参考过去已有的可疑案宗,自动地学习资深反洗钱专家对可疑案宗进行等级分类和排序上报的思路,利用专家的审核结果,自动学习并全方位提取与洗钱行为关联的信号。参考上千特征维度和百万级别的数据,通过机器学习模型实现对可疑案宗的自动分类和排序。主动式机器学习方法可以实现高效人机协同,融合反洗钱专家经验进入机器学习系统,帮助系统自动调优和进化,经过短时间的训练和调优,机器学习系统接近资深反洗钱专家的水平,可以节省大量人力成本。

常用的机器学习模型包括逻辑回归、XGBoost,、Random Forest、GBDT、SVM 等,国内领先的金融科技公司的机器学习模型的能力可以达到资深反洗钱专家 95% 的水平,辅助人工审核和能够节省 30% 以上的人工审核工作,大大增强了总行对整个反洗钱审核流程的把控,降低了人工失误、人才流失、内外勾结等问题带来的危害。

经银行可疑交易规则过滤出的海量可疑交易,主要依靠人工进行审核,只要经人进行手工审核,一定会遇到审核水平不同、业务理解不同、可疑交易认定标准不同的问题,导致可疑交易复核质量不稳定、容易出现误判的情况。长时间重复的可疑交易人工审核也会导致人员工作效率降低、注意力不集中、审核水平下降等问题,漏判和误判概率逐步增加。

机器学习进行可疑交易识别就没有这样的问题,其工作效率和审核水平大致随着训练次数的增加而提升。运行越久,输入越多,修正越多,其可疑交易的识别能力就越强,误判和漏判的概率就越低。机器学习的可疑交易识别在业务理解和可疑交易的认定标准上保持稳定,误判概率较低。

3.2 基于大数据计算的可疑交易识别引擎,可处理海量历史数据

大多数银行所使用的反洗钱系统,基本上建立在银行原有的计算架构之上,DW 是主要数据存储和计算方式。在进行可以交易识别时,DW 的计算能力较弱,计算成本较高,很难覆盖 6 个月以上的所有金融交易。

反洗钱的可疑交易上报要求是在发现可疑交易 10 个工作日之内,不需要实时上报,对于实时计算要求不高,数据工程实施上压力较小,定期进行跑批计算即可。历史可疑交易的识别,主要关注计算能力和计算成本。基于大数据技术的反洗钱引擎和分布式存储,完全可以实现对海量数据的存储和计算,计算成本和存储成本低于传统技术架构的 70% 以上,也就是仅仅利用原来的三分之一成本,就可以满足反洗钱历史交易的计算,进行可疑交易识别。

反洗钱可疑交易识别引擎其内部既要包含基于规则的可疑交易识别,也要包含有监督的机器学习计算引擎。基于规则的反洗钱可疑交易识别,具有可解释性强的特点,有利于监管机构的检查,在反洗钱合规性方面不会出现大的纰漏。可疑交易规则至少包含央行 18 条反洗钱可疑交易标准,也要包含商业银行反洗钱专家总结的可疑交易规则,一般在几十条左右。过多的可疑交易规则会导致可疑交易筛选阈值降低,造成大量的正常交易误报,需要人工进行逐条审核,区分正常交易和可疑交易。商业银行可疑交易误报率在 80% 以上,随着交易量的增加和金融支付场景的扩展,可疑交易的误报量会逐渐增加,人工审核带来的成本压力会越来越大。一名合格的反洗钱审核员,需要花几年时间去培养,每个人每天可审核的可疑交易数量有限,当误报的可疑交易过多时,可疑交易的审核质量会出现不稳定甚至下滑,银行反洗钱的有效性将遇到了较大的挑战。

可疑交易识别引擎内部需要考虑增加机器学习能力,其可以大大降低反洗钱可疑交易的误报率,保持稳定的可疑交易上报质量,提升反洗钱可疑交易上报效率,减少人工复核投入的成本。在面对交易量激增和反洗钱交易识别领域扩大等挑战时,机器学习通过计算资源的增加,可以在短时间内解决问题。机器学习应用于反洗钱领域,可以使反洗钱工作不依赖于大量的人工,仅利用少量的专家进行模型优化,商业银行反洗钱工作的有效性得到了技术保障。

基于大数据技术和机器学习的反洗钱可疑交易识别引擎对历史交易进行计算,根据投入的计算资源不同和监管要求不同,可以覆盖 6 个月到 3 年的金融交易,有效地提升了反洗钱工作合规性和有效性。反洗钱可疑交易识别引擎主要目标是替代大部分重复性、枯燥的、低技术含量的人工复核工作,不是对人的完全替代,仍然需要资深反洗钱专家来优化模型,进行计算结果的验证,反洗钱业务专家的作用不可缺少。可疑交易的上报还是要由业务专家来决策,反洗钱可疑交易识别引擎起到的是辅助决策作用。

3.3 基于 Risk 分析的的半监督机器学习,有效识别复杂洗钱交易和地下钱庄

基于规则的反洗钱可疑交易筛选已经落后于时代的发展,洗钱犯罪集团正在利用复杂的洗钱技术手段来规避商业银行和监管的反洗钱规则。利用目前的规则很难识别复杂的洗钱交易,大量的洗钱交易淹没在海量的支付和正常贸易之中。洗钱集团还利用网上赌博、数字货币、艺术品投资拍卖等手段进行洗钱交易,这些交易由于具有交易低频、账户特征不明显等特点无法被规则有效识别出来。

针对洗钱集团的复杂洗钱方式,国际上提出了基于 Risk 的反洗钱联防联控监管措施,大多数还是基于规则和特征的可疑交易识别。主动式半监督机器学习可以有效地识别复杂洗钱交易和地下钱庄,其利用行为数据和少量特征标签,通过图分析、聚类、关联分析等技术手段识别异常交易和关系图谱,借助于反洗钱业务专家进行犯罪场景还原,提升机器学习的可解释性,有效识别复杂洗钱交易和洗钱犯罪集团。半监督机器学习技术门槛较高,其核心技术和实践经验掌握在 Google、Faceboo、BAT 等大型互联网公司和少部分金融科技公司手中,人工智能领域的机器学习之父迈克尔 · 欧文 · 乔丹(Michael I. Jordan)所在的加州伯克利大学在半监督学习领域具有较高的学术水平和工程实践经验。

半监督机器学习利用用户在客户平台上的行为数据对多个用户进行关联分析,从而检测恶意团伙洗钱。其使用少量标签甚至没有标签进行建模,生成的模型不依赖于标签的训练,基于用户行为的异常,可以检测到新的未发现过的洗钱模式。在进行反洗钱可疑交易识别过程中,半监督机器学习分析数以亿计的账户信息和事件行为日志,基于成千上万的特征进行全方位的行为和关联建模,以识别账户之间不正常的行为和关联的异常,寻找可疑的相关性,发现新的洗钱活动,提高反洗钱交易识别的覆盖率。

基于 Risk 分析的主动式半监督机器学习可疑交易识别模型,融合了反洗钱专家的知识和经验,自动学习未知洗钱模式,自适应于不断变化的环境,生成可视化模型的决策结果和可解释的分析报告,有助于反洗钱专家还原犯罪场景,业务人员能够理解决策理由。其主动式迭代技术可以对抗恶意对手的故意干扰,设计出对抗性模型,选择合适和冗余的特征,使得洗钱分子对模型的规避变得困难和昂贵。在复杂洗钱交易网络和有组织洗钱犯罪领域,基于图分析的主动式半监督机器学习正在成为反洗钱技术的主流。

总之,人工智能技术正在各种金融业务场景中发挥作用,其中,在监管科技领域,机器学习面对海量交易、复杂交易手段、狡猾的犯罪集团具有较大的技术优势。机器学习在反洗钱领域应用需要结合业务专家的经验,建立自身反洗钱知识库,通过对海量历史交易数据和行为数据的分析,识别异常交易行为和异常关系,发现复杂洗钱行为,提高反洗钱可疑交易识别效率,整体提升商业银行的反洗钱技术能力和业务能力。

编辑于 2019-01-24

文章被以下专栏收录

    大数据之路的磊叔,玩过日活千万的信息流产品,玩过日更新千万级数据的运营商产品,玩过月活破千万的金融产品。大数据之路的磊叔,会告诉你大数据的全貌,会告诉你图表只是Excel的冰山一角,Excel只是工具的冰山一角,工具只是数据分析的冰山一角,数据分析只是大数据的冰山一角。大数据之路的磊叔,现在开始把10年的数据经验分享于你,初衷就是十二个字:书我想,写我思,授人渔,辩真知。