大数据信贷风控模型架构

求是汪在路上

致力于风控领域有所建树

风控业务背景

互联网金融相对于传统金融出现更多机遇和挑战。如何将机器学习、深度学习等前沿人工智能技术赋能于金融风控领域，打造金融科技（FINTECH），已经成为大家关注的焦点。

高性能、高可靠、易维护的风控模型是支持风控策略迭代的基础。本文主要探讨一种适用于大数据风控的建模框架，并尝试分析功能模块设计、优势与不足、解决方案。

目录
Part 1. 大数据风控的特点和挑战
Part 2. 传统评分卡的优势和不足
Part 3. 机器学习的优势和不足
Part 4. 大数据信贷风控模型架构
Part 5. 总结
致谢
版权声明
参考资料

Part 1. 大数据风控的特点和挑战

互联网金融相对于传统金融在业务模式上具有诸多不同点：

传统金融的订单数少、订单金额高、贷款期限长、客群资质好、风控预算高。
互联网金融订单数多、订单金额低、贷款期限短、客群资质差、风控预算低。

互联网金融相对于传统金融在风控上具有更多挑战，这包括：

长尾劣质客群更加不稳定，这容易导致样本波动，加大风控建模难度。
互金市场波动剧烈，需加快模型迭代更新周期。例如，2018年6、7月份的“P2P暴雷潮"。
数据源采集上种类更多，弱相关数据更多，处理难度更大。这就需要人工智能技术。
政策合规要求，数据采集和使用更加规范化。例如，近期国家对数据非法爬取的集中整治。

随着监管趋严和行业愈加规范化，大数据风控，尤其是基于弱数据的风控正成为线上信用贷业务最重要的核心竞争力。

数据是风控的基础，只有对借款人全方位的理解，我们才能做好风控。一般可将风控数据分为四部分：

资质类数据：包括真实的身份信息、学历（大专、本科、研究生等）、收入、职业（白领、蓝领等）、人脉信息等。
信贷类数据：包括央行征信报告、内部信贷历史（申请、还款、催收）、第三方征信数据、第三方多头借贷数据等。
消费类数据：包括电商消费记录、信用卡账单、借记卡流水等。
行为类数据：包括埋点行为（前端、后端）、设备App、活动轨迹、内容偏好（浏览商品、新闻）等。

自上而下，这些数据与逾期信用风险的相关性逐渐降低。通常，我们也称为强金融属性和弱金融属性数据。

Part 2. 传统评分卡的优势和不足

传统评分卡一直在银行信贷业务中成功实践了几十年，禁得起时间的检验。因此，我们必然要取其精华。传统评分卡的优势在于：

泛化性强：简单模型泛化性能相对复杂模型更强。
稳定性好：通过WOE分箱技术提高了变量的鲁棒性。
可解释性强：线性模型，变量系数可以判断对最终结果的影响。
小样本学习：信贷样本相对更少，利用较少样本就可以训练模型。

其劣势在于：

特征要求强相关，这就强依赖建模人员的业务经验。
线性特征对于挖掘的信息价值相对有限。
通常需要分群建模，这将带来很多额外工作量。（可参考：《利用样本分群提升风控模型性能》）

Part 3. 机器学习的优势和不足

随着大数据的出现，机器学习慢慢焕发出其生命力。其优势在于：

引入了非线性因素，模型拟合能力更强，能从海量的、贫瘠的数据中挖掘出数据价值。
通过集成学习可将弱模型打造出强模型，如随机森林、GBDT、XGBoost、LightGBM等。
支持更多弱特征入模，而不必像评分卡模型需要花大量时间筛选特征。

其劣势在于：

由于引入了大量的非线性因素，模型可解释性降低。
样本量较少的情况下容易产生过拟合现象。
复杂模型参数过多，调参依赖于人工经验。

Part 4. 大数据信贷风控模型架构

我们认识到了传统评分卡和现代机器学习各自的优势和不足，自然会萌生一种朴素的想法：能不能将两者取长补短，有机结合起来？

目前业内主要有三个探索方向：

方向一：利用数据挖掘算法构建特征，再使用评分卡模型。
方向二：保持传统风控特征筛选的严格标准，但使用机器学习模型。
方向三：大规模样本结合机器学习，保证模型的稳定和泛化。

本文借鉴了以上思路，提出一种大数据信贷风控模型架构，如图1所示。自底向上可分为六个层次：

原始数据域：主要包括运营商、通讯录、电商、公积金、设备、短信、自填信息、外部数据等数据域（domain）。
数据挖掘层：结合各类数据源的特点，利用相应的数据挖掘算法提取信息。例如，利用NLP处理文本类数据；利用图算法处理社交类数据。
结构化特征：最终可用的特征往往是结构化的。同时，需做好特征数据集市管理，线上线下一致性比对等工作。
模型算法库：在掌握模型机理的前提下，选择多种合适的机器学习算法来建模。
机器学习子模型：分数据域选择合适的算法，建立多个子模型。
评分卡主模型：将子模型分数作为新的特征，输入评分卡模型。

该框架在大数据风控上具有核心优势，可归纳为以下几个亮点：

1. 可解释性：在数据域粒度上具有一定的可解释性。

传统评分卡具有良好的可解释性，变量权重系数代表了自变量对因变量的贡献强弱。分数据源建立子模型的框架，虽然牺牲了单变量粒度的可解释性，但保留了数据域粒度上的解释性。

根据如下所示的评分卡Reason Code，我们可以迅速定位到用户在哪个数据域上得分过低、过高、缺失，进一步回溯至数据域上定位到具体变量。也就是顺藤摸瓜，定位原因。

<Characteristic name="device_submodel_score"  baselineScore="10">
  <Attribute partialScore="-6.0" reasonCode="device_submodel_score分数过低">
    <SimplePredicate field="device_submodel_score" operator="lessOrEqual" value="0.2"/>
  </Attribute>
  <Attribute partialScore="6.0" reasonCode="device_submodel_score分数过高">
    <SimplePredicate field="device_submodel_score" operator="greaterThan" value="0.5"/>
  </Attribute>
  <Attribute partialScore="-10.0" reasonCode="device_submodel_score数据缺失">
    <SimplePredicate field="device_submodel_score" operator="equal" value="-9999999.0"/>
  </Attribute>
</Characteristic>

2. 集成学习：利用机器学习提取弱信息，降低人工构造特征门槛。

传统评分卡是线性模型，虽然可以通过WOE变换能解决部分的非线性问题，但人工构造强业务特征的门槛仍然很高。

该模型架构属于集成学习，底层机器学习子模型能帮助自动合成深度特征（子模型分数）。

因此，在业务经验相对不足的情况下，我们可批量构造RFM特征（可参考《风控特征—时间滑窗统计特征体系》）。当然这并不是教你偷懒，基于对业务和数据的理解去构造特征仍然是最重要的。

3. 缺失处理：利用WOE变换解决数据缺失问题。

在学习WOE变换时，我们提到过一个重要的知识点：WOE变换可以处理缺失值。（可参考《WOE与IV指标的深入理解应用》）

由于不同数据域的样本覆盖率存在差异，当我们完成分数据域建模，在关联至全量放贷样本上生成特征宽表时，就会出现部分样本的子模型分缺失问题。

此时，可通过对子模型分数进行WOE变换。如图2所示，该数据域子模型分数的覆盖率约为50%，但通过WOE变换，一是保证了鲁棒性，二是解决了缺失问题。

4. 多样性：保证多个数据域特征入模，丰富变量的维度。

如果我们将所有数据域的特征直接输入机器学习模型，再根据特征重要性粗筛，将会发现一个常见的问题：某些金融属性相对较强的数据域变量将牢牢占据Top N的位置，导致某些数据域变量根本无法入模。

而分数据域建模，可保证各数据域中相对较强的变量都能强制入模，从而引入了维度的多样性。多维度的数据帮助我们从不同角度衡量借贷人的风险。

5. 模块化：子模型支持“搭积木”式灵活组装，提高复用性。

实际项目中，我们很可能会遇到这样的难题：

最近国家对爬虫数据、第三方征信数据集中整治，导致很多依赖外部数据的平台纷纷忙着调整策略。考虑到某块数据源未来可能无法采集的风险，我们一般都会采取模型降级方案。

按传统建模方法，我们通常需输入所有的变量重新训练模型。这是一个非常繁琐的工作，因为需要再次开展特征筛选、一致性比对、上线部署等工作。

模块化意味着具有良好的可扩展性。此时，我们就只需剔除相应的子模型，利用剩下的子模型重新组装评分卡即可。这能很好适应风云变幻的互联网金融市场。

6. 并行化：在大型风控建模项目中易于分工协作。

在大型风控建模项目中，往往需要团队多人协作。由于各数据域之间相互独立，可以分发给多个建模同学并行化作业，更加专注于某块数据域的数据清洗、特征工程、子模型构建等，从而保证项目进度，实现快速迭代。

专注的人才能做好专业的事。这种方式更能保证对弱数据的挖掘更加深入，也更能提升效率。

当然，该模型架构同样存在一些不足之处，但我们可以有针对性地去改善。

1. 牺牲了部分的可解释性。

底层机器学习子模型仍然是黑盒模型，或者一些特征变量（如embedding特征）并不具备可解释性。如果风控策略和模型用到相同的变量，策略调整变量阈值后，对结果的影响难以预估。

解决方案：

控制入模变量一般不超过40个，便于在模型不稳定时快速定位到变量。
研究SHAP、LIME等机器学习可解释性工具的落地实践。

2. 增加了上线和维护成本。

由于将整个流程拆分成串联的几部分，需要上线多个模型。为了保证能及时定位问题，需对变量层、子模型层、主模型层都加以监控。

解决方案：制定模型监控报告标准化模板，同时从技术上开发相应平台，提高模型监控部署效率。可参考《风控模型监控报告系统设计》。

3. 协同建模增加对接成本。

由于不同建模同学的经验存在差异，如果建模过程不统一，那么在最终对接时会产生很多问题，甚至引起重复返工。

解决方案：需要制定标准化的建模流程，统一建模脚本，包括特征筛选、缺失值处理、过程文档记录等。可参考《风控建模流程标准化》。

4. 分数据域产生数据孤岛。

如果只是分数据源建模，那么就会造成数据孤岛。也就是说，无法捕捉到数据源之间的联系。

解决方案：跨数据源构造特征，构建一个跨数据源子模型。不同数据源反映不同维度，我们可以横向比较得到新的特征。例如：借款人若说自己目前没有负债，但手机中安装了大量借贷类App，我们就会持怀疑态度。

Part 5. 总结

本文对提出的大数据风控架构展开了详细的论述，包括各个模块的组成、优势、存在不足及相应的解决方案等。总体而言，这是一种非常有效的解决方案，值得大家借鉴尝试。

致谢

感谢参考资料的作者带给我的启发。本文尚有理解不当之处，在此抛砖引玉。

版权声明

欢迎转载分享，请在文章中注明作者和原文链接，感谢您对知识的尊重和对本文的肯定。

原文作者：求是汪在路上（知乎ID）
原文链接：https://zhuanlan.zhihu.com/p/90214329/

⚠️著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处，侵权转载将追究相关责任。

参考资料

关于作者：

在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作，目前致力于将实践经验固化分享，量化成长轨迹。欢迎交流

编辑于 2020-06-06 15:03

大数据风控

信贷

金融科技