怎么做模型提升度的曲线?

怎么做模型提升度的曲线?

在评估评分模型表现的时候,除了大家耳熟能详的KS值、Gini、ROC曲线等,还有一个常常被忽略的指标——LIFT提升度,它衡量的是评分模型对坏样本的预测能力相比随机选择的倍数,LIFT大于一说明模型表现优于随机选择。


为什么要看LIFT

举个例子,一个贷款产品目标客群有10000个人,其中混合了500个坏客户。如果随机选择1000个人放款,可能会遇到50个坏客户。但是如果运用模型对坏客户加以预测,只选择模型分数最高的1000人放款,如果这1000个客户表现出来最终逾期的只有20户,说明模型在其中是起到作用的,此时的LIFT就是大于1的。如果表现出来逾期客户超过或等于50个,LIFT小于等于1,那么从效果上来看这个模型用了还不如不用。LIFT就是这样一个指标,可以衡量使用这个模型比随机选择对坏样本的预测能力提升了多少倍。


LIFT如何计算

通常计算LIFT的时候会把模型的最终得分按照从低到高(违约概率从高到低)排序并等频分为10组,计算分数最低的一组对应的累计坏样本占比/累计总样本占比就等于LIFT值了。从直观上理解,累计坏样本占比相当于是使用模型的情况下最差的这一组能够从所有的坏样本中挑出多少比例的坏样本,而累计总样本占比等于随机抽样的情况下从所有坏样本抽取了多少比例的坏样本(即完全随机的情况下,抽取10%的样本也会对应抽到10%的坏样本)。分母的值通常在10%上下,这是因为可能存在一些样本得分值相同,因此虽然是等频分组但是每一组的样本量并不一定严格等于总数的10%。




以上表为例,该模型的LIFT达到了4.1左右,是一个效果不错的模型。


怎么画LIFT曲线

在画LIFT曲线的时候,可以比计算10%的LIFT值的时候更加的精细,可以考虑等距切分,以更好地看出LIFT曲线下降的陡峭程度。一个好的模型,需要偏离随机选择足够远,因此在分数越来越高LIFT趋向于1之前,希望能够始终保持着一个足够高的LIFT,因此LIFT曲线是越陡峭越好。



根据上表的最后两列画出散点图,就是我们需要的LIFT提升度曲线了:

微信公众号搜索:「 金科应用研院」
可以从菜单栏点击「在线学习」
更多风控培训课程与干货学习资料,都在微信公众号

回复关键字: 「风控量化福利包」➡️领取干货学习资料
回复任意词可以加我们官方微信加入百人风控学习群
不定期分享干货资料,与行业内总监大咖一起讨论风控经验~

发布于 2019-11-29 15:34