您好,欢迎您来到国盈网!
官网首页 小额贷款 购房贷款 抵押贷款 银行贷款 贷款平台 贷款知识 区块链

国盈网 > 小额贷款 > 风险决策分析方法中最优的是,风险决策中应用最广效果最显著的方法

风险决策分析方法中最优的是,风险决策中应用最广效果最显著的方法

小额贷款 岑岑 本站原创

在信贷业务的风险控制体系中,模型的构建和应用始终是一个重点内容,最常见的就是信贷风险模型在贷前环节的应用。作为一个典型的二分类模型,为了有效地识别用户群的好坏,我们往往选取一些评价指标来量化模型的综合性能,如KS、AUC、准确率等。,并根据商业模型的认可率进一步部署模型在线决策的门槛,而模型应用后的坏账分布则根据用户群体的贷后表现来体现。当然,这里通过对存量数据的分析得出的坏账率在业务上是可以接受的,否则不会提前确定型号审批的通过率范围。

在风控预测模型的实施和应用中,通过模型的用户中必然会有少部分好用户。假设30%的申请人被模型拒绝,70%通过模型的用户需要接受坏账表现。其实还有一种方法可以确定模型的拒绝阈值,那就是逆向考虑模型应用的决策思路。如果用户群的坏账率没有超过某个阈值,可以根据这个阈值对应的模型概率值进行决策批准。比如模型决策后样本坏账率的最高阈值坏账率预计为10%,对应的模型预测概率值p=0.7,那么模型决策条件是当概率值p & gt=0.7.在这种情况下,需要明确的是,被拒绝的样本用户比例在商业上也是可以接受的。这时候如果模型有更好的差异化效果,用户的坏账率可以保持在一定的范围内,通过率也可以大幅提高,自然有利于商家的整体营收。

围绕以上实际业务背景,本文将介绍下一个模型在模型评估中应用的策略分布曲线的意义,对进一步比较不同模型的效果有很好的借鉴作用。为了便于理解和分析,我们将通过建立多个具有特定样本数据的模型,绘制出各自的策略分布曲线,从而实现对模型应用效果的定量评价。

1、例题样本介绍

本文选择的建模样本数据包含10000个样本和22个字段,一些数据样本如图1所示。其中,ID是样本的主键,表示用户申请的订单号;X01~X20是特征变量池,每个字段的含义是用户在不同维度的信息。除了变量X03和X06的分布类型,其他X变量都是标准化的数值型数据。y为目标变量,代表用户贷后表现的好坏,取0/1分别为好/坏用户,对应的分配比例如图2所示。

编辑

添加图片评论,不超过140字(可选)

图1示例建模数据

编辑

添加图片评论,不超过140字(可选)

图2示例建模数据

2.XGBoost模型构造。

根据上述建模样本数据和目标分布,采用XGBoost二元分类算法构建应用的信用风险模型,即通过特征变量X01~X20的数据拟合目标变量Y,实现模型对目标用户的预测和分析。由于XGBoost算法不能直接支持分类变量的输入,因此在模型训练之前需要对特征X03和X06的值类型进行转换。这里采用的是通用特征onehot编码方法。具体实现过程参见知识星球编码详情,输出特征X06编码结果如图4所示。

编辑

添加图片评论,不超过140字(可选)

图4特征编码结果

围绕特征编码后的数据,现在可以用XGBoost算法训练拟合模型。这里,通过使用相同的模型算法和不同的参数组合来相继建立三个模型。区分的参数是n_estimators(树的数量)、max_depth(树的深度)和learning_rate,每个参数的具体值如图5所示,其他未列出的参数默认保持统一。

编辑

添加图片评论,不超过140字(可选)

图5模型训练参数

因为以上模型V1~V3的算法是一样的,所以模型训练和评估的过程是完全一致的。这里以模型V1的建模过程为例,模型训练和模型评估的实现分别可以在知识星球代码的细节中找到。

根据模型V1训练拟合的性能结果(KS=0.4581,AUC=0.7290),可以看出当前模型在区分方面表现良好。另外,将建模样本的预测概率值的分布保存到数据集pred1_Y_proba中,将为后续的模型策略曲线绘制提供数据,模型V2与模型V3相同。按照上述建模过程,通过调整模型训练的参数组合,可以最终得到各个模型的性能指标,如图8所示。

编辑

添加图片评论,不超过140字(可选)

图8模型性能比较

通过上述模型的性能指标结果,我们可以直观的了解到,模型V1的拟合效果最好,在精度、KS、AUC等维度都表现良好。我们还确定模型V1是一个相对优越的模型,这也是我们通常采用的模型评价方法。接下来,在对该模型进行定量分析的情况下,主要介绍利用模型策略曲线来衡量模型效果的定性方法。核心思想是以模型预测概率值的等间隔作为模型的决策阈值,依次得到对应样本组的坏账率分布,从而判断不同分位数的阈值作为业务可接受的拒收样本比例,观察通过用户群的坏账大小。如果以这种方式呈现多个模型,将有助于模型应用效果的对比分析。

模型策略的绘制主要取决于模型的预测概率分布,如模型V1的pred1_Y_proba,模型V2和V3也是如此。这里以模型V1为例,模型策略曲线的实现过程可以在知识星球代码的细节中找到,输出的可视化曲线结果如图10所示。

编辑

添加图片评论,不超过140字(可选)

图10战略曲线的可视化

上图所示的模型V1策略曲线,表示业务中可接受用户比例对应的坏账率分布。例如,当接受60%的用户通过时,将预测概率的60%分位数的阈值P作为模型拒绝阈值,通过用户对应的坏账率badrate约为30%。从这个策略曲线分布中,可以直观地了解模型应用的通过率与坏账率之间的关系,便于模型决策审批策略的制定,这也是模型策略分布曲线的价值所在,可以进一步衡量模型的综合效果。根据上面V1模型的策略分布曲线的绘制过程,我们可以用同样的方法很容易地得到V2和V3模型的策略曲线,具体结果如图11所示。

编辑

添加图片评论,不超过140字(可选)

图11模型策略曲线对比

从V1~V3模型的判别策略曲线结果可以清楚地看出,V1模型的判别效果最好。假设80%的用户可以通过该服务,那么80%的积分对应的各个型号的坏账率最低,其次是型号V2和型号V3。在最终选择模型应用时,自然会考虑模型V1,即在现有的几个模型版本中,在保证一定通过率的前提下,坏账率可以相对最低。根据策略曲线分析,模型效果有好有坏,与之前模型绩效用模型指标衡量的结论一致(图8),从模型应用的角度进一步验证了模型的综合绩效。

基于上述内容,我们围绕具体的实际业务背景和建模样本数据,建立了多个信用风险评估模型,并着重介绍了利用模型策略分布曲线衡量模型性能的意义,对多角度分析模型的应用效果具有较好的参考价值。为了便于您进一步理解和熟悉使用策略分布曲线来衡量模型的效果,本文附上了与上述内容同步的python代码和样本数据。详情请到知识星球查看相关内容。

编辑切换到中心

添加图片评论,不超过140字(可选)

编辑

添加图片评论,不超过140字(可选)

编辑切换到中心

添加图片评论,不超过140字(可选)

...

~原创文章

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。

原文地址"风险决策分析方法中最优的是,风险决策中应用最广效果最显著的方法":http://www.guoyinggangguan.com/xedk/189519.html

微信扫描二维码关注官方微信
▲长按图片识别二维码