您好,欢迎您来到国盈网!
官网首页 小额贷款 购房贷款 抵押贷款 银行贷款 贷款平台 贷款知识 区块链

国盈网 > 小额贷款 > 互联网金融风控模型,互联网金融的风控手段有哪些?

互联网金融风控模型,互联网金融的风控手段有哪些?

小额贷款 岑岑 本站原创

编者按:本文来自Dianrong.com旗下微信官方账号点融帮(微信号:DianrongMafia),作者为Dianrong.com高级数据分析师甘华来。曾在Ebay和携程从事数据分析和机器学习工作,专注于统计学和机器学习研究以及大数据风控体系建设。本文探讨:在互联网金融时代,如何借助互联网思维,利用机器学习方法建立高效、安全的大数据风控体系?

随着互联网的发展,互联网金融成为目前最热门的话题,包括支付、理财、众筹、消费等各种互联网金融产品和平台如雨后春笋般涌现。互联网金融是传统金融业与互联网精神相结合的新领域,是传统金融业的有效补充。因此,互联网金融的健康发展应该遵循金融业的基本规律和内在要求,核心仍然是风险控制。

传统金融的风险控制主要是基于央行的信贷数据和银行体系内的生态数据,通过人工审核。在国内征信服务远未完善的情况下,互联网额度风控的真正核心在于依托互联网可以获得的大数据。比如BAT等公司有大量的用户信息,可以用来更全面的预测小额贷款的风险。机器学习将是互联网金融公司在大数据时代构建自动化风控体系的利器。

1.什么是机器学习?

机器学习这个词相信大家都不陌生,尤其是近年来机器学习的领军人物与互联网的大鳄联姻(见图1),更是进一步推动了大众追求机器学习、探索其在互联网行业应用的热情。

图1:机器学习的领军人物与互联网的大鳄(加拿大多伦多大学教授、“谷歌大脑”负责人杰弗里·辛顿)的联姻;Yann LeCun,纽约大学教授,脸书人工智能实验室主任;安德鲁·吴(Andrew NG),斯坦福大学副教授,百度首席科学家,百度大脑负责人。)

那么,什么是机器学习呢?机器学习这个词是英文名称“Meaching Learning”的直译。从字面上不难知道,这项技术使计算机能够自主学习,所以它是人工智能的一个分支。我个人更喜欢汤姆·米切尔在《机器学习》一书中对它的定义:

如果一个计算机程序在某项任务T和某项性能指标P上的性能(用P来衡量)随着经验E的增加而提高,则称该程序从经验E中学习

有很多关于机器学习的具体概念和介绍的信息。有兴趣的可以去看看,这里就不赘述了。简而言之,机器学习方法就是计算机利用已有的数据(经验)得出某种模型,并利用该模型预测未来的方法。这种方法与人类的思维方式非常相似(见图2)。换句话说,机器学习的主要目的之一就是将人类思考和归纳经验的过程转化为计算机处理和计算数据以得到模型的过程。

图2:机器学习和人类思维的比较

2.机器学习算法的类型

一般来说,机器学习算法可以分为监督学习、非监督学习、半监督学习、强化学习和推荐。各部分常见应用场景和算法见图3。

图3:机器学习算法的分类

3.机器学习在互联网金融行业的应用

在企业数据的应用场景中,最常用的模型是监督学习和非监督学习。金融业中一个自然而典型的应用是在风险控制中对借款人进行信用评估。因此,互联网金融公司依托互联网获取用户的网络消费行为数据、通信数据、信用卡数据、第三方征信数据等丰富全面的数据,可以通过机器学习的方式为互联网金融公司构建大数据风控体系。

除了贷前的信用审查,互联网金融公司还可以在传统金融公司做不到的放贷过程中,利用机器学习监控借款人的还款能力,对那些可能无法及时还款的人进行提前干预,从而减少坏账带来的损失。以Dianrong.com为例,经过两年的发展,我们积累了大量的用户还贷信息,为我们提供了高质量的模型训练样本,为我们搭建点融的大数据自动化审批系统打下了坚实的基础。除了自动审批系统,我们还将在用户还款能力实时监控、标的有效组合、资产合理配置等方面下功夫。

目前互联网金融企业和第三方征信公司在信用评估方面的常用框架是规则引擎加信用评分卡。说到信用评分卡,最常用的算法是逻辑回归,也被银行信用卡中心或金融工程视为法宝。事实上,逻辑回归因其简单、易于解释、开发和运营成本低而受到追捧。而从互联网上获取的用户数据维度很多,大多是离散或分类的属性变量,存在很多缺失数据。在这种情况下,Logistic回归的适应性会很差。而且,将规则引擎与信用评分卡模式分离的模式,有时会因为规则引擎中的某些规则过于强大而拒绝很多优质客户。举个例子,如果某人在刚毕业的时候没有及时偿还助学贷款,按照现有的银行审批规则,无论现在发生什么情况,他都会拒绝申请信用卡。因此,较好的改进方法是将规则引擎作为一系列弱分类器,与信用卡评分分类器一起形成强分类器模型。在这方面,GBDT将是一个不错的选择。

Gbdt(梯度推进决策树)也叫MART(多重可加回归树)。这种模型不是像决策树模型那样只由一棵决策树组成,而是由几棵决策树组成,通常是几百棵,每棵树都很小(也就是树的深度会很浅)。模型预测时,会先给一个输入的样本实例一个初值,然后遍历每棵决策树,每棵树对预测值进行调整和修正,最后得到预测结果。

f(x)+β_ 1t _ 1(x)+β_ 2t _ 2(x)+⋯+β_m TM(x)

其中F_0是设置的初始值,T_i是决策树(弱分类器)。

GBDT和SVM一起被认为是一种泛化能力很强的算法。近年来,由于其在搜索排名和推荐中的广泛应用,引起了人们的关注。例如,雅虎、易趣等大型互联网公司都采用GBDT进行搜索排名。在国内,我在携程工作的时候,用GBDT算法预测酒店noshow和延期入住,每年给公司带来几千万的收入。该项目是携程以技术驱动业务发展的典型代表。

GBDT作为一种boosting算法,自然包含了boosting的思想,即把一系列弱分类器组合起来,形成一个强分类器。它不要求每个分类器学习太多,只要求每个分类器学习一点知识,然后把这些学习到的知识加起来,形成一个强大的模型。

4.分类模型的性能评估

除了上面提到的逻辑回归和GBDT,还有决策树、SVM、随机森林等等。在实际应用中,不仅要知道我们会选择这些模型,还要知道如何评价和监控所选模型的性能。

评价分类模型涉及的性能指标有很多,比如混淆矩阵、ROC、AUC、召回率、性能、Lift、Gini、K-S等等。事实上,这些指标是相互关联和互操作的。在实际应用中,你只需要选择其中的几个或者你认为重要的,不需要全部关注。下面以Logistic回归为例,对这些常见的指标做一些简单的解释,方便大家理解和应用。

注:以下描述均以信用评分中的好用户和坏用户为例。坏客户(坏人)标为1(也叫正例),好客户(好人)标为0(也叫反例)。

1)混淆矩阵

一个完美的分类模型是,一个客户实际上属于一个不良类别,模型也将其预测为一个不良的人,甚至在它实际上是一个好人的时候将其预测为一个好人。但实际情况是模型做不到这一点,也就是常说的模型会出现误判,所以我们必须知道有多少模型是对的,有多少是错的,混淆矩阵包含了所有这些信息。

注意:

a是正确预测的阴性病例数,真阴性(TN)b是正确预测的阴性病例数,假阳性(FP)c是正确预测的阳性病例数,假阴性(FN)d是正确预测的阳性病例数,真阳性(TP)a+b是实际阴性病例数。实际负数a+d是实际价格中正数的数量,实际正数a+c是预测负数的数量,预测负数b+d是预测正数的数量,预测正数2)准确性。

准确率=(真正真负)/合计=(a+d)/(a+b+c+d)

3)错误率(错误分类率)

错误率=(假阳性和假阴性)/总数=(c+b)/(a+b+c+d)

4)召回(正面案例覆盖)

回忆,也叫敏感,在机器学习中更叫回忆,敏感是生物统计学中的俗称。

回忆=(真阳性)/(实际阳性)/(c+d)

5)性能也叫精度(正例的命中率称为命中率)

绩效=(真正值)/(预测正值)/(b+d)

6)特异性(阴性病例覆盖率)

特异性=(真阴性)/(实际阴性)/(a+b)

7)负预测值(负案例命中率)

负预测值=(真负)/(预测负)/(a+c)

召回和性能在工业应用中普遍受到重视。以信贷审批为例,我们更关心的是在一定的审批率下,尽可能降低坏账率。

8)中华民国

ROC曲线是不同阈值下的灵敏度和1-特异性的组合,ROC曲线是根据与45度线的偏离来判断模型好不好。

图4: ROC图

9)联合自卫军和GINI

曲线下面积

GINI=2AUC-1

10)幼儿园

用于测量好的和坏的总体分布之间的最大差异(敏感性-特异性),其中KS值是统计学意义上的最佳分界点。

图5: KS图

5.结论

简要介绍了什么是机器学习,机器学习的常用算法,Dianrong.com利用机器学习构建大数据风险控制体系的探索,以及分类模型的性能评价指标。机器学习听起来很高大上。在实际工作中,盲目炒作概念的人往往会夸大机器学习所能起到的作用,或者盲目追求高深复杂的算法。我个人的看法是,一方面机器学习是一种科学的方法,可以帮助我们提高现阶段的工作效率,另一方面我们可以用简单的方法解决问题,千万不要为了高大上而选择复杂的方法。毕竟算法没有区别。最后,希望更多的同学加入到统计学和机器学习的研究中来。

本文由读者投稿,不代表36Kr立场。

“看完这篇文章还不够吗?如果你也在创业,想让你的项目被举报,请戳这里告诉我们!”

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。

原文地址"互联网金融风控模型,互联网金融的风控手段有哪些?":http://www.guoyinggangguan.com/xedk/216227.html

微信扫描二维码关注官方微信
▲长按图片识别二维码