数据驱动的汽车金融风险评估研究
作者:文/ 张亮
来源:《时代汽车》 2020年第18期
    张亮
    上汽通用五菱汽车股份有限公司 广西柳州市 545007
    摘 要:现有的常用风险评估算法主要基于逻辑回归分析,存在难以处理大量多类特征,非线性能力缺失等问题,基于集成学习的多源融合算法能够在大数据驱动下有效解决这些问题,完成个人贷款的风险评估。
    关键词:大数据 多源融合 风险评估
    Research on Risk Assessment of Auto Finance Driven by Big Data
    Zhang Liang
    Abstract:The existing commonly used risk assessment algorithms are mainly based on logistic regre
ssion analysis, and there are problems such as difficulty in handling a large number of multi-type features and lack of nonlinear capabilities. Multi-source fusion algorithms based on integrated learning can effectively solve these problems under the drive of big data and fulfill risk assessment of personal loans.
    Key words:big data, multi-source fusion, risk assessment
    1 研究背景
    随着“互联网大数据+金融”的不断发展,汽车信贷规模不断扩大,车辆贷款违约风险也随之增大。因此,对个人贷款的信用风险评估迫在眉睫。个人信用风险评估的数据核心来源于贷款申请人在申请过程中提供的基本信息,以及汽车贷款机构收集和补充的附加信息,以此对个人信用分析进行全面调查,并采用逻辑回归分析等分类方法或技术将贷款申请人划分为“低风险客户”与“高风险客户”,以便降低贷款机构的坏账率[1]。由于贷款机构与贷款申请人之间的数据鸿沟造成信息不对称,如何对个人信用风险进行评估已成为学术界以及汽车、金融等行业极具研究价值的问题。
    2 基于集成学习的多源融合风险评估算法
    算法以多源融合为核心,大数据为驱动完成个人风险评估模型的搭建。包括以下步骤:首先对采集到
的数据进行预处理;然后通过预处理之后的样本数据训练集成模型,输出特征权重;并进一步构建出个人信用风险评分卡(风险评估模型);最后对用户风险评分进行分析,确定高风险与低风险区间的分数阈值。整体的算法流程见图1。
   
    3 风险评估算法流程
    风险评估算法的具体流程如图2所示:
   
    步骤一:数据预处理;如图2中的虚线部分,由贷款申请者和贷款机构收集的数据存在数据缺失和数据异常等情况;在预处理阶段,对原始数据进行数据清洗和核对[2],并经过特征向量的相关性分析筛选出强独立性的特征,特征间的相关系数[3]如式1所示:
   
   
   
上汽通用汽车金融   
    步骤四:确定分数阈值;分析用户的得分与对应标签的匹配程度,寻用户风险程度(高风险、低风险)最佳划分的分数阈值。
    本文使用的数据集如表1所示:
   
    子模型与集成模型的训练正确率如表2所示:
   
    由表2中各模型的正确率对比可知,集成模型能够筛选出训练效果较好的子模型,综合不同算法模型的优点,提高算法的正确率和鲁棒性。
    个人信用风险评分卡如表3所示:
   
    用户得分的整体分布如图3所示:
   
    由图3可知,用户的得分主要集中在60-75分段,其中70-75分段人数最多,因此阈值的初始值选取应该在60-75之间,通过分数阈值的不断迭代更新,得到用户风险评估的最佳划分[10]如表4所示:
   
    由表4可知,选定的分数阈值为65和75,即用户的得分在75分以上是认定为低风险的好用户,得分在65以下认定为高风险的坏客户,得分在65-75之间时进行人工审核。
    4 结论
    本文提出的风险评估算法采用多模型融合的方式,通过子模型的集成优化克服了传统方法在处理大量多类特征时因为非线性程度太高而难以拟合的情况,通过大量数据的训练提高了风险评估模型的正确性和泛化性,且随着采集数据的增加,模型能够进行实时更新;在贷款申请初期,能够有效判定高风险与低风险用户,大幅度降低人工审核成本。
    基金:基于5G通讯及C-V2G,柳州市科技计划项目;项目号:2019AG10202
    参考文献:
    [1]Louzada F, Ferreira-Silva P H,Diniz C A R.On the impact of disproportional samples in credit scori-ng models:An application to a Brazilian bank data[J],Expert Systems with Applications,2012,39,9:8071-8078.
    [2]周寿彬.基于反常扩散模型的个人信用风险评估方法[J].统计与决策,2016(13):65-68.
    [3]姜志旺,张红霞,郑艳娟.基于BP神经网络模型的互联网金融信用风险评估研究[J].黑龙江科技信息,2017(16):338.
    [4]郑建国,李新.基于SVM模型的企业信用风险评估研究[J].企业科技与发展,2020(05):220-221+224.
    [5]王妍.基于随机森林的信用评估特征选择[J].黑龙江科学,2019,10(14):159-161.
    [6]李佳蓉,蒋艳莉,汤礼媛.基于BP神经网络的P2P网贷个人信用风险评估[J].时代金融,2019(24):105-106.
    [7]赵兴朝. 基于BP-PSO-AdaBoost模型的P2P网贷借款人信用风险评估研究[D].西南财经大学,2018.
    [8]胡贤德,曹蓉,李敬明,阮素梅,方贤.小微企业信用风险评估的IDGSO-BP集成模型构建研究[J].运筹与管理,2017,26(04):132-139+148.
    [9]夏克钢.商业银行融资租赁业务分析和风险控制研究[J].财经界(学术版),2020(16):84-85.
    [10]孙川.车贷风险控制平台的设计与实现[D].北京交通大学,2019.