摘要
中国汽车产业随着经济的飞速发展而发展,中国已成为世界排名第一的汽车消费市场和世界最大的消费潜力市场。汽车产销量增长对汽车金融形成明显的带动效应,中国的汽车金融渗透率从五年前的13%提升到了目前将近40%。随着汽车金融渗透率的提升,对风险控制能力的要求也越来越高,相关企业也开始将科技手段与汽车金融风险控制相结合。由于汽车贷款的标的金额较高,驱动骗贷机构伪造资料或哄骗无信用记录人通过分期购车的形式获得车辆,再将汽车通过非法途径进行转让。因此对于购车人的反欺诈风险识别成为目前风险控制的关键点。
本文利用互联网金融公司用户的样本数据,探讨机器学习技术在反欺诈模型上的应用情况,研究客户的相关特征,提出建立反欺诈规则的建议。建立在工业界比较认可的逻辑回归模型,并将它作为标准。建立支持向量机、Adaboost、XGBoost反欺诈模型,介绍各类模型的主要参数,探索最优的参数组合来优化模型效果。结合机器学习分类模型的评价指标,对比各个模型性能,最后得出结论:XGBoost在本次研究中模型效果最优,模型性能相比于逻辑回归有较大提升。最后结合特征分析与反欺诈模型为企业建立反欺诈体系提供参考,并对未来反欺诈体系发展进行展望。
关键字:汽车金融;反欺诈;机器学习;逻辑回归;XGBoost
ABSTRACT
China's auto industry has developed with the rapid development of the economy. China has become the world's number one auto consumer market and the world's largest consumer potential market. The growth of automobile production and sales has a significant driving effect on auto finance. China's auto finance penetration rate has increased from 13% five years ago to nearly 40%. With the increase of automobile financial penetration rate, the requirements for risk control ability are getting higher and higher, and related enterprises have begun to combine technology and automobile financial risk control. Due to the high amount of the car loan, the driving fraud agency falsified the information or swindled the creditless recorder to obtain the vehicle through the phased purchase of the car, and then transferred the car through illegal means. Therefore, the identification of anti-fraud risk for car buyers has become the key point of current risk control.
This paper uses the sample data of Internet finance company users to explore the application of machine learning technology on the anti-fraud model, study the relevant characteristics of customers, and propose the establishment of anti-fraud rules. Establish a logistic regression model that is more recognized in industry and use it as a standard. Establish support vector machine, Adaboost, XGBoost anti-fraud model, introduce the main parameters of various models, and explore the optimal combination of parameters to optimize the model effect. Combined with the evaluation in
dex of machine learning classification model, the performance of each model is compared. Finally, it is concluded that XGBoost has the best model effect in this study, and the performance of the model is greatly improved compared with logistic regression. Finally, the feature analysis and anti-fraud model are used to provide reference for the establishment of anti-fraud system, and the future anti-fraud system is expected to develop.
Keywords: Auto Finance,Anti-fraud,Machine Learning,Logistic regression,XGBoost
目录
摘要..................................................................................................................................... I ABSTRACT .......................................................................................................................... I I 第一章绪论.. (1)
1.1研究背景 (1)
1.2研究意义 (1)
1.3文献综述 (2)
1.3.1 国外研究文献综述 (2)
1.3.2 国内研究文献综述 (2)
1.3.3 问题的提出 (3)
1.4研究思路与方法 (3)
1.5研究技术路线图 (4)
第二章相关理论 (5)
2.1汽车金融及反欺诈相关理论 (5)
2.2机器学习相关算法 (5)
2.2.1 逻辑回归 (6)
2.2.2 支持向量机 (7)
2.2.3 决策树 (9)
2.2.4 Bagging与Boosting (11)
2.2.5 随机森林 (11)
2.2.6 AdaBoost (12)
2.2.7 XGBoost (13)
2.2.8 机器学习分类模型的评价指标 (16)
第三章数据介绍与特征工程 (20)
3.1数据介绍 (20)
3.2特征工程 (20)
3.2.1 数据清洗 (21)
3.2.2 连续变量的处理 (21)
3.2.3 分类变量的量化处理 (21)
3.2.4 特征选择 (22)
3.2.5 重要特征分析 (23)
第四章模型训练与优化 (26)
4.1模型建立与模型选择 (26)
4.1.1 逻辑回归模型 (26)
4.1.2 支持向量机模型 (30)
4.1.3 Adaboost模型 (32)
4.1.4 XGBoost模型 (34)
4.2模型对比与分析 (36)
第五章总结与展望 (40)
世界汽车排名
5.1总结与建议 (40)
5.2不足与展望 (40)
参考文献 (42)
附录1 部分数据 (44)
致谢 (45)
第一章绪论
第一章绪论
1.1 研究背景
中国的汽车产业随着经济的飞速发展而发展,中国汽车工业协会的调查数据显示,2017年我国汽车销量为2912.25万量,已经连续九年位居世界第一。与2016年相比,我国在2017年汽车销售增长了3.90%。我国的汽车销量从2014年以来就一直保持在2300万以上,销量增长平均速度保存在4%以上。2018年前8个月汽车产销量达到1813万辆,同比增长2.77 %,中国已成为世界第一的汽车消费市场和世界最大的消费潜力市场。
汽车生产和销售量的增长对汽车金融具有重要的推动。“中国汽车工业年鉴”称,2017年中国汽车信贷规模超万亿元。咨询公司罗兰贝格在他的“2018年中国汽车金融报告”[1]中指出,中国的汽车金融渗透
率(汽车金融产品销售额占总销售额的比例)从五年前的13%增加到今天的40%,在2020年这一比例预计将超过50%。2017年,中国银行业监督管理委员会公布了“关于调整汽车贷款有关政策通知”,降低了贷款购车的首付比例要求。传统和二手车贷款最低比例降到30%,新能源汽车降到15%。但是这个比例不是强制性的,只是提供给各金融机构作为参考。金融租赁和业务的“零首付”产品也在不断涌现,尽管有些以处理费、管理费、佣金等形式变相收取的,但它也在市场上形成了一定的宣传和集客效应。
随着汽车金融渗透率的提升,对企业风险控制能力的要求也越来越高,相关企业也开始将科技手段与风险控制相结合。贷前风控是对购车人还款能力和信用状况的评价。目前行业普遍使用经典评分卡方式对是否放款进行决策。由于汽车金融存在抵押物,因此即便在借款人失去偿还能力的情况下仍可回收较高贷款余值。
目前大量企业均采用“两证一卡”方式进行市场宣传获客。由于汽车贷款的标的金额较高,驱动骗贷机构伪造资料或哄骗无信用记录人通过分期购车的形式获得车辆,再将汽车通过非法途径进行转让。一些欺诈性机构甚至与汽车经销商勾结,直接骗取金融机构放款。因此贷前风控的关键并不在信用审批而是反欺诈,对于购车人的反欺诈风险识别成为目前风险控制的主要难点。
1.2 研究意义
本文就是利用机器学习的方法,结合汽车金融公司客户的真实信用信息,分析相关变量,为建立反欺诈规则提供建议;利用重要特征变量建立客户反欺诈模型,介绍各类机器学习算法的主要参数,使用机器学习库工具探索最优参数组合,完善反欺诈模型,为汽车金融公司建立反欺诈体系提供参考;
提高公司识别不良客户的能力,减少汽车金融业务遭遇欺诈带来的损失。
1