2019年第6期
信息与电脑
China Computer & Communication
算法语言
基于XGBoost 算法分析影响二手车拍卖价的因素
周瑞凯
(武汉理工大学,湖北 武汉 430070)
路虎事件摘 要:随着国家对二手车市场的进一步开放和“互联网+”的大力推广,C2B 模式下的二手车拍卖网站快速发展。二手车市场被认为是汽车产业链上的最后一片蓝海。近年来,很多投资纷纷入驻二手车行业。笔者根据车系、车况等级、车龄、行驶里程、新车指导价、排放标准、过户情况和拍卖人数等特征,构建了基于XGBoost 算法的二手车拍卖价格预测模型,分析了各特征对拍卖价格的影响。
关键词:XGBoost;二手车;拍卖价格
中图分类号:F426.471;TP181  文献标识码:A  文章编号:1003-9767(2019)06-054-03
Analysis of Factors Affecting the Auction Price of Used Vehicles Based on
XGBoost Algorithms
Zhou Ruikai
(Wuhan University of Technology, Wuhan Hubei 430070, China)
Abstract: With the further opening of the second-hand car market and the vigorous promotion of "Internet +", the second-hand car auction website under the C2B mode has developed rapidly. The used car market is considered to be the last blue sea
in the automotive industry chain. In recent years, many investments have entered the second-hand car industry. According to the characteristics of car system, vehicle condition grade, vehicle age, driving mileage, guidance price of new car, emission standard,
轮胎排名 米其林transfer situation and auction number, the author constructs a prediction model of used car auction price based on XGBoost algorithm,
and analyses the influence of each feature on auction price.
Key words: XGBoost; used car; auction price
0 引言
奇瑞qqme二手车市场被认为是汽车产业链上的最后一片蓝海。近几年,很多投资纷纷入驻二手车行业。在这股发展浪潮中,二手车网上交易蓬勃发展。二手车网上交易中,机动车拍卖市场的潜力尤为突出。商务部流通业发展司统计数据显示,2018年上半年,国内机动车拍卖成交额达56.72亿元,平均每月成交额近10亿元[1]。中国拍卖行业协会统计数据显示,2017年,共有528家拍卖企业参与了机动车拍卖活动,成交量20.93万台,其中线上拍卖量超过了交易量的50%[2]。
1 二手车拍卖价格影响因素分析
现有文献中,影响二手车价格的因素主要包括保值率、车况条件和车况等级等。本文的模型特征选取中,选择了传统研究常用的车龄和行驶里程等特征,保值率方面通过车辆所在车系进行体现,添加的其他特征为新车指导价格、排放
标准、过户情况、拍卖人数和车况等级。
2 数据获取及处理
2.1 数据获取
随着移动互联网的快速发展,人们对网络的使用愈发频繁。用户日常应用互联网的过程中,会产生大量数据。本文采用网络爬虫技术挖掘国内某二手车网站的数据。例如,车辆基本情况:兰德酷路泽16款4.0 L;车况等级:二级;行驶里程:52 600 km;排放标准:国V;有无过户:无;参拍人数:57人;车龄:2年;新车指导价:77.1万;拍卖价:57万。2.2 数据处理2.2.1 特征信息提取
特征信息提取主要是解决原始数据中存在的一些过于复
作者简介:周瑞凯(1992—),男,广西桂林人,硕士研究生。研究方向:车辆工程。
杂的文字信息,或者文字信息与数字信息同时出现的情况。这些特征过于复杂,以致建模时无法进行有效分类。信息提取完成后,对各特征进行索引编码,即0-车系、1-车况等级、 2-新车指导价、3-车龄、4-千米数、5-排放标准、6-参拍人数、7-过户情况和8-拍卖价。2.2.2 缺失值处理
樱花雪论坛
数据采集过程中,由于爬虫程序问题或网站数据缺失等,可能导致缺失值。对于缺失值,可采用均值、中位数和众数等方法进行数据填充。2.2.3 数据标准化
数据标准化主要针对连续型数据,主要目的在于消除不同量纲对结果的影响。本研究所涉及的数据特征包括拍卖价、拍卖人数、千米数、车龄和新车指导价,均是连续型数据。对这几个变量进行标准化处理,即计算特征矩阵中列的均值及方差,将所得结果带入式(1):  x X
x S
−′=
 (1)
其中,x 为特征矩阵的列,X —
为x 的均值,S 为标准差。2.2.4 数据哑编码
哑变量又称虚拟变量,是人为设定的一种变量,目的在于反应自变量的不同属性对因变量产生的影响。本研究所涉及的数据中,车系、车况等级是多属性变量,排放标准、过户情况是二分类变量。将
大迪都市威菱
这四种特征进行数据量化处理后,使用OneHotEncoder 模块进行哑编码处理。
3 XGBoost 建模
3.1 XGBoost 算法简介
XGBoost是Xtreme Gradient Boosting的简称,是boosting  算法的一种[3]。XGBoost 算法可看作GBDT 算法的一个变种,其是在GBDT 算法的基础上,通过正则化项的加入,降低了模型的过拟合风险,提高了模型的精准性。3.2 建模流程
将处理好的数据导入编辑器中,使用XGBoost 模块中的DMatrix 模块,将数据编译成XGBoost 模型可读的数据。将编译后的数据导入模型中,进行初步建模。建立模型后,模型往往不能取得良好的预测效果,需要调整模型中的超参数。XGBoost 模型中的超参数主要包括学习率、最大深度、子模型的数量、Gamma 值、最小权重、Subsample 和Colsample。调参主要应用GridSearchCV 模块。通过网格搜索方式,对比参数每次变化后模型平均方差的大小,选取最佳参数。平均方差越小,参数越优。通过交叉验证方法验证模型。拟合效果如图1所示,其中,绿线是真实值,红线为
预测值。
图1 拟合效果
4 特征重要性分析奥迪a4价格
通过XGBoost 中的plot_importance 模块和matplotlib 模块,绘出建模过程中每个特征对于目标函数的重要度,如图2
所示。
图2 建模过程中各特征的重要性
第一,车系。其体现了消费者购买二手车时最看重车系在市场中的认可度,比如车辆燃油经济性认可度、车辆保值率认可度等。这一特征体现了市场决定消费的理念。
第二,是否有过户情况。其体现了消费者在购买过程中非常看重车辆是否为一手车源。如果车辆经过多次交易,会增加判断车况的难度,例如车内装饰是否经过翻新等。
第三,车况等级。车况等级主要由拍卖平台通过专业的鉴定机构综合评判得出。此特征在建模过程中的重要程度体现了购车者对拍卖平台的信任程度。
第四,千米数。此特征在二手车估价过程中是非常重要的一个特征,从侧面反映了车况。但是,此次建模过程中,千米数排在了车况等级之后,显示了网站综合车况评级更能综合反映车辆的具体车况。
第五,车龄。此特征和千米数具有相同点,都可以从一方面反映车辆的车况,但信息不全面。
(下转第59页)
4 结 语
网络入侵检测要求在线和实时性,特征太多会导致计算量大,为解决该问题,针对传统粒子算法的不足,笔者提出一种鲶鱼粒子算法选择最优特征子集的网络入侵检测检测模型,并采用支持向量机分类算法,采用KDD Cup 99数据集进行性能测试。结果表明,EPSO-SVM的入侵检测速度和检测率均得到了提高,更适用于现实高速网络应用环境。
参考文献
[1]Ganapathy S,Jaisankar N,Yogesh P,et al.An Intelligent Intrusion Detection System Using Outlier Detection and Multiclass SVM[J].International Journal on Recent Trends in Engineering & Technology,2011,5(1):30-45.
[2]Farid D M,Darmont J,Harbi N,et al.Adaptive Network
I n t r u s i o n D e t e c t i o n L e a r n i n g:A t t r i b u t e S e l e c t i o n a n d C l a s s i f i c a t i o n[C]// Proceedings of World Academy of Science,Engineering and Technology,2009(60):154-158.
[3]孙宁青.基于神经网络和CFS特征选择的网络入侵检测系统[J].计算机工程与科学,2010,32(6):37-39.
[4]张雪芹,顾春华.一种网络入侵检测特征提取方法[J].华南理工大学学报(自然科学版),2010,38(1):81-85.
[5]杨雅辉,姜电波,沈晴霓,等.基于改进的GHSOM 的入侵检测研究[J].通信学报,2011,32(1):121-126.
[6]牟琦,毕孝儒,库向阳.基于GQPSO算法的网络入侵特征选择方法[J].计算机工程,2011,37(14):103.
[7]龚明朗,许榕生.一种改进的PSO算法在网格入侵检测系统中的研究[J].计算机应用与软件,2011,28(3):274-278.
[8]段丹青,陈松乔,杨卫平,等.使用粗糙集和支持向量机检测入侵[J].小型微型计算机系统,2008,29(4):627-630.
[9]黄会,孙虹.粒子选择特征和信息增益确定特征权值的入侵检测[J].计算机应用,2014,34(6):1686-1688.
[10]闫新娟,谭敏生,严亚周,等.基于隐马尔科夫模型和神经网络的入侵检测研究[J].计算机应用与软件,2012, 29(2):294-297.
[11]姜春茂,张国印,李志聪.基于遗传算法优化SVM 的嵌入式网络系统异常入侵检测[J].计算机应用与软件,2011, 28(2):287-289.
[12]杨世杰,龙丹,周庆标.基于CEPSO-LSSVM的煤炭消费量预测模型[J].计算机工程与应用,2013,49(18):108-111.
[13]南杰琼,王晓东.改进惯性权值的粒子优化算法[J].西安工程大学学报,2017,31(6):835-840.
[14]Chuang L Y,Tsaj S W,Yang C H.Catfish Particle Swarm Optimization[C]//2008 IEEE Swarm Intelligence Sympo sium,St.Louis,2008:1-5.
[15]Ganapathy S,Yogesh P,Kannan A.An Intelligent Intrusion Detection System for Mobile Ad-Hoc Networks Using Classification Techniques[J].Communications in Computer and Information Science,2011,148(11):117-122.
[16]刘冬冬,王峰,牛磊,等.特征选择和分类器优化耦合的网络入侵检测[J].计算机工程与应用,2013,49(20):87-90.
第六,其他特征的重要性相对较弱。拍卖人数、新车指导价和排放标准等特征,在建模过程中的重要性不高,反映了当前购车者选购二手车时,认为新车指导价已不能完全体现车辆的现有价值,而更注
重车辆的综合情况。由于国内对车辆的排放标准严格限制在一线大型城市,因此排放标准的重要性并不明显。拍卖人数特征中,人数的多少不能体现拍卖质量的高低,或者参拍者想通过参与拍卖观察车市价格的细微变化。
5 结 语
二手车市场正处在蓬勃发展中。二手车电商已经开始冲击传统线下同城的二手车交易模式。本文借助XGBoost算法,使用传统估价特征与新兴特征相结合的方式,建立了一个二手车网上拍卖价格预测模型。通过分析建模过程中各特征的重要度,得出现阶段人们购买二手车时所看重的特征,可为企业的后期发展中提供一定数据和理论支撑。
参考文献
[1]中国拍卖行业协会,商务部流通业发展司.中国拍卖行业发展报告(2017)[EB/OL].(2018-04-18)[2019-03-25]. /frontnc06NewsContentAction.do?method= previewContent&ID=13914.
[2]中国拍卖行业协会.中国机动车拍卖市场统计年报 [EB/OL].(2018-10-16)[2019-03-25].wemedia.ifeng. com/82377164/wemedia.shtml.
[3]Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[C].// The 22nd ACM SIGKDD International Conference,2016.
(上接第55页)