第13卷㊀第9期Vol.13No.9㊀
智㊀能㊀计㊀算㊀机㊀与㊀应㊀用
IntelligentComputerandApplications
㊀2023年9月㊀
Sep.2023
㊀㊀㊀㊀㊀㊀
文章编号:2095-2163(2023)09-0103-08
中图分类号:F426.471;F724.6;TP183
文献标志码:A
基于线性回归和神经网络模型二手车交易价格预测分析
郑爱萍1,李彬彬1,郭传好1,2
(1浙江理工大学经济管理学院,杭州310018;2浙江理工大学浙江省生态文明研究院,杭州310018)
摘㊀要:二手车市场发展和需求潜力巨大,二手车价格的制定是影响和制约二手车市场发展的一个重要因素,因此构建一个合理有效的二手车交易价格预测模型十分亟需和重要㊂本文以58同城二手车交易平台数据为基础,分析相关数据的含义及其关联性并对数据进行清洗与处理,分别建立多元线性回归和神经网络二手车交易价格预测模型,并以平均相对误差,准确率等评价指标评估分析了模型的性能㊂研究结果表明:基于对数归一化处理数据的预测模型具有更高的精度和稳定性;与多元线性回归预测模型相比,神经网络预测模型具有更好的精度和稳定性㊂相关研究成果对于指导二手车交易价格的合理制定和二手车市场的健康良性发展具有重要的意义㊂
关键词:二手车交易;价格预测;线性回归;神经网络;平均相对误差
Predictionandanalysisforsecond-handcartransactionprice
basedonlinearregressionandneuralnetworkmodels
ZHENGAiping1,LIBinbin1,GUOChuanhao1,2
(1SchoolofEconomicsandManagement,ZhejiangSci-TechUniversity,Hangzhou310018,China;2ZhejiangAcademyofEcologicalCivilization,ZhejiangSci-TechUniversity,Hangzhou310018,China)
ʌAbstractɔThedevelopmentanddemandofsecond-handcarmarkethasgreatpotential,andthepriceofsecond-handcarisanimportantfactorthataffectsandrestrictsthedevelopmentofsecond-handcarmarket.Therefore,itisurgentandimportanttobuildareasonableandeffectiveusedcartransactionpricepredictionmodel.Basedonthedataof58.comusedcartradingplatform,themeaningandcorrelationofrelevantdatawereanalyzed,andthedatawerecleanedandproces
sed.Multiplelinearregressionandneuralnetworkusedcartradingpricepredictionmodelswereestablishedrespectively,andtheperformanceofthemodelswasevaluatedandanalyzedwiththeaveragerelativeerror,accuracyandotherevaluationindicators.Theresultsshowthatthepredictionmodelbasedonlogarithmicnormalizationhashigheraccuracyandstability.Comparedwiththemultiplelinearregressionpredictionmodel,theneuralnetworkpredictionmodelhasbetteraccuracyandstability.Therelevantresearchresultsareofgreatsignificancetoguidethereasonableformulationofsecond-handcartradingpricesandthehealthydevelopmentofsecond-handcarmarket.
ʌKeywordsɔsecond-handcartrading;priceforecasting;linearregression;neuralnetwork;meanabsolutepercentageerror
基金项目:浙江理工大学研究生教育教学改革研究项目(YJG-M202008);2021年度浙江省教育厅一般科研项目(Y202148252);广州市科学
技术局2020年科技创新发展专项资金(202002030119)㊂
作者简介:郑爱萍(1999-),女,硕士研究生,主要研究方向:运筹与优化;李彬彬(1998-),男,硕士研究生,主要研究方向:供应链管理与优
化;郭传好(1980-),男,博士,讲师,硕士生导师,主要研究方向:运筹与优化㊂
通讯作者:郭传好㊀㊀Email:guo-ch@163.com收稿日期:2022-10-07
0㊀引㊀言
中国汽车流通协会数据资料显示,二手车市场的年交易量从2000年的25万辆增加到2021年的
二手汽车网1769万辆,21年间增长了约70倍,市场发展和需求潜力巨大㊂2022年1月21日国家发展改革委等七个部门联合发布了 促进绿消费实施方案 ,该方案指出要积极发展二手车经销业务,进一步扩大二手车流通㊂二手车因其 一车一况 的特殊性,比一般的商品定价要复杂和困难,如品牌㊁车系㊁动力㊁行驶里程㊁受损情况㊁维修情况以及新车价格都会对二手车价格的制定带来影响,国家目前亦
没有出台评判二手车资产价值的统一标准㊂因此,研究二手车的不同定价模型及价格预测方法,对于二手车市场价格的合理制定和二手车市场的健康发展具有重要的意义㊂
二手车定价方法的研究成果不多,且主要集中于传统的资产评估方法㊂冯秀荣等[1]利用分析法得出影响二手车价值的重要因素是使用时间和里程;童佳等[2]指出二手车评估和传统资产评估的方法一样,根据不同的评估目的㊁价值标准和业务条件可分为收益现值法㊁重置成本法和清算价格法;王传杏等[3]基于特征价值理论,利用多元线性回归建立了特征价格评估模型;程晓军[4]重置成本法中对成新率的权重系数,对二手车价格进行了更为全面的评估㊂
随着大数据和机器学习的快速发展,相关的数据分析和统计预测方法亦被越来越多的学者应用于经济管理问题的研究之中㊂林建吾等[5]利用轻量化卷积神经网络对番茄病害进行图像识别;丁飞等[6]基于神经网络模型对房价进行预测;
Pudaruth[7]研究了品牌㊁车型㊁容积㊁公里数等多个因素与价格的关系,应用了包括k近邻㊁多元线性回归和决策树模型对毛里求斯的汽车价格进行预测;Gegic等[8]建立了一个预测波斯尼亚和黑塞哥维那的二手车价格预测模型,分别使用了人工神经网络㊁支持向量机和随机森林3种机器学习技术,该模型具有较好的预测效果,但模型的训练仅基于1105个样本,模型的普适性有待
提高;毛攀等[9]基于BP神经网络建立了二手车价格评估模型,模型的可靠性与样本数量关系重大;郑婕[10]提出了基于随机森林和XGBoost(eXtremeGradientBoosting)算法的二手车价格预测模型,但该模型是基于启发式算法,得到的定价解为局部最优而非全局最优;Arefin[11]采用决策树㊁支持向量机等机器学习方法对特斯拉二手车汽车进行研究,结果表明增强决策树模型的预测效果最好;FWang等[12]使用Python中的自动特征处理工具与超参数优化方法对不同机器学习算法进行训练,发现使用极端学习树与随机森林算法训练的模型预测能力较好㊂
中国关于二手车交易价格预测的相关研究成果相对较少,存在模型特征量选择少㊁数据样本信息不足等问题㊂本文深入分析探讨影响二手车交易价格的因素,建立二手车交易价格的多元线性回归预测模型和神经网络模型;为了改进模型的预测性能,同时利用自然对数对原数据进行数据处理,进而建立相应的预测模型㊂为了评估不同模型的预测性能,基于58同城二手车交易平台部分数据进行了相关的数值测试分析,结果表明经过自然对数处理数据集的神经网络模型具有较好的预测结果,对于二手车交易市场中价格的制定和预测以及二手车交易市场的健康发展具有重要的指导意义㊂
1㊀数据来源与分析
1.1㊀数据来源
本文利用的样本数据采集于2021年58同城二手车交易平台的30000∗36的数据量,数据主要包括车辆基础信息㊁交易时间信息㊁价格信息等,共计36个特征变量,有15个变量AF1-AF15匿名变量,相关变量字段的信息见表1㊂
表1㊀数据集特征信息
Tab.1㊀Featureinformationofdataset
序号特征名含义序号特征名含义
1carid车辆id12registerDate注册日期
2tradeTime展销时间13licenseDate上牌日期
3brand品牌id14country国别
4serial车系id15maketype厂商类型
5model车型id16modelyear年款
6mileage里程17displacement排量
7color车辆颜18gearbox变速箱
8cityId车辆所在城市id19oiltype燃油类型
9carCode国标码20newprice新车价
10transferCount过户次数21price二手车交易价格(预测目标)
11seatings载客人数22AF1-AF1515个匿名特征
401智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀
1.2㊀数据分析
为了便于对数据的理解和方便建模,本文对数据集的每个特征变量及数值含义进行简单的解释和说明,发现汽车的 展销时间 与交易价格之间没有显著的关系,但 注册日期 和 上牌日期 与 二手车交易价格 之间有较明显的正向关系;在对 展销时间 和 注册日期 两列特征数据进行处理后,发现车辆的 使用时间 与 二手车交易价格 亦是直接相关的,与一般的交易情况亦是符合的,4个特征变量与交易价格的关系图如图1中所示㊂
50403020100
上牌日期
价格(a)上牌日期与二手交易价格关系图
50403020100
展销时间
价格(b)展销时间与二手交易价格关系图
2004200620082010201220142016201820202022
5040302010
注册日期
价格(c)注册日期与二手交易价格关系图
50403020100
使用时间
价格0100020003000400050006000
(d)使用时间与二手交易价格关系图
图1㊀汽车上牌,展销,注册及其使用时间与二手交易价格的关系图Fig.1㊀DiagramofrelationshipbetweenlicenseDate,tradeTime,
registerdate,unsetimeandprice
㊀㊀本文使用的数据集中还包含15列匿名特征,其中 匿名11 特征下的数据为字符型数据,无法准确判断其性质特征,为了减少不正确变量选择对模型效果的影响,故对 匿名11 特征及其数据进行删除处理㊂ 匿名12 是一组表示为长∗宽∗高的数据,将其理解为车辆外观尺寸的表达形式,车辆的大小与车长和轴距有关,且在未知轴距的情况下,可将车长作为区分车辆大小的重要指标㊂为了数据处理和建模的方便,基于数据集本文将车辆区分指标划分见表2,同时将相关数据均转换为数值型数据㊂
表2㊀车辆大小指标与数据赋值
Tab.2㊀Vehiclesizeindicatoranddataassignment车长/mm车辆大小赋值0,3700[]
微型车13700,4300](小型车
24300,4600](紧凑型车34600,4900](中型车44900,5100](中大型车55100,+¥)
(豪华车6
㊀㊀对数据缺失值进行检查分析,检查结果如图2
所示,横坐标为其在整个数据集中所占的比例,纵坐标为含有缺失值的特征名称,黑部分表示该特征中所含缺失值的计数,本文以缺失值占比20%为分界线,即缺失值在整体数据中占比超过20%,则将该特征删除,否则使用该特征下数据的平均值对相关缺失值部分进行补充,即对缺失过多且会影响数据细节的缺失值进行剔除,对含缺失值较少的特征,在保证数据细节不受影响的前提下使用相关数据进行补充,如均值插补等,避免大量剔除缺失数据导致数据量不足㊂
未缺失值
缺失值
国标码
国别厂商类型
年款变速箱匿名1匿名4匿名7匿名8匿名9匿名10匿名11匿名13匿名15
20
4060
80
100
相关因素
图2㊀含缺失值的特征及其缺失值占比
Fig.2㊀Featureswithmissingvaluesandtheproportionofmissing
values
㊀㊀此外,本文使用箱形图分析数据集的离散情况,
01第9期
郑爱萍,等:基于线性回归和神经网络模型的二手车交易价格预测分析
并判断数据集中是否存在离点(异常值)㊂异常值的处理以 二手车交易价格 为重点特征,即在
二手车交易价格 这一特征中存在异常值㊂为了提高所建立模型的普适性,在对异常值处理时本文允许存在离程度不大的异常值,但对极端异常值所在行进行剔除,相关结果如图3中所示㊂
100000
80000
60000
40000
20000
1
图3㊀二手车交易价格箱形图
Fig.3㊀Boxplotoftransactionprice
㊀㊀二手车交易价格分布直方图和自然对数处理后分布直方图如图4所示㊂由图4(a)可知,此时二手车交易价格数据分布呈现一个近似正偏的正态分布;如图4(b)所示,为了降低数据分布不规范对建立模型结果的影响,利用自然对数对二手车交易价格数据进行变换处理,进而可得到一个数据分布较规范的二手车交易价格数据集㊂
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0102030405060计
价格
(a)二手车交易价格分布直方图
0.6
0.5
0.4
0.3
0.2
0.1
01234
价格
(b)自然对数处理后的二手车交易价格分布直方图
图4㊀二手车交易价格分布直方图和自然对数处理后分布直方图Fig.4㊀Histogramoftransactionpriceanditsnaturelongarithm㊀㊀对初始数据集预处理,最终得到一个29319∗28的数据集,其中对该数据集的描述性统计分析结果见表3㊂
表3㊀二手车交易数据的描述性统计结果
Tab.3㊀Descriptivestatisticsoftransactiondataset
里程过户次数载客人数年款排量新车价格匿名12使用时间pricecount293192931929319293192931929319293192931929319mean7.2007430.5076575.1117712014.4491.91064526.757923.
6634262114.25612.85006std4.3872820.7926870.6554833.186960.51827720.248351.0002161130.5559.384155min0.010220040.652.681540.0525%3.960520121.513.68312065.9850%6.610520151.821.68419551075%9.61152017232.9942886.517.5max44.7410920216.4259.86630552
㊀㊀首先,在数据集中一部分特征的数据属于分类赋值的离散数据,但无法得知其确切的含义,如假设 品牌 与 二手车交易价格 是正相关的,可以得出:当 品牌 的数值越大时, 二手车交易价格 也就越大,但由于不知道特征 品牌 数值的具体含义,没办法对这组关系进行更深入的分析,故而在模型的建立与求解中虽仍将这部分特征引入模型,但不再分析其结果的具体意义;其次,本文视里程和使用时间为汽车的使用程度,其他几个特征视为汽车自身的情况,在汽车使用程度中平均行驶里程为7.20个单位,最大行驶里程为44.74个单位,即大部分车辆的使用程度都较低,其平均使用时间为2114.26天,结合平均行驶里程可知,展销的二手车具有里程短,使用时间长等特点,符合二手车的商品特征;再次,平均过户次数为0.51次,且至少50%的车辆都未经过过户,说明在这些展销的二手车中大部分都是新车购车车主将该车辆作为二手车转售的,平均载客人数和平均车辆大小均说明展销的二手车主体是更经济适用的中等大
601智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀
小㊁可载客5人的车辆;最后,平均新车价格为26.76万元,但平均二手车成交价格为12.85万元,跌幅明显,即汽车作为不保值商品,在二次售卖时价格会有较大幅度的下降,从新车价格分布中可以看出,大部分展销出售的二手车在一开始购买时75%的汽车新车售价为35万以下,即二手车交易市场的流通主体是售价偏大众的经济型汽车㊂
2㊀建模与分析
为了建立二手车价格的预测模型,本文先对数据集中的28个特征进行了相关性分析,并给出相关系数热力图,如表4和图5中所示㊂表4给出了与二手车交易价格呈现相关性最大的前8个特征变量及其相关系数大小,可知新车价格对二手车交易价格的影响最为显著,相关影响系数为0.8101;其它对二手车交易价格影响较大的特征是排量㊁匿名
12㊁匿名2㊁匿名8㊁年款㊁厂商类型及使用时间,其中使用时间对二手车交易价格的影响呈现负相关性㊂图5中各个特征变量标签的释义见表1,越靠近蓝代表正相关性越强,越靠近红则代表负相关性越强,即颜越深的区域的相关系数的绝对值越接近1,此时两个特征变量越相关㊂
表4㊀二手车交易价格与部分特征的相关系数
Tab.4㊀Correlationcoefficientbetweentransactionpriceandsomecharacteristicvariables
新车价格排量匿名12匿名2匿名8年款厂商类型使用时间交易价格0.81010.49450.49380.48050.45280.41180.40690.3894
1.0
0.8
0.6
0.4
0.2
-0.2
-0.4
-0.6
-0.8
-1.0
图5㊀特征相关系数热力图
Fig.5㊀Heatmapofcorrelationcoefficient2.1㊀多元线性回归模型
基于特征变量的相关性分析结果,以 二手车交易价格 为因变量,建立多元线性回归预测模型㊂在0.1显著性水平下,对模型检验分析发现: 里程 ㊁ 过户次数 和 使用时间 3个特征变量与 二手车交易价格 呈现负相关性,而且这些特征变量也可作为车辆使用程度的描述,即车辆使用的程度越高,该车辆作为二手车售卖时成交的价格就越低㊂同时, 二手车交易价格 同 载客人数 ㊁ 排量 ㊁
新车价格 和 匿名12 呈现显著正相关性㊂为了保证模型的显著性效果,筛去与 二手车交易价格 相关性较低的特征变量,最终得到二手车交易价格预测回归模型如式(1):
㊀price=189500-0.1297mileage-0.03475cityid+
0.161carcode-0.2443country+
2.496maketype+0.2664modelyear+
1.637displacement+0.03597gearbox+
0.2513newprice+0.2226AF2-
0.01353AF5+0.6202AF8+
0.7258AF12+0.001799AF13-
0.002595usetime(1)其中,特征变量的含义见表1㊂
利用自然对数变换处理过的特征变量数据集具有较好的分布特征和度量性质,因此利用自然对数对所有特征变量数据进行处理,并对处理后的数据进行多元线性回归建模,对数变换函数如式(2):ln(Y+1)=ð27i=1βilnX(i+1)+ε(2)㊀㊀其中,Xi为特征变量,即表1中所示的变量;ε为回归的误差;βi是回归方程系数;Y为二手车价格㊂同理,在相同显著性水平下,可得此时回归预测模型如式(3):
price=24600-0.07811brand-0.009047model-0.05659mileage-0.0144color-
0.01893cityid-0.1902carcode+
0.01161transfercount-1885country+
0.1773maketype+148.9modelyear+
0.1252displacement+0.01447gearbox+
0.9023newprice-0.2165AF1+
0.06671AF2+0.01778AF5+
0.02268AF6-0.07573AF8-
0.1109AF12-13.12AF13-
0.1907usetime(3)
701
第9期郑爱萍,等:基于线性回归和神经网络模型的二手车交易价格预测分析