Statistics and Application 统计学与应用, 2023, 12(1), 17-24 Array Published Online February 2023 in Hans. /journal/sa
/10.12677/sa.2023.121003
基于多元线性回归新能源汽车销量
影响因素研究
陈龙
上海理工大学,上海
收稿日期:2023年1月9日;录用日期:2023年1月29日;发布日期:2023年2月13日
摘要
随着当今世界科技的快速发展,汽车行业也随之飞速发展。在带给人们出行便利的同时,燃油车对于世界上不可再生资源的消耗以及其对环境的恶劣影响,人们不得不选择更加经济环保的新能源汽车,其中以纯电动汽车发展的最为迅速。现在人们在买车时都会考虑新能源汽车,这对新能源汽车企业来说既是
机遇又是挑战。本文通过2021~2022年我国主流新能源汽车的销量统计,利用多元线性模型进行线性回归,来分析影响新能源汽车销量的几个因素,主要有价格、充电时间、百公里能耗及电池类型等因素,并通过异方差检验以及多重共线性检验来验证模型的可行性。最终通过标准化回归模型来出对销量影响的最主要因素是电池充电时间,为新能源汽车企业以及消费者提供一定的帮助。
关键词
新能源汽车,异方差,多重共线性检验,销量
Research on Influencing Factors of New
Energy Vehicle Sales Based on Multiple
Linear Regression
Long Chen
University of Shanghai for Science and Technology, Shanghai
Received: Jan. 9th, 2023; accepted: Jan. 29th, 2023; published: Feb. 13th, 2023
Abstract
With the rapid development of science and technology in today’s world, the automobile industry
陈龙
also develops rapidly. While bringing convenience to people’s travel, due to the consumption of non renewable resources in the world and its adverse impact on the environment, people have to choose more economical and environmentally friendly new energy vehicles, among which pure electric ve-hicles are developing most rapidly. Now people will consider new energy vehicles when buying cars, which is both an opportunity and a challenge for new energy vehicle enterprises. Based on the sales statistics of China’s mainstream new energy vehicles from 2021 to 2022, this paper uses the multiple linear model for linear regression to analyze several factors affecting the sales of new energy ve-hicles, mainly including price, charging time, 100 km energy consumption and battery type, and ve-rifies the feasibility of the model through heteroscedasticity test and multiple collinearity test. Fi-nally, the standardized regression model was used to find out that the most important factor affect-ing the sales volume was the battery charging time, so as to provide some help for new energy ve-hicle enterprises and consumers.
Keywords
New Energy Vehicles, Heteroscedasticity, Multicollinearity Test, Sales Volume
Copyright © 2023 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
/licenses/by/4.0/
1. 引言
随着社会的发展,当今世界的汽车产业也随着时代飞速发展。汽车产品的快速发展给人们的生活带
来了极大的便利。但随着传统燃油车对于能源的消耗以及其排放物对于环境的污染,已经很难满足当今
世界人与自然和谐相处、绿发展等理念,使其慢慢退出历史舞台[1]。因此,更加环保节能的新能源汽
车更加受到人们的青睐,国家也对于新能源汽车的发展创造了极好的环境,各种新能源汽车新兴品牌应
运而生,对于一个企业的发展,其产品的销量必然是最重要的评价指标。
过往的论文对于新能源汽车销量的研究很多,主要方法主要有王小璇的基于LSSVM (Least Square
SVM)的新能源汽车销量研究[2],白一凡的基于SARIMA (Seasonal Autoregressive Integrated Moving Av-erage)和BP神经网络的新能源汽车销售预测,以及张娟的基于朴素贝叶斯和SARLMA (seasonal ARIMA model)的新能源汽车销量预测研究等方法[3]。以前的研究方法的研究样本众多,数据对结论的影响很小,但是对于销量的研究时间线太长可能会导致数据的不准确性,可变因素的增多,进而影响结论的预测研究。
本文拟对当今市面上常见的新能源汽车品牌的销量进行研究分析,数据来源于各大网站及各个汽车
的消费者数据,主要集中在2021~2022年的数据,时间线较短,对数据的影响减小,创新点在于采
用多元线性回归模型对汽车的销量进行分析,本文在此基础上对最初的模型假设作异方差检验和多重共
线性检验,来确保模型的可行性以及准确性,研究影响其销量的各个因素以及其中最为重要的因素[4]。
2. 多元线性回归
在现实世界中,变量之间大多为不确定关系,两个变量之间的非确定性关系也称为相关关系。在数
理统计中,研究变量间各种相关关系的分析方法称为回归分析,常见的回归分析有一元线性回归和多元
线性回归。考虑到影响新能源汽车销量的因素有很多,所以采用多元线性回归分析。
陈龙
设有k 个自变量123,,,,k X X X X  所对应的每个观测值分别为12,,,i i ik X X X  ,以及因变量y 对应的观测值y i 满足关系式:
0,1,2,,;1,2,,i j ij i i
Y x i n j k ββε=++==∑
其中0β和j β为未知待估计的参数,i ε为无法观测且满足一定条件的误差项。
3. 新能源汽车销量影响因素分析
3.1. 新能源汽车销量常见影响因素
新能源汽车已经成为现代人买车必然会考虑的方向,但是市面上的新能源汽车品牌众多,对于消费者的购买来说也是一个极大的考验。不同的消费者在自己购买车辆时考虑的方面虽然会有所不同,但是总体考虑的几个方面都是相同的。本文根据各类汽车论坛用户讨论的结果,将影响新能源汽车销量的因素主要归纳为以下几种,分别是汽车的价格、行驶里程、充电时长、百公里能耗以及一些汽车的常规参数电池类型、车辆产地和车型。电池类型主要分为磷酸铁锂电池和三元锂电池两类,产地主要是国产新能源汽车和进口合资汽车,车型按照汽车轴距的大小,分为A 、B 、C 三种类型[5]。
本文根据在各类汽车论坛,出在2021.03~2022.03时间段之间我国市场主流的几十款车型的销量数据,并且根据网站上购买该车的用户反映以及品牌方提供的数据出了每一款车型的价格、行驶里程、充电时长、百公里能耗以及汽车的电池类型、车辆产地和车型等信息。根据这些信息作为自变量,来与因变量销量进行回归性分析,进而得出影响新能源汽车销量的因素以及其中最为重要的因素,来对新能源汽车企业的发展作出参考。
3.2. 多元线性回归模型的建立
基于以上对于影响新能源汽车销量主要因素的分析,我们便可以对其各种影响因素做多元线性回归模型分析。我们可以把影响新能源汽车销量的各个变量分为定量指标和定性指标,对于其值会在一定范围内变化的变量称为定量指标,对于其范围在几个不同类型之间的变量称为定性指标[6]。对于这两种指标的分类见下表1。
Table 1. Overview of eight indicators 表1. 八个指标的总体情况介绍
变量类型
变量名称 说明
定量指标
销量 反映顾客对产品的关注度 价格
数据位于3.28~45.67之间 续航里程 数据位于170~620之间 充电时间 数据位于75~651之间 百公里能耗 数据位于7.4~21.38之间 定性指标
电池类型
共两类:磷酸铁锂和三元锂 产地 共两个:国产和进口 车型
共三款:A 、B 、C
首先,对于定量指标,我们记各品牌新能源汽车的销量为因变量y ,记各车型的价格为x 1,各车的电池续航里程为x 2,每次从0开始充电所需要的时间为x 3,各车的百公里能耗为x 4。
在研究定性指标时,我们为了研究汽车的电池类型、产地以及汽车的大小类型是否会对汽车的销量
陈龙
造成比较大的影响,我们记电池类型为x 5,汽车产地为x 6,及汽车大小类型为x 7。由于这些变量没有具体的数据,我们引入虚拟变量。分别设置汽车电池为磷酸铁锂电池、汽车产地为国产及汽车车型为A 型
的变量为对照组,其余的变量为虚拟变量。即当样本是虚拟变量时,我们对其回归系数取1,当其为对照组时,我们取其回归系数为0。在加入控制变量后,我们就能够对定性指标作回归性分析。
首先我们假设以上的八个变量与新能源汽车的销量都服从多元线性回归模型:
0112277i y x x x ββββε=
+++++  其中0β为常数,17-ββ为各个因素的回归系数,i ε为扰动项。2月汽车销量
首先我们对影响销量的定量指标即每一款车型的价格、行驶里程、充电时长、百公里能耗作描述性统计,利用MATLAB 软件,所得结果如下表2。
Table 2. Descriptive statistics 表2. 描述性统计结果
变量 销量 价格 续航里程 充电时间 百公里能耗
最小值 11344    3.28 170 75 7.4 最大值 417731 45.67 620 651 21.38 均值 55904.263 17.983684 484.44737 123.60526 14.654737 中位数 33002.5 14.735 500 116.5 14.45 峰度    3.7309717    1.0730988 −0.722799    5.4379781 0.0485609 偏度 18.063228    3.7190377    3.6884 32.396654    4.4409158 标准差
72610.3
9.4097998
100.84285
90.240981
2.4637071
从描述性统计的结果我们可以看出,研究样本销量的均值大概为55904辆,样本的价格平均为15万元左右等相关信息。以及与销量有关的各种指标的最值、均值及标准差等数据,让我们对数据的分析有宏观的认识。
对于定性指标,我们使用STATA 软件分别新能源汽车的电池类型、车辆产地及车型大小描述性统计。分别设置汽车电池为磷酸铁锂电池、汽车产地为国产及汽车车型为A 型的变量为对照组,其余的变量为虚拟变量。各个变量的描述性统计结果如下表3、表4、表5。
Table 3. Descriptive statistics of battery type 表3. 电池类型的描述性统计结果
电池类型 数量 频率 累计频率 磷酸铁锂电池 14 36.84 36.84 三元锂电池 24 63.16 100 总计
38
100
100
Table 4. Descriptive statistical results of automobile origin 表4. 汽车产地的描述性统计结果
产地 数量 频率 累计频率 国产 32 84.21 84.21 进口    6 15.79 100 总计
38
100
100
陈龙
Table 5. Descriptive statistics of vehicle size 表5. 车型大小的描述性统计结果
车型大小
数量 频率 累计频率 小 17 44.74 44.74 中 15 39.47 84.21 大    6 15.79 100 总计
38
100
100
要想分析出对于销量影响的重要变量,还需要进行多元线性回归分析。因此我们对此模型进行方差分析。假设原假设:
00127
:0H ββββ=====  其中多元线性回归的回归方法采用最小二乘估计法,利用其去寻求对每一个自变量的回归系数,其中最小二乘法原理记:
()
()2
017011771
,,,n
i i i i Q y x x ββββββ=  =−+++  ∑
在我们设置原假设的基础上使用OLS 及普通最小二乘估计法进行回归方程的显著性检验,方差分析结果见表6。
Table 6. ANOVA results 表6. 方差分析结果
Source SS df MS F(8, 29) = 13.68 Model    1.54E+11 8    1.93E+10 Prob > F = 0.00 Residual    4.09
E+10 29    1.41E+09 R-squared = 0.7905 Total    1.95E+11
37
5.27E+09
Adj R-squared = 0.7327
利用STATA 对影响销量的定量变量和定性变量进行回归分析,首先对七个自变量前的回归系数进行联合显著性检验,其P 值等于0.00,小于0.05,所以根据P < 0.05可以得出在95%的置信水平下拒绝原假设。
其中对于多元线性回归的拟合优度的求解需要先计算回归平方和,误差平方和以及总体平方和,计算公式如下:
()2
1ˆSSR n
i i y
y ==−∑ ()2
1ˆSSE n i i i y y
==−∑ ()
2
1
SST n
i i y y ==
−∑
据此,我们可以得出回归系数()1,2,,7i i β= 不会全部为0的。由方差分析结果,我们得到回归平方和SSR = 1.54E+11,残差平方和SSE = 4.09E+10,总离差平方和SST = 1.95E+11 [7]。根据:
2SSE
1SST
R =− ()()
2
adjusted SSE 11SST 1n k R n −−=−