AUTO AFTERMARKET | 汽车后市场
顾洪建 张帆 万甜甜 张衡
中国汽车技术研究中心有限公司 中汽研(天津)汽车信息咨询有限公司 天津市 300300
摘 要: 为了在“互联网+大数据+人工智能+区块链+物联网”高度信息化的社会精准预测汽车销量,本文首先利用词图、维特比等算法对汽车评价内容进行分词操作来获取关键词语;其次利用朴素贝叶斯分类器的方法对分词的结果进行计算,获得每条评论内容的情感指数;再次利用Norton模型的三代产品模型结合情感指数来组成拟合模型,同时利用最小二乘原理估计拟合模型的参数;最后利用估计的参数结合某款汽车的评论数据以及每个季度的汽车销量来验证模型,验证结果的准确性高达91.29%。
基于此模型,企业可进行车型的销量预测,为合理规划生产和战略布局提供参考和依据。
关键词:词图 维特比 情感指数 朴素贝叶斯 Norton模型 最小二乘法
1 引言
一直以来汽车都是我国国民经济重要的支柱产业,改革开放以来,我国汽车产业快速发展,技术水平稳步增强,现已成为世界较大的汽车市场。精准的预测汽车销量不但可以为汽车产业的营销提供有力支撑,而且还有利于管理、生产、采购、物流等计划流程的优化。此外,销量预测还可以在一定程度上为车企获得健康持续发展的源动力提供保证。从今年市场表现来看,在疫情最严重的2月,我国汽车行业的生产和销售基本处于停滞状态,成为拉低全国经济指标的最主要因素。我国工业增长值同比增长速度和汽车同比增速及日均产量,均受疫情影响出现断崖式的波动,因此精准预测汽车销量对国民经济健康有序发展具有一定的推动,对十四五规划起到决定性作用[1-2]。
当下,人们以帖子、论观点等形式表达和分享对各种主题的看法。这些评论和看法通常会透露出个人情感,例如幸福、愤怒、
悲伤、批评和称赞,并且潜在的消费者可以
浏览产品的公众意见,从而做出购买决定。
在过去近十年里,网站评论内容传达的情感已
经通过情感分析技术转化为正向评价(正向情
感)和负向评价(负向情感)的二分类问题,
进一步带动了自然语言处理的发展与进步[3]。
Norton模型的诞生是以Bass模型为基
础,但是Norton模型更符合当前的市场,因
为当新一代产品出生之后,老一代产品并不
会立刻消失、消亡,它会和新产品共存一段时
间,新一代产品的影响力是一个逐渐向四周扩
散的过程。同时新一代产品的影响力影响力获
得包括两个方面:一方面是从上代产品的影响
力转移过来,另一个方面是由于新产品本身的
先进性而新创造的市场影响力。汽车产品的更
新迭代非常符合这种趋势,因此本文采用一种
“情感分类器结合Norton模型预测汽车销量”
的方法来预测短时间内的汽车销量。
2 研究路线
本文研究内容主要分为四个部分,第一
部分是数据的采集以及数据的预处理;第二
部分是利用机器学习方法对线上评论的数据
进行情感分类(积极因素和消极因素);第
三部分利用情感分类的结果结合Norton模型
拟合新的模型;第四部分利用拟合后的模型
对数据进行预测及分析,本文具体的结构图
如下图1所示。汽车报价
2.1 数据采集及预处理
2.1.1 数据采集
数据采集收集了两种类型的数据,即评
论数据和产品的历史销售数据。销量数据可
以在各个产品的或者国家统计局上
面获取。
2.1.2 分词处理
对评论内容的分词采用的方法是基于
python语言结合词图、节点之间距离以及维
特比算法来进行分词,分词结果如下表1所示。
上海大众新poloSentiment Classifier Combined With Norton Model to Predict Car Sales
Gu Hongjian,Zhang Fan,Wan Tiantian,Zhang Heng
Abstract: I n order to accurately predict the sales of cars in a highly informatized society of "Internet + Big Data + Artificial Intelligence + Blockchain + Internet of Things", this article first uses word graphs, Viterbi and other algorithms to segment the car evaluation content to obtain the keywords; secondly, the article uses the naive Bayes classifier method to calculate the result of word segmentation to obtain the sentiment index of each review content; thirdly the article uses the three-generation product model of the Norton model combined with the sentiment index to form a fitting model, while the principle of the square method is used to estimate the fifteen parameters of the fitting model; finally, the estimated parameters are combined with the review data of a certain car and the car sales of each quarter to verify the model; the accuracy of the verification results is as high as 91.29%. This model can basically meet the actual forecasting needs, and can provide reference and basis for the reasonable production planning of the enterprise.
Key words: w ord graph, Viterbi, sentiment index, naive Bayes, Norton model, least square method
AUTO TIME 165
166
AUTO TIME
AUTO AFTERMARKET | 汽车后市场
2.1.3 筛选关键词语的频数
经过2.1.2小节分词后,会存在很多无意义的词存在,比如“的”、“呀”、“很”等词语,然后对其余词语进行词频统计,比如“我很喜欢这个车型,对里面的配置也很喜欢,开着它会让我感到很快乐和高兴,它是我的兄弟以及好朋友,我建议大家都可以来购买这个很不错的车”这句话经过分词处理以及剔除无意的词语,最后得到的关键词语词频如下图2所示[3-5]。
图2 关键词语词频
我很喜欢这个车型,对里面的配置也很喜欢,开着它会让我感到快乐和高兴,它是我的兄弟以及好朋友,我建议大家都可以来购买这个很不错的车。
2.1.4 确定情感词语词库
要计算评论内容的情感分类要使用情感词典,本文在众多情感词典中选用更具权威性的CNKI,即2007年10月22日知网发布“情感分析用词语集(beta 版)”的情感词典,在本文中情感类别主要分为两类(正面评价和)。
2.2 情感分类
在情感分类器中,选择朴素贝叶斯作为情
感分类器,朴素贝叶斯是一种概率型分类器,对一个评论内容来说,贝叶斯分类器会返回给
后验概率最大的情感类别,情感类别用表示,即C+和C-分别表示正面评价的类别和的类别。根据朴素贝叶斯原理,可以用如下公式计算每条口碑的情感类别[3-5]
,如下公
式(1)所示。
1
arg (log(())log(
)log(()))
n c mac P C P D n
k
++
−+∑∑ (1)
如果有k 条评论,那么公式(1)可以改
为公式(2)。
1
1
arg (log(())log(
)
log(()))
n
ij i k c C j ij
j
n c mac P C P D n
k
∧
∈=+=+−+∑∑(2)
假设通过每个时间段t 需要计算评论情
感,那么情感指数Q(t)由下式(3)计算:
()sgn()tm m
金华市交警网Q t q c =∑ (3)
其中,m 为t 时间段评论的次数,q tm 经过朴素贝叶斯公式得到,sgn 为二值化函数,如果c 为-1,sgn(c)=-1;如果c 为1,sgn(c)=1;Q(t)为计算后的情感指数。
2.3 拟合模型
拟合模型指的是利用2.2小节计算的情感指数结合Norton 模型,利用最小二乘法估计的参数拟合模型,使得这组参数保证拟合的结果与实际结果的差值最小。
2.3.1 模型原理介绍
Norton 模型是以Bass 模型为基础拓展起来的,Bass 模型假定潜在的消费者可以分为两类,即创新者和模仿者,并且Bass 模型的一般形式如下:Bass 模型一般形式如下式(4)所示:
2()()2()()[]p q t
p q t p p q e s t m
p qe −+−++=+
(4)
其中,s(t)为时间段t 结束时前消费者的数量,m 是潜在购买量的总数, p 表示创新体系数(且0<=p<=1),q 表示模仿体系数(且0<=q<=1),公式(4)可以看出,
知道了m、p、q 的值,就可以预测t+1时间段内消费者的数量,因为s(t)不是产品的销售量,但是可以根据消费者利用的频率间接估算产品的销售量,在现实生活中汽车是耐用消费品,因此此内容提取的情感时费者的数量可以视为产品销售量[6-9]。
评论区指数可被可被用来表示消费者对该产品的个人偏好。如果该产品获得消费者更多赞誉与肯定(正面评价),并且这种积
极的肯定将影响潜在的消费者积极购买该产品;同样如果该产品获得了消费者的更多批评与否定(),并且这种消极的否定也会影响潜在的消费者放弃购买该产品,转向其他的竞品产品;因此模仿体的购买决策时间会受到社会系统成员之间的相互影响。
夏利tj7101基于上面分析可知模仿体系数q 与消费者对该产品的情感指数有关,因此模仿体系数q 可以看作是感指数Q(t)的函数,
如下公式(5)所示。
q=f (Q(t))
(5)
Verhulst 于1983年根据WOM 理论提出来的模仿体系数q 与情感指数Q(t)呈现S 型曲线,当情感指数Q(t)为正向评价时,q 的值随着Q(t)的增加而增大,并且 q 的二阶导数随着Q(t)的增加先增加后减少;当情感指数Q(t)为负向评价时,q 的值随着Q(t)的增加而减小,并且q 的二阶导数随着
Q(t)的增加先增加后减少。
2.3.2 模型参数求解
2.3.1小节介绍了Norton 模型的原理以及参数,本小节将介绍普通最小二乘法求解模型的参数,因为Norton 模型是三代产品模型。普通最小二乘法(OLS)是回归模型最根本的一个模型,并且它是一种数学优化模型,最小二乘法模型可以估计参数,从而简单地求得该产品的销量,并使得求出来的销量与实际销量之间误差的平方和为最小,也就是所有观测值到回归模型之间的距离平方和最小。
2.4 预测分析2.4.1 模型求解
汽车作为耐用消费产品,以此为例来说明此模型更具有鲁棒性。网站收集了名称为X 的汽车产品量,该汽车产品共有三代。中将这三代产品命名为A 产品,A+产品和A++产品。下图3给出了X 汽车产品3代的每个季度销量的示意图。
利用表4X 汽车产品每个季度的销量以及评论数据,带入到以上小节的公式中,经过多次利用最小二乘法计算模型的参数。
2.4.2 预测结果分析
利用表5的参数以及模型,可以预测出X 汽车产品第3代(A++产品)后五个季度的汽车销量,然后该预测数据与实际数据相
图1 本文具体的结构图
表1 分词结果
模型预测及分析
预测分析
AUTO TIME
167
AUTO AFTERMARKET | 汽车后市场
汽车品牌时代汽车 wwwautotime
能计算机与应用,2019,9(05):150-153+157. LIANG K,LI J,CHEN Y X,LIU Z.Text sentiment classification and realization based on Naive Bayes[J]. Intelligent Computers and Applications,2019,9(05):150-153+157.
[4]李丹阳.面向中文评论的情感分析方法研究[D].西安工业大学,2019.LI D Y. Research on sentiment analysis methods for Chinese comments [D].Xi'an Technological University,2019.
[5]葛霓琳.基于词典和机器学习的酒店评论情感分析[D].江苏科技大学,2019. GE N L. Sentiment analysis of hotel reviews based on
dictionary and machine learning [D]. Jiangsu University of Science and Technology,2019.[6]Zhi-Ping Fan,Yu-Jie Che,Zhen-Yu Chen. Product sales forecasting using online reviews and historical sales data:A method combining the Bass model and sentiment analysis[J]. Journal of Business Research,2017,74.
[7]https://baike.sogou/v200960.htm?from Title=%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95.
[8]刘丹丹,周跃进.基于偏最小二乘法结构方程模型的江苏外资高质量评价研究[J].江苏商论,2020(08):41-45+58. LIU D D, ZHOU Y J. Research on the high-quality evaluation of Jiangsu foreign capital based on partial least squares structural equation model[J]. Jiangsu Commercial Theory,2020(08):41-45+58.
[9]张妤,邓廷勇,夏冰.基于LS-SVM 的中文文本情感分类[J].科学技术创新,2019(26):56-57. ZHANG Y,DENG T Y,XIA B. Chinese text sentiment classification based on LS-SVM[J].Science and Technology Innovation,2019(26):56-57.
比较获得模型的准确度。X 汽车产品第3代(A++产品)预测销量的误差占实际销量比例如图4所示。
利用此模型预测的X 汽车产品第3代(A++产品)的以后五个季度的汽车销量的误差都在8%-10%之内,五个季度的平均误差为8.71%,基本可以给企业提出一些生产的建议,使企业在投入最小的资本获得更大的利润,同时带动汽车产业进一步发展。
3 结语
本文基于朴素贝叶斯情感分类器结合
Norton 模型对某款型号汽车的三代产品进行分析,预测的结果平均误差大约为8.71%,具有一定的指导作用。为了提高准确率,文本可以进一步扩大数据源,把抖音等数据结合起来计算;还可以提取线性支持向量机(SVM)情感分类器结合Norton 模型预测销量;并且采用深度学习技术求解模型参数,
使得求解参数更加准确,预测结果更加符合实际。
参考文献:
[1]D.F a n t a z z i n i a n d Z.T o k t a m y s o v a , “Forecasting German car sales using Google data and multivariate models,”International Journal of Production Economics,vol.170,pp. 97-135,2015,http:///10.1016/j.ijpe.2015.09.010.
[2]E.Cambria,Affective computing and sentiment analysis,IEEE Intell. Syst. 31(2)(2016)102-107.
[3]梁柯,李健,陈颖雪,刘志钢.基于朴素贝叶斯的文本情感分类及实现[J].智
图4 预测销量的误差占实际销量比例
9.4
9.298.88.68.48.287.87.6
A++产品预测误差占比
误差 (%)
交通标志图片大全平均误差 (%)
19.206
9.116
2345
图3 X汽车产品3代的每个季度销量的示意图
1400000
1200000
1000000
800000
600000
400000
200000
1
2
3
4
5
6
7
8
9101112131415161718192021222324252627282930
发布评论