2011年01月Jan. 2011
管理学家学术版基于网络关键词搜索数据
汽车销量预测研究
袁庆玉  彭赓  刘颖  吕本富
中国科学院研究生院管理学院  北京  100190
摘   要  汽车工业是国民经济的支柱产业,准确预测汽车销量具有多方面的重要意义。本文在建立网络关键词搜索数据与汽车销量理论框架的基础上,使用自动推荐技术选取关键词并通过逐步合成方法合成得到进入回归模型的关键词合成指数,然后实证分析不同价格区间的汽车销量与相应合成指数之间的关系,进行预测试验,得到了对不同价格区间的汽车销量月度数据的预测平均绝对误差百分数均不超过4%的预测效果。
关键词  网络搜索  汽车销量  合成指数  协整分析
A Prediction Study on the Amount of Automotive Sales
Based on Web Search Data
Yuan Qingyu  Peng Geng  Liu Ying  Lv Benfu
Management School of Graduate University of the Chinese Academy of Sciences Beijing 100190
本文受国家自然科学基金(70772103,70972104),北京市自然科学基金(9083017)支持
作者简介  袁庆玉(1987—),男,山东人,中国科学院研究生院硕士生,E-mail: y uanqingyu09@mails.gucas.ac 。彭赓(1970—),男,通信作者,湖北红安人,博士,中国科学院研究生院副教授,地址:北京市海淀区中关村东路80号 中科院研究生院管理学院,100190,E-mail: p enggeng@gucas.ac 。刘颖(1985—),男,河北唐山人,中国科学院研究生院博士生,E-mail: l iuy218@126 。吕本富(1965—),男,安徽阜阳人,博士,中国科学院研究生院教授, E -mail: l ubf@gucas.ac 。
中图分类号   F274   文献标识码   A   文章编号1674-1722(2011)01-0
012-13
Abstract  The automobile industry is a pillar industry in the national economy, so it ’s of important significance to predict accurately car sales. On the basis of building theoretical frame of web search data and car sales, this paper selects keywords with the technology of auto recommendation, composes the keywords into composite index which can be used in the regression model of this paper, analyzes the relationship between the sales of car in different price ranges and the corresponding composite index, makes the prediction test, finally has the forecast results of car sales in different price ranges whose Prediction MAPE is less than 4 percent.Key words  web search data    car sales    composite index    co-integration analysis
 2011. 0113
一、引言
近年来,随着国民经济和社会的进一步发展,汽车工业也逐步成为我国的支柱性产业之一,汽车市场表现出产销两旺的发展态势。据中国汽车工业协会的统计,2009年中国中国汽车共销售1364万辆,同比增长46.15%,已经成为全球第一大新车市场。而2010年1 ̄8月,我国汽车销售近1200万辆,同比增长近40%,超过GDP的增长速度。中国汽车工业协会预计,今年中国
汽车销售将达到1700万辆。这意味着中国新车销量将达到美国历史上的最高水平。近六年来,我国汽车工业在保持较高发展速度的同时,汽车市场表现出以下几个方面的特点①:①销售量同比增速较快,但增速的波动性明显。如2005年销售575.82万辆,同比增长13.54%;2006年销售721.60万辆,同比增长25.13%;2007年销售879.15万辆,同比增长21.84%;2008年销售938.05万辆,同比增长6.7%;2009年中国汽车销量1364.48万辆,同比增长46.15%;
②我国自主品牌乘用车销售量增幅高于进口品牌,如从2009年9月 ̄2010年8月,奇瑞公司销售总量为71万辆,排名第三,比亚迪公司销售总量为59万辆,排名第七。自主品牌乘用车的市场占有量从2005年28%上升到2009年的33%,超过日系的25%和德系的16%;③中小排量汽车的市场占有量和增长幅度高于其他车型。
汽车工业已经成为我国GDP主要组成部分,保持其良好的发展态势具有非常重要的意义。而汽车市场是汽车工业的晴雨表,预测汽车的销售量,无论是对于从宏观上整体掌控汽车市场的发育与成长态势的政策制定者来说,还是对于从微观上研究市场行情以制定营销策略的汽车厂商来说,都具有极其重要的作用。
目前国内外已有不少关于汽车销量预测的研究成果,总体说来,使用的方法主要有定性预测和定量预
测两种。其中定性预测方法包括专家预测、主观概率预测等方法,定量预测方法包括时间序列(移动平均法、趋势预测法等)、结构分析法(回归分析法,弹性系数法等)、神经网络等方法。但无论是传统的定性预测方法,还是定量预测方法都只能依赖具有较大延迟性的历史数据,而且其预测的粒度较大,一般为汽车销量年度数据。网络经济时代,搜索引擎作为网民经常使用的工具记录了数以亿计的网络搜索数据,随着研究的深入,这些数据资源逐渐被重视,一些国外最新的研究进展表明,互联网搜索数据与诸多社会、经济类行为存在很高的相关关系。例如,基于搜索数据的流感监测模型不仅可以较好地监测美国流感疫情趋势,而且比传统调查方法的时效性提前2周(Ginsberg等,2009;Doornik,2009);在经济领域方面,搜索数据对典型行业当期销售量的预测(Choi, Varian,2009),对失业率的监测也都取得较好效果(Askitas,2009)。可见,搜索数据可以作为传统数据的良好补充,对某些典型的社会、经济行为存在一定的预测能力。借鉴这种新颖的思想,本文首先建立了汽车销售数据与网络搜索数据之间的理论联系,在此基础上详细阐述了网络搜索数据的选取及合成过程,然后建立模型,检验合成指数对于汽车销量的预测能力,最后给出结论。
本文的结构如下:第二部分为文献综述,第三部分是对网络搜索数据与汽车销量之间的联系进行理论分析,第四部分是实证分析,第五部分总结全文,给出结论。
①数据来源于搜狐网《2009年1~12月中国汽车市场产销分析报告》,详情请参考auto.sohu/
20100118/n269662876.shtml。
袁庆玉等,基于网络关键词搜索数据的汽车销量预测研究
管理学家・学术版   An Academic Edition of ManaMaga
14 2011. 01
二、文献综述
关于中国汽车销量的预测,学者从定性定量两个角度已做过较多研究。其中定性方面的研究方法主要有专家预测、主观概率预测等方法:如曹建海(2003)从汽车产业全球化趋势及中国经济的崛起、加入WTO等方面判断中国有望在未来10到20年成为世界重要的汽车制造基地之一,并提出了适应中国汽车产业发展趋势的政策取向;施为民(2001)根据全球经济发展的缓慢增长态势,判断未来5年内,全球汽车总体需求量不会有大的增长,但是重型汽车的需求量却有可能增长等。定量方面的研究则可以分为两个层面,一是基于常用预测方法(包括时间序列预测方法、回归分析法、综合预测法等)的汽车销量预测研究:如胡慧敏(2009)使用自1994年至2008年中国汽车销量总数据,采用直线趋势预测法预测2009年中国汽车总销量为1216万辆(中国汽车工业协会发布的汽车产销数据显示,2009年中国汽车实际总销量为1364.48万辆,预测误差率
为12.2%);危高潮、张艳冬、吴杰(2009)等使用多元线性回归模型对我国汽车销量进行分析,认为汽车消费贷款利率,汽车年产量,汽车年进口量,公路长度、城市居民收入、GDP、石油消费量等指标对汽车销量的影响显著;陈欢(2008)通过建立灰预测模型GM(1,1)对汽车销量进行了预测,该方法能够反映复杂数据的非线性和销售数据自身的规律性,但对历史数据过于依赖,历史数据越多,预测结果越可靠。二是基于智能方法的汽车销量预测研究:如天津大学的李响、宗、童玲等就汽车销量问题提出了一种ARMA模型与RBF神经网络相结合的预测方法,能反映销量数据间的线性关系,又能揭示数据内部的非线性特征,但该方法的适用性还有待验证;李勇、肖智、陈玲(2002)笼统地讨论了使用数据仓库和联机分析技术设计与开发汽车销售分析及预测系统等。崔劲维(2004)则对预测汽车的定量和定性方法简要地做出总结分析。
无论是传统的定性预测方法,还是定量预测方法都只能依赖具有较大延迟性的历史数据,而且其预测的粒度较大,一般为汽车销量年度数据。网络经济时代,搜索引擎作为网民经常使用的工具记录了数以亿计的网络搜索数据,这些数据逐渐得到重视。基于网络搜索的社会行为预测文献大多出现于2008年以后,目前尚未形成完整的体系。Ginsberg等(2009)发现Google中与流感相关的部分关键词搜索量与美国疾病控制和防治中心发布的流感看诊量数据有很强的相关性,由此构建了基于Google搜索数据的监测模型,该模型能够比传统监测方法提前2周测算出流感的爆发趋势,证明了搜索数据对流感疫情具有一定的预测能力;在这一成果的基础上,Jurgen A
. Doornik (2009)深入了预测方法的研究,将基于搜索数据的简单线性模型扩展为带有日历变量的时间序列模型,新模型的实证数据结合了历史数据与搜索数据,进一步提高了预测精度;Hyunyoung Choi和Hal Varian(2009)对美国零售业、汽车、房屋、旅行四个行业的销售量做实证检验,将关键词搜索量作为新的因素加入到传统的自回归模型中,发现四个行业的预测精度均得到明显的改善,其中对汽车及零配件行业的预测改善最大,提高了18%的精度;Lynn Wu和Erik Brynjolfsson(2009)对美国房地产市场的实证研究发现,搜索数据对美国房屋交易量和价格均具有很强的预测能力;在其他宏观指标方面,Askitas等(2009)建立了搜索数据与德国失业率之间的关联关系,作者认为失业率发生变化时,网民对国家劳动局或失业保障机构、人事顾问、流行职位的搜索关注度会有所反应,实证发现上
15
月三四周的搜索量与本月失业率相关性最强,取得了较好的拟合效果。虽然这类研究相对于传统研究方法取得了一定的突破,但也存在明显的不足:一是在建立模型之前缺少对使用网络搜索数据与相关研究对象之间内在联系的探讨;二是对于如何选取和合成网络搜索关键词还存在不少争议。
本文将试图首先从理论上探讨网络搜索与汽车销量之间的内在联系,建立理论框架模型,然后使用关
键词自动推荐技术选取关键词,使用逐步合成方法合成网络关键词搜索数据,最后将得到的网络搜索关键词合成指数代入模型,进行分析预测,给出预测效果。
三、理论基础
日常生活中,对于一般消费者而言,购买汽车是一项较为重大的经济决策。在购买汽车之前,消费者必然要通过各种信息渠道,比如电视、报纸、书籍,网络,口碑等等,来获取关于汽车的种种信息。据调查,近年来汽车消费者关注的问题已不仅限于价格,还包括汽车的经济性、操控性、舒适性、安全性、可靠性、动力性、配件、刹车、减震、隔音、油耗、内饰、外观、环保、维修、厂家投资情况等(朱国正,2007)。互联网时代,相对于口碑、报纸、电视等传统信息渠道,网络可以帮助消费者更加方便地获取更大量、更全面的信息,而搜索引擎则又是消费者网络搜索中最常使用的工具,大多数汽车消费者在购车之前都会通过搜索引擎搜索汽车相关信息。研究发现,通过分析消费者搜索关键词,可以挖掘消费者潜在需求,确定消费者的消费阶段等等(百度报告,2010)。
以大众高尔夫汽车消费为例,通过相应关键词分析发现,消费者的购车过程大体有如下两种类型:一是触发需求购车型;二是自发需求购车型,具体如图1所示。
图1 两种典型的汽车消费者行为模式
袁庆玉等,基于网络关键词搜索数据的汽车销量预测研究
10万左右买什么车
经济实惠型车
大众高尔夫评价……
管理学家・学术版   An Academic Edition of ManaMaga16 2011. 01
图2 不同价格区间汽车销量与搜索关键词指数曲线图
2007年2月
2007年6月
2007年10月2月汽车销量
2008年2月
2008年6月
2008年10月
2009年2月
2009年6月
2009年10月
2010年2月
2010年6月
6~9万汽车总销量
搜索关键词指数(右)
2007年2月
2007年5月
2007年8月
2007年11月
2008年2月
2008年5月
2008年8月
2008年11月
2009年2月
2009年5月
2009年8月
2009年11月
2010年2月
2010年5月
9~13万汽车总销量搜索关键词指数(右)
基于这种过程,消费者在搜索引擎上留下的网络搜索关键词数据与汽车销量之间会存在一定程度的联系。这种联系具体体现为汽车销量曲线与网络搜索关键词合成指数①曲线的走势一致性,如图2所示。
从图中看,合成的网络搜索关键词指数与汽车销量之间存在很强的相关性,本文将在下一部分中详细阐述网络关键词的选择及合成方法,并实证分析搜索关键词合成指数与不同价格区间汽车销量之间的相关性。在此基础上,本文使用网络搜索关键词指数对不同价格区间汽车销量进行预测,然后对预测效果进行比较分析。
四、实证分析
(一)数据来源
本文的汽车销量数据来源于搜狐网汽车频
道②,采用2007年2月至2010年6月,共41个月的不同价格区间(2 ̄6万、6 ̄9万、9 ̄13万、13 ̄17万、17 ̄28万、28 ̄42万以及42 ̄70万)汽车销量数据;网络搜索关键词数据来源于谷歌搜索解析③,这是Google发布的一项服务,提供了关键词在特定时间范围的标准化搜索量④。
(二)搜索关键词选取
由于搜索用户的异质性,他们对某一事物关注的角度也有所不同,因此搜索关键词也具有多样性的特点,它应该是一个集合,能够涵盖与基准指标相关的大部分常用词汇,本文搜索关键词的选取按照以下两个步骤进行:
1. 首先根据理论基础部分的分析,即根据购车者对汽车等相关信息的需求,本文人工选取出“汽车评价”、“汽车4S店”、“汽车维修”、“汽车论坛”四个基准关键词。
①网络搜索关键词合成指数:一般来讲,一个关键词仅能从一个侧面反映某件事情的特征,衡量其总体趋势需要由尽可能全面的关键词共同反映。本文将意义相似的关键词以加权方式合并在一起,称之
为网络搜索关键词合成指数。②auto.sohu/cxsj/
③le/insights/search/#
④标准化搜索量:这一数据并不是绝对搜索次数,而是该关键词相对于Google 总搜索量的搜索比例,并将这一比例以0-100的缩放值显示,反映的是在某段时期,某个特定关键词的热门程度和被关注程度。
3000
25002000150010005000
2520151050