网络搜索指数与汽车销量关系研究
搜索引擎已经成为消费者决策过程中信息搜索和评价过程的起点,根据在NNI调查社区进展的搜索营销调查显示,有77%的互联网用户在购置产品之前会上网搜索信息[1]。网民的搜索需求在一定程度上反映了他们的关注点和意图,而网络搜索数据正是对网民搜索需求的客观记录。网络搜索数据的这一特性使其可以映射用户实际生活中的行为特点,并影响企业经营和政府管理方式,成为目前研究大数据的主要方向之一。
本文以我国汽车市场为背景,研究网络搜索数据与汽车销量之间的关系。之所以选择汽车作为研究对象,是因为汽车产品属性复杂并且要求较大资金投入,消费者在购置汽车时会对汽车产品各种属性进展仔细考察和评估。不仅如此,汽车也是研究消费者外部搜索相关文献中最为常用的产品对象之一[2]。
2月汽车销量1研究意义与思路
11研究意义
网络搜索数据的利用价值已经得到了学术界的广泛关注。国外学者在房地产[3]、就业[4]、股票[5]、汽车和旅游[6]等众多领域都验证了谷歌搜索数据的作用。但是在中国,百度是应用最多的搜索引擎,因此用
百度搜索指数研究中国的社会经济行为更符合实际情况。任乐通过计算相关系数、确定领先阶数并合成百度搜本文由论文联盟搜集整理索指数,实证了北京市搜索数据与月旅游客流量之间的相关关系[7];袁庆玉等从网络关键词搜索数据与汽车销量的角度建立了理论根底框架,采用综合赋权法对关键词进展提取,预测了汽车销量[8]。
但是对国内现有研究而言,利用网络搜索数据预测用户需求仍属于一个新的研究领域,并没有形成系统的研究体系,还存在以下缺乏:〔1〕对于关键词的选取还存在争议。多数研究是直接指定关键词,或者是结合百度自动生成的关键词来提取指数,并没有考虑关键词能否代表用户实际的网络搜索行为。〔2〕预测模型多采用时间序列
的静态回归或者是对短面板数据的建模,不利于控制不同个体间的差异,也不利于准确地反映和刻画在时间推移的过程中网络搜索数据对销售影响的动态变化。
为弥补现有研究存在的缺乏,本文在关键词选择和模型设定上都作出了改良,目的是验证网络搜索数据如何反映当前的汽车销量并预测将来的销量变化趋势。本文的主要工作是:提出了一套构造化的流程来提取网络搜索数据关键词,并应用于我国汽车市场的研究。该流程为网络搜索数据在其他领域的研究提供了参考。
12研究思路
2文献综述
21有关汽车销量预测的相关研究
关于国内汽车销量的预测,从以往的相关研究来看,学者从定性和定量两个方面进展了相关研究。在定性方面,如:门峰等针对我国汽车产业的开展方向进展研究,认为我国汽车产业已经成为国民经济的重要支柱产业,并预测将来5~10年是我国由汽车工业大国向汽车工业强国转变的重要时期[9];王莉分析了国际金融危机给中国汽车行业带来的总体影响[10]。定量方面的研究那么可以分为两个层面:一是单方法预测法〔包括多元回归分析法、时间序列预测法、神经网络分析法〕,如:陈欢通过定性灰预测模型的方法对汽车销量进展了预测[11],该方法可以反映复杂数据的非线性和汽车销量数据自身的规律性,但对历史数据过于依赖,历史数据越多,预测结果越可靠;郭顺生等基于时间序列ARA模型对中国汽车的月销量数据进展预测[12];汪玉秀等综合汽车颜、排量及版本类型3个因素,建立了马尔科夫过程的4S店汽车销量预测模型〔预测绝对误差均小于5%〕[13]。二是组合预测方法,如:李响等基于ARA模型与RBF神经网络相结合的混合模型预测了天津市日汽车销量,认为组合模型相对于单一的预测模型有较高的预测精度[14];蔡宾等采用改良差分进化算法和灰模型对几个主要汽车品牌的销量进展了预测,并对汽车销量的开展趋势作出了判断[15];李莉通过建立灰模型和马尔科夫模型相结合的组合预测模型预测了我国小排量汽车的销量,该模型整合了G〔1,1〕模型处理光滑序列的有效性和灰马尔科夫链处理随机序列的有效性,反映出了数据序列的开展趋势[16]。
无论是传统的定性预测方法,还是定量预测都只能依赖于历史数据,但历史数据具有很强的延迟性,而且其预测的粒度较大,一般为汽车销量的年度数据。另外,与传统的预测方法相比,人工智能建模方法虽然预测精度较高,但也存在算法复杂性高,应用广泛性和对原始数据的变化趋势依赖性较强等缺陷和缺乏。
22基于网络搜索数据的经济类、社会类行为相关性研究目前基于网络搜索数据的经济社会类行为预测已成为各领域学者们研究的一个新的热点,并在国内外都获得了一定的研究成果。在宏观经济领域,Vsen等利用网络搜索趋势也对家庭支出做出了预测[17];hi等研究如何利用网络搜索数据预测短期经济价值,文中的例子包括房地产、失业索赔、旅游目的地规划和消费者信心[18]。在社会领域,Ripberger等使用网络Query搜索数据对公众的注意力进展衡量,获得了良好效果[19]。国内学者张崇等提醒了网络搜索数据与居民消费价格指数〔PI〕之间存在一定的相关关系和先行滞后关系,并获得了良好的预测效果[20]。董倩等发现网络搜索数据不但可以较好地预测房价指数,而且可以分析经济主体行为的趋势与规律,有一定的时效性[21]。孙毅等对相关研究进展了综述,提出基于网络搜索数据的相关性研究是典型的穿插研究,而对于网络搜索数据与经济行为之间的相关性的机理分析、关键词的选择和数据处理模型选择是需要解决的关键问题[22]。
网络搜索数据也开场用来预测汽车销量。Du等发现从谷歌搜索数据中对38个主要汽车品牌提取出来的7大趋势可以从品牌层面解释美国市场74%的汽车销量[23]。国内学者王炼等以百度搜索指数为数据根
底,讨论网络搜索在我国汽车市场的预测作用,结果显示网络搜索数据对汽车销量具有显著的正向影响,研究还发现,在其他传统指标的数据无法获得时,网络搜索数据仍然可以发挥重要预测作用[24]。但王炼等是对短面板数据进展建模回归,数据量较少,不利于刻画百度搜索指数与社会经济活动的动态变化,也不能确定变量之间是否存在着长期的平衡关系。
综上所述,虽然网络搜索数据可以作为传统数据的良好补充来实现对市场需求的预测,但仍有以下方面可以改良:〔1〕该领域的很多研究都是以谷歌趋势为数据源。虽然谷歌是全球最大的搜索引擎,但仍然存在很多像中国这样的国家偏向于使用本地的搜索引擎,因此应用百度搜索指数研究我国市场需求更符合实际情况。〔2〕在确定获取百度搜索指数的关键词上,并没有一个系统化、统一的的方法。之前的研究普遍
都是手动指定关键词,或者是利用百度自动生成的词。在本文中,我们基于文本挖掘技术,提出了一个构造化的流程来确定检索关键词,可以真实地反映出用户网络搜索的习惯。〔3〕以往的研究大都采用时间序列数据,或是短面板数据,不利于检验更复杂的行为模型。本文搜集了国内市场最近9年的汽车月度销量数据,采用长面板数据建模,可以准确地反映和刻画在时间长期推移的过程中网络搜索数据对销售影响的动态变化。
3实证分析
31数据来源
311汽车销量
本文的汽车销量数据来源于搜狐网站汽车频道〔∥db.aut.shu./xdata/〕,该数据为月度更新数据。为了研究网络搜索数据与汽车销量之间的长期相关关系,我们选取的时间段为2022年1月至2022年12月,共108个月。考虑到车型数据在此期间的持续可获得性,我们将连续12个月无销量的车型排除。最终,我们搜集了55款车型在此期间的国内市场月度销量数据。
312网络搜索
本文使用的网络搜索数据源于百度搜索指数。百度〔baidu.〕是全球最大的中文搜索引擎,截至2022年第三季度,百度在国内的市场份额到达823%,远超过其后的谷歌中国〔79%〕、搜狗〔48%〕、360搜索〔38%〕[25]。百度搜索指数是以百度网页搜索为根底的免费海量数据分析效劳,可以反映不同关键词在过去一段时间里的用户关注度。用户关注度以数千万网民在百度的搜索量为数据根底,以关键词为统计对象,代表了各个关键词在百度网页搜索中的搜索频次,每天更新1次。图1是网络搜索数据的1个例如。显示的是两款车型普力马和福美来在2022年用户关注度的变化趋势。可以看到,在2022年的大局部时间里,福美来受关注程度要高于普力马,在2月初,普力马的用户关注度大幅上升而超过福美来,而在6月份以后,普力马的受关注程度又始终低于福美来。
32遴选关键词
在研究汽车销量与百度搜索指数之间关系的过程中,选取恰当的网络搜索关键词是非常重要的,直接影响研究结果的可靠性。一方面,由于汽车是属性复杂并且要求较大资金投入的产品,消费者在购置汽车时会对汽车的各种属性进展仔细考察和评估。另一方面,根据NNI调查社区开展的搜索营销调查结果,有77%的互联网用户在购置产品前会上网搜索信息[1]。考虑到这一点,我们选取了用户活泼度最高的汽车论坛汽车之家论坛来提取关键词。为了准确地反映消费者考虑购置汽车并上网搜索信息时所采用的搜索词,我们采取以下详细步骤来确定搜索关键词。
321确定根本词条
我们根据搜狐网站汽车频道〔:∥db.aut.shu./xdata/〕所提供的车型名以及品牌名+车型名的组合〔如:A4L以及奥迪A4L〕来作为最初的根本词条。
322获取根本词条的近义词
323选取论坛高频词条
对每一词条我们都在论坛的文本中统计出词频,并选取词频较多的词作为百度搜索指数中检索的目的关键词。对于仍有歧义的词条,我们会加上品牌名来作为目的检索关键词,如金刚,目的词那么为吉
利金刚。类似的例子还包括雨燕、北斗星、高尔夫等。
324确定最终搜索词条
对目的词在百度搜索指数中进展检索,我们选取在百度指数中排名最高的词作为关键词。对于仍不能确定排名的词,我们再选取其与销量之间在不同滞后期0~6期皮尔逊相关系数最高的词作为搜索关键词。最终得到了55款车型可各自用于百度指数检索的惟一关键词。
对每一个关键词指数我们都计算了其与销量在0~12滞后期的皮尔逊相关系数,表1是关键词的百度搜索指数与销量之间基于最大皮尔逊相关系数的滞后阶数。可以看出滞后期普遍集中在0~2期,且其中大多数滞后期都为0期。对该现象可能的解释是:尽管现实当中消费者在最终购置前可能会产生几个月的信息搜索和评价过程,但
发布评论