Computer Science and Application 计算机科学与应用, 2021, 11(1), 121-132
Published Online January 2021 in Hans. /journal/csa
/10.12677/csa.2021.111014
车企舆情正负面识别与预测
武壮
云南财经大学统计与数学学院,云南昆明
收稿日期:2020年12月25日;录用日期:2021年1月19日;发布日期:2021年1月26日
摘要
随着科技的不断进步,人们生活越来越好,车辆普及度逐渐提高,人们也越来越关注车辆带给他们的体验。
而对于汽车企业而言,汽车安全直接关乎客户的生命安全,人们对于车企舆情的正负面也有着更高的关注度和敏感性,舆情处理难度只会更大。如果负面舆情不能及时处理,车企将面临着重大的舆论压力,而且事后进行处理时也会耗费大量的资源和财力。由于产品大多生产规模庞大,多方利益纠缠,车企的舆情系统往往比其他企业有更高的舆情要求,所以对于汽车企业而言,舆情的识别与预测起着很重要的作用。本文通过建立朴素贝叶斯模型对车企舆情正负面进行识别与预测,在有效处理数据的基础上,利用给出的训练集数据建立模型,用测试集数据对模型的合理性和科学性进行评估验证。研究表明,本文所采取的车企舆情识别与预测模型准确度较为理想,可靠性较强,但是将舆情倾向重新定义后,模型精度得到了较大提高,对于负面舆情的识别精度有了较大提升,本模型可以用于实际生活中车企舆情的判断。最后本文提出展望,在训练模型时数据选取时应尽量使得各类样本的数据占比均衡,避免造成过度识别问题。
关键词
车企舆情,朴素贝叶斯,舆情识别与预测
Recognition and Prediction of Positive
and Negative Opinions of Car Companies
Zhuang Wu
College of Statistics and Mathematics, Yunnan University of Finance and Economics, Kunming Yunnan
Received: Dec. 25th, 2020; accepted: Jan. 19th, 2021; published: Jan. 26th, 2021
Abstract
With the continuous advancement of technology, people’s lives are getting better and better, the
武壮
popularity of vehicles is gradually increasing, and people are paying more and more attention to the experience that vehicles bring to them. For auto companies, car safety is directly related to the lives of customers. People are more concerned about and sensitive to the positive and negative public opinions of auto companies, making it more difficult to deal with public opinions. If the negative public opinion cannot be dealt with in a timely manner, car companies will face signifi-cant public opinion pressure, and it will also consume a lot of resources and financial resources when dealing with it afterwards. Since most of the products are produced on a large scale and multi-party interests are entangled, the public opinion systems of auto companies often have higher public opinion requirements than other companies. Therefore, for auto companies, the identification and prediction of public opinion plays a very important role. The paper establishes汽车it
a Naive Bayes Model to identify and predict the positive and negative public opinion of car compa-
nies. On the basis of effective data processing, this paper uses the given training set data to build the model, and uses the test set data to evaluate the rationality and scientificity of the model. Stu-dies have shown that the accuracy and reliability of the public opinion recognition and prediction model for car companies adopted in this article is relatively satisfactory, but after redefining pub-lic opinion tendencies, the accuracy of the model has been greatly improved, and the accuracy of identifying neg
ative public opinions has been greatly improved. This model can be used to judge the public opinion of car companies in real life. Finally, this article puts forward a prospect that when selecting data when training the model, we should try to balance the proportion of data of various samples to avoid over-identification problems.
Keywords
Public Opinion of Car Companies, Naive Bayes, Identification and Prediction of Public Opinion Array Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
/licenses/by/4.0/
1. 研究背景与意义
“舆情”在《现代汉语词典》(第七版)中的意思是指“公众的意见和态度”。通俗点理解,指的是众对于社会中某些现象、事件甚至是问题所持有的态度和意见。车企舆情,顾名思义,就是大众对于汽车相关企业的行为或者是产品所表达的自己的意见和看法。
在如今网络信息越来越发达的时代,我国拥有世界上最多的网民和最大的网络访问量,以互联网为载体的网络舆情愈发活跃。网络不仅成为人们获取重要信息的重要渠道,也成为人们表达自己的观点和想法的平台。人们可以通过文字、图片、音频甚至是视频等多种形式进行沟通交流,网络舆情则成为了社会舆情主要的表现形式,具有直接、随意、突发、多元、偏差等特点,一旦处理不当,可能会对社会产生较大影响。因此,越来越多的专家学者甚至是企业投入到舆情的分析研究当中。
随着社会的发展,人们生活水平的提高,汽车已经成为许多家庭的必备产品。我国汽车市场也逐渐进入了供大于求的买方市场。汽车企业为了吸引顾客,适应市场态势,需要转换营销策略。通过对互联网上消费者对汽车品牌的看法与评论进行分析,了解消费者的购买行为和品牌认知等相关信息,可以很好得为企业在产品改进、竞争力优化等方面提供依据,对汽车企业应对新的市场需求有着较大帮助[1]。
汽车安全直接关系消费者的生命安全,因此汽车行业的负面舆论较其他行业更容易引起关注度。然而汽车企业往往对于网络舆情实时监控力度不够,不能及时有效地控制舆论;对舆论的正负面识别,有助于汽车企业在危机公关处理问题上具有更强的针对性,提升企业形象。
武壮
2020年伊始新冠肺炎疫情肆虐,汽车行业从生产到销售各个阶段都受到了不同程度的影响。由于交通物流受阻、员工无法到岗等情况,一些生产厂商被迫停产;经销商也面临着销量下滑、收入锐减的境况[2]。
为了提升企业市场竞争力,各品牌厂商不仅重点关注产品的质量安全以及安全隐患,还致力于样汽车新科技等。汽车行业舆情热点涵盖范围广,企业在了解舆情主要倾向、知悉网民对本企业品牌态度之后,对于企业决策有一定的帮助。
2. 国内外研究现状
(一) 国外研究现状
在舆情分析方面,国外研究开始得要比我国早。Jeonghee Yi [2]等(2003)通过使用语法分析器和情感词典,从文档中提取与特定主体相关的正面或负面的情感,以正确识别情感表达与主题之间的语义关系,并且获得了很高的精度;Tetsuya Nasukawa等[3](2003)使用情感分析器从在线文档中提取出主题相关观点,并使用自然语言处理技术确定情感;YW Seo等[4] (2004)采用single-pass算法对新闻进行聚类,发现该方法具有计算简单且运算效率高的特点;Hurtado J L [5] (2016)使用关联分析和整体预测从一组文本文档中自动发现主题,并预测其在将来的发展趋势。
(二) 国内研究现状
直到上世纪末期,我国才有学者开始对舆情进行分析研究[6]。许鑫等[7] (2008)分析了互联网舆情研究的现状,并通过支持向量机用于对网络舆情内容的主题聚类;王兰成等[8](2013)将HowNet与主题领域语
料的情感概念结合,并利用情感本体抽取特征词并判断其情感倾向度,结合句法规则及程度副词影响,采用机器学习的方法对主题网络舆情web文本进行倾向性分析;朱建平等[9](2016)利用2015年第二季度中国房地产相关数据对房地产网络舆情进行了实证研究与分析,并且对发现的热点话题整体倾向性进行了评述。
文本倾向性分析是指挖掘出人们对于某件事物持有的态度或看法是正面还是负面。国内也有不少学者在这方面进行了研究。高洁等[10] (2004)讨论了朴素贝叶斯、K-邻近、支持向量机等常用的文本分类原理与方法;黄萱菁等[11] (2011)结合学术界近年文本情感分析的研究成果,对方法进行了概括归纳,并且对倾向性分类、倾向性分析应用等方面的研究现状进行介绍,最后还对情感倾向性分析技术进行了总结,展望了未来;许鑫等[12] (2011)尝试将基于统计和语义两种文本倾向性分析的方法结合起来,提出了基于模式抽取和匹配基础上的文本倾向性分类算法,并结合领域应用进行实证分析。
本研究通过朴素贝叶斯对互联网上车企相关舆情进行分析,对车企的成长与发展具有十分重要的意义与价值。
3. 研究内容框架
本研究主要分为三个部分,具体流程如图1所示。
第一部分:对文本数据进行预处理。本文给出的原始数据是未经过处理的数据,其中包含重复数据、缺失值、异常值等情况,故利用Python软件首先进行数据预处理,使得数据变成可直接使用的数据。在此基础上,利用Python的jieba库对文本数据进行分词处理,并提取相应特征。
第二部分:模型的建立。为了保证本文研究的科学性和合理性,首先利用训练集数据建立模型,之后用测试集数据对建立的模型进行验证。在模型建立过程中,本文拟采用朴素贝叶斯的方法,根据数据的文本特征将其分为正面、中性和负面三类。
第三部分:结果验证。将处理好的测试集数据带入建立好的模型中,通过实际的结果和模型的结果的比较,验证模型的合理性。
武壮
Figure 1. Flow chart of text orientation analysis
图1. 文本倾向性分析流程图
4. 研究方法
(一) 朴素贝叶斯分类
1) 方法原理
目前国内外对于文本倾向性分析的方法主要有基于文本分类的文本倾向性分析、基于语义规则模式的文本倾向性分析和基于情感词的文本倾向性分析三大类。对文本进行分类的常见计算机分类器有KNN (K-近邻法)、SVM (支持向量机)、NB (朴素贝叶斯)等。朴素贝叶斯是一种思想较为简单的方法,具有不错的鲁棒性,容易实现,运行速度快,因此被广泛使用[13]。
朴素贝叶斯(Naive Bayesian)是基于条件概率、贝叶斯定理和特征条件独立假设的分类方法,它通过特征计算分类的概率,选取概率大的情况进行分类[14]。它是一种十分简单的分类算法,朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此分类项属于哪个类别。
朴素贝叶斯分类的正式定义如下:
设{}12,,,m x a a a = 为一个待分类项,而每一个a 为x 的一个特征属性。有类别集合{}12,,,n c y y y = ,计算()()()12,,,n p y x p y x p y x  。如果()()()(){}
12max ,,,k n p y x p y x p y x p y x = ,则k x y ∈。 朴素贝叶斯最常见的分类应用是对文档进行分类,因此,最常见的特征条件是文档中出现词汇的情况,通常将词汇出现的特征条件用词向量ω表示,由多个数值组成,数值的个数和训练样本集中的词汇表个数相同。
朴素贝叶斯条件概率公式可表示为:
()()()i i i p c p c p c
ωωω=
(1)
武壮
如果()()12 p c p c ωω>,那么分类应当属于c 1;如果()()21 p c p c ωω<,那么分类应当属于c 2; 朴素贝叶斯方法有一个很重要的假设,就是基于特征条件独立的假设,也就是我们姑且认为词汇表中各个单词独立出现,不会相互影响,因此,()i p c ω可以将ω展开成独立事件概率相乘的形式,因此:
()()()()()012,,,,i i i i n i p c p c p c p c p c ωωωωω=                          (2)
2) 分类流程图
本文的贝叶斯分类流程分为三部分,如图2所示。
Figure 2. Naive Bayes flow chart
图2. 朴素贝叶斯流程图
(二) 文本预处理
对文本数据进行预处理是为了选择合适的文本特征进行模型建立,以便于计算机能够准确识别并对数据进行处理。文本预处理的过程主要包括:文本分词、剔除停用词(包括没有实际意义的词语、颜文字和标点符号) [15]。
1) 文本分词
分词指是将中文长语句切割为一系列单独活动、结构最小的词。是文本分析中必不可少的一个过程,分词结果对于后续的文本特征提取以及文本倾向性分析都会产生重要影响。
jieba 因其安装简单,且有精确、全和搜索引擎三种模式,支持简体、繁体中文,受到广泛使用。并且jieba 库还具有词性标注功能,可以标注句子分词后每个词的词性,词性标注集采用北大计算所词性标注集,属于采用基于统计模型的标注方法[16]。
2) 剔除停用词
在分词之后,还需要将一些分辨能力差或根本没有分辨能力的词语(如“的,了”),即不能传达情感的词语过滤掉。这些词通常指介词、连词以及一些英文单词、数字、标点符号等[15]。
本研究综合采用了哈工大停用词表、百度停用词表、四川大学机器职能实验室停用表等四个停用表,尽可能提高保留下的文本数据有效性。
(三) 数据质量评估
数据质量评估是提高数据质量的基础和必要前提,它能对应用数据的整体或部分数据的质量给出一个合理的评估,从而帮助用户了解数据质量水平,并采取相应措施以提高数据质量[17]。
数据质量的衡量指标主要包括数据的准确性、完整性、一致性、有效性、覆盖率等。即检验数据是否与其描述主题保持一致,数据是否存在缺失记录或字段,描述统一实体相同属性的值在不同数据集中是否一致,数据是否满足使用条件,是否含有不合法字段或不规则数据,是否存在重复记录;数据来源广度如何、覆盖的人、地点等等是否符合数据要求[18]。