10.16638/jki.1671-7988.2021.010.003
程登,张亮,赵小羽,黎飞,王兴月,黄祖朋
(上汽通用五菱汽车股份有限公司技术中心,广西柳州545007)
摘要:用户画像中居住地属性往往不易通过访谈的形式获取,针对上述问题,文章提出了一种基于聚类算法的用户居住地预测模型。借助于车辆行驶的大数据,通过DBSCAN聚类和K-means聚类混合算法来分析用户行驶的数据,进而预测用户的居住地,从而丰富新能源汽车的用户画像。实验表明,利用DBSCAN聚类和K-means聚类混合算法分析出的居住地具有较高的准确度。
关键词:用户画像;聚类算法;居住地;预测
中图分类号:U469.7 文献标识码:A 文章编号:1671-7988(2021)10-11-03
New Energy Vehicle User Residence Prediction based on Cluster Algorithm Cheng Deng, Zhang Liang, Zhao Xiaoyu, Li Fei, Wang Xingyue, Huang Zupeng
( Technology Center of SAIC GM Wuling Automobile Co., Ltd., Guangxi Liuzhou 545007 )
Abstract: The residence attribute in user portraits is not easy to be obtained through interviews. To solve the above problems, this paper proposes a user residence prediction model based on clustering algorithm to enrich the number of tags in user portraits. With the help of the big data of vehicle driving, DBSCAN clustering and K-means clustering hybrid algorithm are used to analyze the data of user driving, and then predict the user's residence, so as to enrich the user portrait of new energy vehicles. The experiment shows that DBSCAN clustering and K-means clustering hybrid algorithm are used to analyze the residence with high accuracy.
Keywords: User portrait; Clustering algorithm; Residential address; Prediction
CLC NO.: U469.7 Document Code: A Article ID: 1671-7988(2021)10-11-03
引言福特新款车
用户画像也叫用户角,是用户大数据分析的主要内容[1]。用户画像属于用户信息标签集合,在现实生活中真实存在,除了用户姓名、年龄等静态信息外,还包括用户的使用特性等。通过用户访谈的形式收集用户画像会导致信息缺失以及统计不及时等不足。大数据时代,数据成倍地增加,通过对用户
大数据的挖掘,获取用户驾驶行为的数据,可以帮助整车企业深入分析用户画像,为用户提供更好的服务用户。
本文基于DBSCAN聚类[2]和K-means聚类[3]算法,通过某型新能源汽车T-BOX实时采集的海量数据,应用数据挖掘技术对数据进行预清洗、聚类分析、通过建立预测模型去预测用户的居住地,从而丰富某型新能源汽车的用户画像。
海马王子报价1 数据预处理
1.1 数据样本
新能源汽车终端基于GB/T 32960-2016《电动汽车远程服务与管理系统技术规范》,定时采集CAN网络上的数据,并上传到企业的新能源大数据平台。本次实验所使用的是某整车企业100台新能源汽车,最近3个月的用户车辆行驶数
作者简介:程登(1990-),男,硕士,工程师,就职于上汽通用五
菱汽车股份有限公司技术中心,研究方向为汽车大数据应用。基金
项目:广西创新驱动发展专项资金资助项目(桂科AA18242039);
柳州市科学研究与技术开发计划资助项目(2019AG10202)。
11
汽车实用技术
雷克萨斯ls怎么样12 据,主要包含有:车辆停车经纬度、启动时间、行驶里程、充电时刻、充电经纬度等数据。 1.2 数据清洗
海量的原始数据中存在着大量不完整的数据,这将影响数学建模的效率,导致挖掘结果存在偏差,因此数据清洗尤为重要。数据清洗主要是删除原始数据中的无关数据、重复数据、噪声数据等。本次数据清洗主要是将经纬度越界数据、异常数据和轨迹漂移点等剔除。
2 聚类算法
2.1 DBSCAN 聚类算法
DBSCAN 算法是一类基于密度的聚类算法。其主要思想为:在样本集合X ={x 1,x 2,x 3,…,x N }中任意选取一个数据点出发,按照密度可达的条件往外扩张,最终得到一个最大化的区域。若初始点是核心点,则这个最大化的区域就是一个类或一簇;若初始点为边界点,则会跳至下一个点;若初始点为噪声点,则直接将该点标记为噪声点。
在DBSCAN 聚类算法中,主要涉及以下定义:
定义1 Eps 邻域。对于聚类样本集合X 中的任意一点p ,以p 为圆心,Eps 为半径,所包含的区域就是p 的Eps 邻域,记为NEps (p )。
定义2 核心对象。对于聚类样本集合X 中的任意一点p ,统计该点Eps 邻域范围内的所有数据点个数v ,则核心对象是指v 不小于MinPts 的数据点。
定义3 直接密度可达。如果q ∈NEps (p ),同时点p 为核心对象,则认为对象q 从p 直接密度可达。
定义4 密度可达。在聚类样本集合X 中,如果存在序列p 1,p 2,…p n ,且满足p 1=q ,p n =p 。若是p i +1从p i 直接密度可达,则对象p 从q 密度可达。
图1 DBSCAN 聚类算法解析图
2.2 K-means 聚类算法
空间聚类算法作为一种空间数据划分的重要方法,主要将对象的空间距离按照相似性准则划分到若干个子集中,使得相同子集中各元素间差别最小,不同子集中各元素间差别最大。空间聚类算法是建立在各种样本的空间距离基础上,最常用的是欧几里得距离:
(1) 式中,i =(x i 1,x i 2,…,xim )和j =(y j 1,y j 2,…,y jm )是两个m 维的数据样本。
根据空间聚类算法的类别划分是使得同一类的内部相似度最大、差异度最小,而不同类别的相似度最小、差异度最大。公式(1)的欧几里得距离作为划分准则,即任一空间对象与该对象所属类的几何中心之间的距离比该对象到任何其他类的几何中心距离都小。
图2 K-means 聚类算法解析图
如图2所示,详细描述了K-means 聚类算法的聚类设计过程。首先,由用户确定所要聚类的准确数目k ,并随机选择k 个对象,代表一个类的均值或中心,对剩余的每个对象,根据其(各类中心的距离将它赋给最近的簇。然后重新计算
每个簇内对象的平均值形成新的聚类中心,这个过程重复进行,直到下列(2)式准则函数收敛为止。
(2)
这里,E 是所有研究对象的平方误差总和,p 为空间的点,即数据对象。a i 是簇A i 的平均值,按照这个准则生成的结果簇趋向于独立和紧凑。
2.3 DBSCAN 聚类和K-means 聚类混合算法
K-means 聚类算法对异常点敏感,无法解决噪声点的问题,若地理位置的分布过于分散,按照固定k 值聚合,得到的中心点位置可能和实际相差甚远,导致结果有差异。DBSCAN 聚类算法是按照活动半径的密度可达来聚合,其结果是将数据集合分类,并不求出中心点。
因此本文设计了一种基于DBSCAN 聚类和K-means 聚类的混合算法:利用DBSCAN 算法的密度可达
特性将用户的地理位置数据按活动半径聚合成若干个簇,并且将每一簇的数据集作为新的输入,再利用K-means 算法的迭代聚合求
出中心点的位置。
3 实验结果及分析
基于DBSCAN 聚类的实现过程,设定关键参数Eps 和MinPts 。从聚类数据样本集X 中任意选取一点p ,若该点的条件符合核心对象的判定,那么从该点密度可达的所有数据点成为一个聚类,而不属于任何簇的数据点则被标记为噪声点。关键参数Eps 和MinPts 的选择对聚类效果影响很大,表
1中展示出不同Eps 和MinPts 组合时,算法模型的准确率,
程登 等:基于聚类算法的新能源汽车用户居住地预测
科鲁兹改装图石家庄车管所
13
根据多次实验,最终确定最优解。
表1 DBSCAN 算法参数选择
图3分别给出了不同Eps 和MinPts 组合时,其聚合效果。通过对比,可以看到Eps=1000米浅黄的类聚的精度较差,Eps=500米聚类未完全剔除噪声点,Eps=200米聚类结果精度较高。因此,本文在DBSCAN 算法中选取的关键参数为:Eps=200米,MinPts=5。
保时捷车标(a )Eps=1000米,MinPts=5 (b )Eps=500米,
MinPts=5
(c )Eps=200米,MinPts=5
图3 不同参数聚类对比图
通过K-means 聚类算法可以得到用户居住地的GPS 数据,再对数据纠偏,将聚类出来的GPS 数值转化为适配电子地图的值。再通过电子地图开放平台中的逆地理编码API 服务地址得到精确的地址,最后得出该地址周边的居住小区。
以高德地图为例,将聚类后的GPS 数据纠偏后,通过高德地图开放平台的数据接口,实现逆地理编码,得到用户的居住地。
表2是采集分预测结果,可以看出,基于DBSCAN 聚类和K-means 聚类混合算法的用户居住地预测,可以精准算出用户居住地。对于整个数据采集样本,整体的准确度高达85%以上。
表2 用户居住地预测结果
4 结论
本文基于DBSCAN 聚类和K-means 聚类混合算法设计了一种新能源汽车用户居住地的预测模型,结合大数据能够准确预测用户居住地,有效地解决无法获取新能源汽车用户居住地的难题,丰富了用户画像的标签种类,有助于营销推广活动制定。
参考文献
[1] 宋美琦,陈烨,张瑞.用户画像研究述评[J].情报科学,2019,37(04)
171-177.
[2] 黄翰诚,江渝.一类改进DBSCAN 算法及在金融中的应用[J].高校
应用数学学报,2020,35(2):169-180.
[3] 刘凯.基于K -means 聚类的物流园区用户画像分析[J].物流工程
与管理,2020,3(42) 52-54.
发布评论