智能网联大数据在高并发场景下的技术应用
倪峻
(上汽大通汽车有限公司,上海200438)
摘要:以智能网联大数据在高并发场景下的应用为基础,分析了目前汽车行业主流数据平台技术的优势与劣势㊂以实际业务需求出发,制定了融合离线数据平台和实时数据平台的车联网大数据平台架构,以及基于部分开源产品组件,结合自主开发组件的解决方案㊂通过平台的开发交付㊁迭代优化,以及业务应用过程中的案例分析,梳理出该数据平台的技术特点,并提出了后续改进和扩展的技术思路㊂
关键词:智能网联;数据平台;实时数据;离线数据;数据化
0前言
随着车联网和物联网功能在汽车行业逐步成为标配,通过智能网联的应用提升产品整体竞争力和用户体验,已成为所有汽车整车企业㊁零部件企业,甚至汽车服务企业需要重点关注的领域之一㊂为了在满足国家法律法规要求,以及全国各地甚至国外地区车辆准入条件的前提下,同时尽可能地满足用户的个性化㊁整车智能化等需求,与车联网相关的数据采集㊁传输㊁接收㊁转发㊁保存㊁分析㊁应用等,已成为智能网联板块非常关键的环节[1]㊂
根据车辆动力不同,车辆可分为燃油车㊁纯电动车㊁燃料电池车等;根据使用场景的不同,车辆可以分为偏个人客户的乘用车㊁偏商务用户的商用车,以及工程机械与房车等㊂在不同动力和应用场景下,车辆行驶数据㊁驾驶行为数据㊁车载设备数据㊁车辆周边环境数据,以及采集范围㊁频率㊁数据包大小㊁数据格式㊁加密解密㊁数据响应时效(实时/准实时/非实时)等各项因素,都需要在架构方案设计时进行综合考虑和统筹平衡㊂
本文以实现商乘并举㊁多车型㊁多公司㊁多场景复用的智能网联数据平台为目标,对比分析了目前几种主要的数据平台技术,综合考虑实际应用需求㊁投入产出㊁预留扩展性等因素,制定了基于部分开源组件加自主开发的架构和技术方案,完成平台的整体搭建实施,并通过不断的数据化应用和分析,持续推进数据平台的迭代和优化㊂
1应用场景分析
智能网联最基本的数据需求,源于国家和地方政
府对于新能源车辆安全行驶的管控要求,采集的数据
包括基本的里程数㊁行驶轨迹㊁充放电情况等,逐步增
加扩展到动力电池状态㊁电动机状态等数百个参数㊂
随着国家对于国六车型数据标准的推广与实施,未来
车联网数据标准将成为所有车型的准入要求㊂除了基
本法规标准的要求外,为了实现智能网联的更多应用,
如兴趣点(P O I)推送㊁人车智能交互㊁初级智能驾驶㊁车队管理㊁客货仓管理㊁租赁车辆远程智能控制等功能,
技术人员需要采集大量的车辆行驶数据㊁用户驾驶行
为数据㊁车载设备或车辆周边环境数据㊂由于应用场
景的实时性需求,有些数据在车辆本地的车机端就直
接完成了采集和应用,而更大部分的数据,由于车机本
地算力的限制,以及综合应用的需要,都需要通过远程
通讯模块(T B O X)和传输通道回传到车联网平台(T S P)云端㊂数据格式包括文本㊁音频㊁视频等多种形式㊂数据采集的频率从最初的几十秒/次,逐步缩短到数秒/次,有些用于研发分析和故障诊断的数
据采集频率可能会更高㊂每个数据包大小从几个千字节到十几个千字节不等㊂根据每日平均在线车辆数的估算,每日近万台车辆的上传数据将达到几百个吉字节㊂这对于云端大数据平台的容量和性能都是很高的要求[2]㊂
目前,主流的数据平台技术和特点如表1所示㊂
702021 NO.4
汽车与新动力
为了满足大量数据的读写需求,主流的数据平台可分为结构化数据库和分布式数据库㊂结构化数据库通过提升节点硬件性能来实现大量数据的读写需求,但最终会达到纵向扩展的上限;而分布式数据库则可通过扩展多套并行的数据节点来实现大数据的读写需求,理论上并没有扩展的上限[3]㊂结构化数据库的最大优势是稳定性和单节点性能,而分布式数据库的优势在于操作的扩展性和数据的大量处理㊂在高并发场景下,M y s q l数据库被设计用来存放用户在移动端等触点上的在线行为或订单交易等数据;O r a c l e数据库被
设计用来存放车辆配置㊁研发和生产等结构化标准化数据;M o n g o D B/H b a s e数据库被设计用来存放车辆行驶㊁驾驶行为,以及车机端娱乐主机等数据;R e d i s数据库被设计用来存放高性能缓存数
据,以满足高速的数据读取需求㊂作为大数据平台的基础架构,H a d o o p 数据库在此基础上为H i v e/S p a r k提供查询和计算引擎功能,K a f k a数据库则承担接收高并发大数据的车机端上传功能,并同时转发给多个下级数据处理模块㊂
表1主流数据平台技术及特点
数据平台主要技术特点
关系型数据库(M y s q l㊁S q l S e r v e r㊁O r a c l e等)优点:结构标准化,系统调用接口标准化,便于开发人员应用和维护,支持跨表的复杂查询等㊂
缺点:读写性能比较差,尤其是海量数据的高效率读写;表结构固定,灵活度欠佳;硬盘输入与输出(I/O)存在瓶颈㊂
非关系数据库(M o n-g o D B/H b a s e㊁R e d i s)优点:支持多种数据存储格式,应用场景广泛;存储速度快,可以使用硬盘或者随机存储器作为载体;高扩展性㊁成本低;部署简单,软件的开源性好㊂
缺点:不支持S q l S e r v e r策略,学习和使用成本较高,无事务处理,数据结构相对复杂,复杂查询功能欠佳㊂
H a d o o p分布式文件系统(H D F S)属于分布式文件系统的基础架构,能够对大量数据进行并行处理;H D F S集一般由管理节点和数据节点组成,整个H D F S系统由数百至数千个存储数据片段的服务器组成㊂
H i v e数据库/S p a r k 计算引擎H i v e数据库可为开发人员提供一系列处理分布式数据的方法和工具,比较适合于大批量的离线数据;S p a r k数据技术是专为大规模数据处理而设计的快速通用的计算引擎[4]㊂
K a f k a数据收发系统K a f k a数据收发系统是1种适合于大数据并
发的消息接收和分发系统,可以让大容量的
数据存储保持比较高的稳定性,而且数据传
输性能可以达到每秒数百万字节的级别[5]㊂
2智能网联数据平台架构
2.1应用架构
智能网联作为未来智能驾驶㊁万物互联㊁智慧城市
的重要基础设施,主要包含了 端㊁管㊁云 三大部分㊂
其中, 端 包含了整车本身,以及核心的车控单元㊁车
载主机㊁T B O X,以及各类车载操作系统和应用软件
等,可以看作是1个大号的手机或者1台移动的计算
机终端; 管 主要包括通信和数据传输所需要的运营
商㊁无线传输通道,以及通信协议㊁加密协议等软
硬件系统; 云 则包含了接入网关㊁业务应用,平台应
用等㊂其中,业务应用包括面向个人车主的服务㊁面向
大客户车主的企业服务,以及面向政府的监管服务等;
平台应用包括基础的车控服务㊁数据服务㊁生态服务㊁
安全服务等㊂此外,与用户的数字化触点,如应用程序
(A P P)㊁小程序㊁全球广域网(W e b)应用等,以及这些
触点背后的系统平台,都属于广义 云 的范畴㊂图1
为智能网联T S P平台的应用架构图㊂
通过数据流,以上应用架构可以简单说明如下:车
辆行驶数据㊁车主或司机的驾驶行为通过各类T B O X㊁
A V N等设备上传至接入网关,考虑到并发容量,以及
数据安全等因素,技术人员需要设置多种不同类型和
用户的网关㊂基于企业存量车的历史原因,有些上联
设备之前已经有了异构的网联平台(比如上柴发动机㊁
红岩重卡等),可以通过 云云对接 的方式接入数据㊂
数据在进入网关后,所有数据都会首先保存到大数据
平台,大数据平台会根据数据的类型和应用需求不同,
执行分类备份和归档策略㊂然后,系统根据应用的实
时性要求进行处理㊂有的数据必须立刻转发给相关的
平台,如国家或地方的远程监控平台㊂此外,根据各个
应用的不同需求,系统将简单加工过的数据(加密㊁解斯巴鲁outback
密等处理)传递到不同的应用服务㊂除了车机端上传
的数据,用户在数字化触点,如A P P㊁小程序㊁W e b应
用等产生的数据,会通过相应的系统后台传递到统一
的大数据平台㊂这个过程中还有1个关键步骤,即 用
户数据打通 ㊂通过统一数据抽取(O n e I D)机制,将不
同渠道获取的数据,通过不同密钥标识符(k e y I D)进行
关联,最终完善多场景下的用户标签,为后续 数字孪底盘灯
生 奠定基础㊂除此之外,车辆远程控制㊁F O T A等下
行数据,也是通过云端平台和网关分发到不同的车机
uni-v
终端的㊂
智能网联除了实现基本的车联网功能外,最为核
71
汽车与新动力
图1智能网联T S P平台的应用架构
心的价值就是实现移动出行相关的数据采集㊁传输㊁
分析和应用㊂通过对这些大数据的应用,可以提升智
能驾驶㊁产品功能,以及用户体验,被称为 从业务数
一汽宝来
据化到数据业务化 的持续迭代㊂因此,智能网联的
数据平台是整个车联网平台的非常关键的组成部分,
而且该数据平台并不仅仅属于车联网的数据平台,更
是整个企业级的数据平台㊂通过智能网联数据平台,
可以打通并整合企业的用户数据和车辆数据(图2)㊂目前,企业应用的大数据平台主要分为离线平台和实
时平台2部分㊂其中,数据存储主要存放于H a d o o p 集中㊂H a d o o p集目前总共有3个管理节点和25个数据节点㊂2.2离线平台
2.2.1数据仓库抽取技术(E T L)汇总数据源
为了避免对生产环境数据库造成影响,所有的E T L任务数据源分为2种模式抽取数据㊂对于O r a c l e 数据库,采用O r a c l eG o l d e n G a t e软件将数据实时抽取到1台O r a c l e数据库中,E T L统一从该数据库抽取数据;对于M y s q l和S q l S e r v e r数据库,统一使用只读备库来抽取数据㊂
2.2.2E T L任务调度
智能网联大数据使用自主开发的K a n g a r o o任务调度系统㊂该系统支持多租户模式,可以将多个租户纳入同一系统进行管理,同时又能使各租户的业务在物理和逻辑层面进行隔离,避免互相影响,保证数据安全㊂
2.2.3H i v e/S p a r k
H i v e/S p a r k计算引擎提供了2种不同的引擎对离线数据进行查询功能,其中H i v e的查询时间较长,但占用系统资源相对较少,S p a r k引擎则相反㊂
2.2.4H b a s e
目前,H b a s e数据库主要用于存放车联网数据,分为生产集和归档集2部分㊂生产集为生产业务提供服务,归档数据则用于存放历史数据㊂
2.3实时平台
2.3.1K a f k a
K a f k a数据收发系统主要用于数据通道,实时获取斑马系统实时埋点㊁蜘蛛智联系统实时埋点㊁车联网系统埋点㊁车联网系统警告㊁房车全球定位系统(G P S)信号等数据㊂后续需求还有车机埋点数据,发动机信号数据接入等服务㊂
2.3.2S p a r k/F l i n k
S p a r k/F l i n k数据处理引擎主要用于处理计算K a f k a接收的数据㊂相比S p a r k计算引擎,F l i n k计算引擎能够更方便地控制小文件的生成,缓解车联网集的性能压力㊂
3平台应用情况
通过几年的运行和迭代,上汽大通的智能网联平台逐步接入了上汽大通㊁跃进㊁申沃㊁红岩㊁上柴公司的E V69㊁E V79㊁F C V80㊁E V31㊁S V51㊁C500㊁D20等几十款车型或发动机,共约30多万台终端,日均实时在线车辆约10000台以上㊂历史总数据约为300太字节,
722021 NO.4
汽车与新动力
73
2021 NO.4
汽车与新动力
图2 数据平台系统架构
并以每月20太字节的速度增加㊂图3为智能网联平台的应用情况图㊂
在离线平台方面,目前车联网集的任务资源共分为3个队列㊂其中,上汽商用车队列运行大通所有的E T L 和报表任务;A z k a b a n 任务调度系统的队列负责运行数据管理平台(D M P )相关业务;D e v _u s e r 队列为业务和数据分析人员提供临时查询服务㊂
实时平台主要服务于需要实时数据接入的业务㊂其中,斑马系统的实时数据增长量最大,每天的数据接入量接近14吉字节;蜘蛛智联系统的实时数据接入量每天在4吉字节左右;车联网系统
的实时接入业务也
图3 智能网联平台应用情况
有显著增长㊂
4结论
基于自主开发的智能网联平台,技术人员统一了企业的车联网终端数据格式㊂根据O T A协议,技术人员定义了智联数据报文交互格式,通过K a f k a数据收发系统对接入层和应用层进行了切割,可以让研发团队实现分头独立开发,同时也保证了系统数据流的统一性和延续性㊂在数据平台架构层面,技术人员设计了离线数据平台和实时数据平台相结合的框架,通过关系型数据库㊁非关系型数据库,以及H a d o o p大数据等多种数据平台,整合技术解决方案,既满足了不同业务应用对于数据的需求,又兼顾了系统的扩展性和兼容性,并考虑到了项目实施的成本因素㊂本文中提到的多个模块已获得了软件著作权和发明专利㊂
参考文献
[1]彭昭.智联网未来的未来[M].北京:电子工业出版社,1984.
[2]维克托迈尔舍恩伯格,肯尼思库克耶.大数据时代[M].周涛,译.杭州:浙江人民出版社.
[3]全面梳理S Q L和N o S Q L数据库的技术差别[O L].h t t p://b l o g.c s-
d n.n
21世纪房车网e t/a l e x d a m i a o/a r t i c l e/d e t a i l s/51457399.
[4]郝萌萌.互联网内容分析系统的设计与实现[D].北京交通大学, 2018.
[5]臧其事,谢立帆,李思宇.一种基于网络旁路的应用系统通用监控与预警系统的设计和实现[J].网络安全技术与应用,2018(012):122-123.
奥迪4s店一览表
74汽车与新动力