许佳捷;郑凯;池明旻;朱扬勇;禹晓辉;周晓方
【摘 要】移动互联技术的飞速发展催生了大量的移动对象轨迹数据.这些数据刻画了个体和体的时空动态性,蕴含着人类、车辆、动物的行为信息,对交通导航、城市规划、车辆监控等应用具有重要的价值.为了实现有效的轨迹数据价值提取,近年来学术界和工业界针对轨迹管理问题开展了大量研究工作,包括轨迹数据预处理,以解决数据冗余高、精度差、不一致等问题;轨迹数据库技术,以支持有效的数据组织和高效的查询处理;轨迹数据仓库,支持大规模轨迹的统计、理解和分析;最后是知识提取,从数据中挖掘有价值的模式与规律.因此,综述轨迹大数据分析,从企业数据、企业应用、前沿技术这3个角度揭示该领域的现状.
【期刊名称】《通信学报》
【年(卷),期】2015(036)012
【总页数】9页(P97-105)
【关键词】时空数据库;轨迹数据管理;数据索引;查询优化
【作 者】许佳捷;郑凯;池明旻;朱扬勇;禹晓辉;周晓方
【作者单位】苏州大学计算机科学与技术学院,江苏苏州215006;江苏省软件新技术与产业化协同创新中心,江苏南京211102;苏州大学计算机科学与技术学院,江苏苏州215006;江苏省软件新技术与产业化协同创新中心,江苏南京211102;复旦大学计算机科学技术学院上海市数据科学重点实验室,上海201203;复旦大学计算机科学技术学院上海市数据科学重点实验室,上海201203;山东大学计算机科学与技术学院,山东济南250101;苏州大学计算机科学与技术学院,江苏苏州215006;江苏省软件新技术与产业化协同创新中心,江苏南京211102
【正文语种】中 文
上海大众出租车公司【中图分类】TP392
1 引言
随着卫星导航、无线通信、普适计算技术的不断发展,带有定位功能的移动智能设备被广泛使用。人们在使用这些设备的同时也主动或被动地记录了大量的历史移动轨迹并被持久化保存,形成了时空轨迹(spatio-temporal trajectories)数据。时空轨迹是地理空间加上时间轴所形成的多维空间中的一条曲线,可以表示移动对象在一段较长时间范围内的位置变化。每条轨迹由一序列时空采样点构成,其中每个采样点记录了位置
、时间、方向、速度、甚至人与社会交互活动等信息,刻画了人们在时空环境下的个体移动和行为历史。从宏观角度来看,海量的轨迹数据中不仅蕴含了体对象的泛在移动模式与规律,例如人的移动与活动特征、交通拥堵规律等,还揭示了交通演化的内在机理。在大数据时代,企业级的轨迹数据采集、存储已经普遍达到相当规模并得以有效利用。人们通过轨迹分析等手段进行知识发现,并将它们运用在各种交通和位置服务应用系统中,包括交通导航、城市规划、服务推荐、军事调度、交通指挥、物流配送、车辆监控等。
高质量的轨迹数据具有重要的社会和应用价值,不仅为解决交通拥堵、改善交通服务、监控道路环境、缓解能源紧缺等社会问题提供了新的机遇,而且对认知人们的社会活动、优化公共资源配置有着特殊意义,成为各政府与企业的重要财富并受到广泛重视。在此背景下,轨迹大数据管理被学术、工业界大量研究,轨迹数据分析与挖掘已经成为数据挖掘领域的一个重要的新兴分支。工业界和学术界针对大规模轨迹数据存储与分析技术开展了大量的理论和系统探索工作,包括轨迹预处理、索引、查询优化、轨迹分析与挖掘等。这些成果的使用显著提升了政府管理、社会服务、企业盈利能力,并深入影响了人们的生活方式。但是随着数据规模的指数级增长,应用需求的飞速提升,现有的轨迹数据存储、计算和分析方法面临诸多局限,亟需突破轨迹数据的处理架构、分布式算法等关键技术。
本文将从轨迹分析的需求入手,从数据、应用、技术3个方面阐述该领域现状和发展。在数据方面,介绍轨
迹数据的类型、规模、频率等指标,并分析它们对轨迹数据管理的影响;在应用方面,将介绍各种轨迹数据的典型应用及其场景,并分析其现状和发展趋势;在轨迹管理技术方面,将分类介绍轨迹数据存储与分析领域的科学问题和前沿技术,最后展望大数据环境下的轨迹管理技术存在的问题和发展方向。
2 企业级轨迹数据现状
卫星定位和移动互联技术在近年来的快速发展催生了海量的轨迹数据。它们记录了移动对象在时空环境下的位置采样序列。轨迹数据的来源多样复杂,可以通过车载GPS、手机服务、通信、公交卡,甚至通过射频识别、图像识别、卫星遥感、社交媒体数据等不同方式获取,不同的回传轨迹遵循不同的数据格式和坐标系统。同时,轨迹数据以极快的速度产生并呈指数级增长,调查显示导航服务公司所接入的移动对象数量可达千万,以高速数据流的形态进入存储和处理系统。轨迹数据的一些关键属性(例如更新频率、数据总量、每日增量、时空分布等)对数据处理和分析平台搭建有着直接的影响。
本文首先介绍不同采集方式下真实的企业轨迹数据。表1汇总了不同应用中由GPS、地图服务、、公交卡、道路卡口所采集的轨迹数据及其关键属性。在企业应用中,对象采样频率在秒级、分钟甚至小时级不等,每天所采集的轨迹数据在千万至百亿个采样点的规模区间,最终积累成为TB甚至PB规模的轨迹数据。其中定位的轨迹精度较差,通过CellID所对应的坐标转换获取位置信息,因此精度通常在数百米误
差范围。而车载GPS和地图APP所采集的轨迹采样精度较高,误差通常在数米以内。轨迹库已经成为各大地图、导航等服务公司的重要数据资源,单库的原始轨迹规模通常在百亿条以上。目前已经有一些公开的真实轨迹数据集可用于研究工作,如GeoLife、T-Drive等。
由表1可知,轨迹数据继承了大数据的经典“3V”特征,即量大(volume)、实时(velocity)、多样(variance)。此外,移动对象轨迹数据库的一些特有特征可以总结如下。
表1 代表性轨迹数据images/BZ_38_250_2618_2241_2686.png车辆轨迹 车载GPS 秒级、分钟级 千万-亿级 TB级移动轨迹 地图APP 秒级、分钟级 千万-百亿级 TB、PB级手机轨迹 蜂窝 分钟级 十亿-百亿级 TB、PB级公交轨迹 公交卡 小时级 百万-千万级 TB、PB级卡口数据 卡口抓拍 分钟级 千万级别 TB级行为轨迹 社交媒体 分钟、小时级 百万-千万级 PB级
1)时空序列性。轨迹是时空环境下的采样序列,这些轨迹点序列蕴含了对象的时空动态性,数据操作是以序列为基本单位,显著加大了搜索与分析的处理复杂度。
2)异频采样性。轨迹的采样间隔差异显著,从导航服务的秒级或分钟级采样,到社交媒体行为轨迹的小时甚至以天为间隔的采样,这种差异性极大影响了轨迹的相似性度量与分析。
3)数据质量差。由于连续的运动轨迹被离散化表示,特别是当采样间隔达到数分钟以上或设备的采样精度较差时,位置不确定性对轨迹数据分析构成极大挑战。
4)路网相关性。在交通类应用中,轨迹的运行状态通常限于交通路网,因此数据分析需要首先完成GPS空间向路网空间的映射,并利用路网的时空拓扑信息优化数据处理。
综上,轨迹数据语义丰富,蕴含着各种移动对象的时空和行为信息,被广泛应用在诸多企业级应用中。而轨迹数据的上述特征给轨迹数据处理与分析提出了一系列要求与挑战。
3 企业级轨迹应用
轨迹数据记录了人类的活动和行为历史,蕴含了体性的移动模式和规律。如表2所示,轨迹数据搜索与分析已经被广泛应用在智能交通、位置服务等系统,具体应用主要包括以下几方面。
1)大众化经验路径推荐。路径搜索和导航服务的核心挑战是难以在实时综合各种因素有效地评估并搜索路径。一些地图服务公司借助轨迹分析手段改进路径推荐策略,从大规模轨迹中提取泛在的移动模式,并挖掘不同环境下的高质量“经验”路径,根据实时的背景模式匹配(例如根据气候、车辆类型、交通、匝道开放状态等因素),为用户推荐更为合理、多样化的经验路径,结果显示用这种方式显著提升了用户体验。
2)交通路况预测。通过轨迹流统计的方式评估不同区域的进出流量,检测施工或故障路段,获取实时的交通态势,为用户提供道路预警;通过轨迹数据分析来深入理解交通路况特征和拥堵的演化模式,综合运用历史事件、时空、活动、天气等多维信息,辅助构建数据驱动的城市交通指挥体系,做到指挥决策的先知先觉,警力的优化部署,指挥调度的及时主动;以此引导智能化的交通导航,为导航用户提供准确的行驶时间预测,并根据用户对到达时间的要求推荐路况敏感的合理出行时间。
3)城市规划。通过轨迹计算来分析城市不同区域的社会功能、热度特征,确定这些城市区域的性质、规模和发展方向,提炼城市内、城市间的交通流模式。这些信息被用于指导城市开发、建设和管理,使有关部门能够合理利用土地资源,协调城市的空间布局,为城市建设、重大施工提供决策辅助;为机构、商家和各类活动的选址需求提供解决方案;优化城市公交、地铁等公共服务线路。
4)个性化服务与活动推荐。社交媒体中的轨迹数据记录了用户的位置行为,能够更加深入地分析轨迹,包括对轨迹行为的理解、用户特征的刻画、用户行为模式的挖掘等。针对用户对多个目的区域的活动描述,搜索引擎将为用户推荐能够满足查询意图的商家或个性化的服务与活动;考虑轨迹行为和用户体验(基于情感分析),为观光旅客推荐符合用户兴趣和个性化景点、路线。根据用户的驾驶路线推测目的地和出行意图,进行基于位置的精准广告投放。
5)出租车服务。轨迹数据被用来监控出租车的行驶路线,提供对绕路欺客等现象的检测功能。通过对海量出租车轨迹的分析,系统可以为空驶的出租车优化行驶路线(避免交通拥堵区域、最大化行驶中遇到客户的概率);为行人提示就近的有效打车地点,以及实时的、最优的公共交通出行路线。一些企业尝试通过轨迹挖掘寻具有相似出行模式的用户,实现智能拼车等个性化推荐。
表2 代表性轨迹分析应用images/BZ_39_235_2590_2227_2646.png大众化经验路径推荐 出租车GPS轨迹、私家车移动轨迹数据、气象数据、交通路网数据、历史事故数据等广泛应用在地图服务公司,显著提升服务水平交通路况精准预测 GPS数据(流)、路网路况数据、气象数据、大型活动记录、重大事故数据等用于地图服务和交通指挥系统,但精度尚需提高城市规划智能决策 轨迹数据、地图数据、兴趣点数据、消费数据、价格数据、公交线路、历史事故等数据用于数据驱动的规划决策,多源数据集成与融合是难点个性化服务与活动推荐 车辆与手机轨迹、社交网络与社交媒体数据、兴趣点和签到、评论数据等用于基于位置的服务推荐,需提高语义理解和推荐算法出租车服务 出租车GPS轨迹、私家车移动轨迹、公交线路与轨迹等数据 应用于相关业务优化,有进一步提升空间
在上述应用系统中,对轨迹数据在完整生命周期内的有效处理成为共性需求。学术界和工业界开展了大量的研究工作,这些技术使原始轨迹数据逐步可用,最后变成所需要的信息与知识。下面将介绍轨迹数据管理与分析技术的前沿成果与研究现状。
发布评论