关键词: 交通流 ; 大数据 ; 分布式增量 ; 路网相关性 ; STARIMA


Along with the accelerating urbanization, there are more and more contradictions between the number of cars and urban transportation facilities. The congestion time and congested roads in cities are increasing. Intelligent urban traffic management platform is the effective method to alleviate the increasingly serious urban congestion problems. By using prediction results of traffic flow big data, the platform can guide users to adjust the travel plan, and ease the traffic pressure effectively. How to use a large number of spatio-temporal data related to traffic activities to predict the traffic flow is the key to realizing traffic guidance. In this article, a distributed incremental aggregation method for traffic flow data is studied. The method combines the distributed incremental data aggregation method with the traffic flow data cleaning rules, makes cleaning and counting of traffic flow big data, and provides data for traffic flow forecast. With the analysis of traffic flow correlation in the network of upstream and downstream, this article uses the multi-order of turning rate in the intersection to quantize the correlation, builds the spatial weight matrix based on the road network correlation, and improves the STARIMA model. In this article, two groups of contrast experiments were made. Through the contrast experiment between MapReduce method and MPI method, the result proves that the method proposed in this article is better than the MPI method in the development cycle and stable operation. The method’s efficiency can meet the need of traffic flow data aggregation. The traffic flow statistics can be used as the basis of traffic flow forecasting. Through the contrast experiment between the Improved STARIMA model and the Dynamic STARIMA model, the result proves that the Improved STARIMA model, which considers the multi-order correlation between the upstream and downstream sections, matches the distribution rules of traffic flow in road network better. Therefore, the forecast results are more accurate. In conclusion, the method of this article is a new method of traffic flow forecasting in the background of big data, and it can realize accurate prediction.

Keywords: traffic flow ; big data ; distributed incremental ; road network correlation ; STARIMA


1 交通流大数据分布式增量聚合管理方法

1.1 分布式增量聚合流程



图1   交通流大数据分布式增量聚合原理

Fig.1   Distributed incremental aggregation principle of traffic flow big data

1.2 交通流数据清洗规则



图2   交通流数据清洗步骤

Fig.2   Traffic flow data cleaning steps

2 大数据环境下基于路网相关性的交通流预测模型

2.1 交通流在路网中的相关性分析



图3   交通路口上下游交通流

Fig.3   Traffic flow upstream and downstream in the intersection n4

图3中路段上下游关系,可以将邻接路段,第 k个交通数据采样时段 [tk,tk+1]内上游路段 li与下游路段 lj之间的时空相关性 rijk可以用第 k-1个时段路段 li与路段 lj路口转弯率 θij(k-1)来量化,表达式为:



在非邻接路段条件下,上游路段段 li与下游路段 lj之间经过 n个路口,其通路为 Rij={lil1l2ln-1ljl1l2ln-1Ln2},则第 k个交通数据采样时段 [tk,tk+1]内的时空相关性即为在 n个路口的转弯率多阶分配,量化表达式为:


式中, rijnk为路段 li经过 n个路口后与路段 lj的时空相关性, θ为通路中两个相邻路段在对应时段中的路口转弯率;p为自增变量,取值范围为1到n-2。


2.2 基于路网相关性的改进STARIMA模型

2.2.1 改进STARIMA空间权重矩阵

通过分析交通流在路网中的相关性,得到的结论是路网中路段相关性随着上下游阶数增加而减小。本文根据此结论,设计了时空自回归移动平均模型STARIMA(Space-time Autoregressive Integrated Moving Average)模型中的空间权重矩阵,并进行交通流预测。



式中, μ为时间延迟; h为空间间隔; p为时间自回归延迟; mk为第k个时间自回归项的空间间隔; ϕkh为时间延迟为k并且空间间隔为 h的自回归参数; q为移动时间平均延迟; nl为第 l个时间移动平均项的空间间隔; θlh为时间延迟为 l并且空间间隔为 h的移动平均参数; εt为随机误差; Whh阶空间权重矩阵;Zn个路段t时段的交通流量组成的交通流量向量。

公式中的 Wh为一个N×N阶矩阵,但Pfeifer和Deutsch并没有明确指出矩阵中元素该如何取值,使用者可以根据自己需要解决问题的实际情况,来定义矩阵取值。

因此,可以将该矩阵作为空间权重矩阵进行赋值,而赋值时不仅需要考虑某路段历史和当前交通流量,还需要考虑其上游路段的历史和当前交通流量,而且上游路段距离该路段越近,其相关性和对流量预测的影响就越大, Wh空间权重矩阵即可用来定量表达路段之间的相关性。

考虑文献[23]对于 Wh空间权重矩阵的3种限制条件,依据前文交通流在路网中时空相关性分析结论,本文提出的空间权重矩阵元素公式为:


式中, wij(l)为空间权重矩阵元素值, rijlk为路段i和路段j经过l个路口的时空相关性。


2.2.2 模型应用步骤

基于路网相关性的改进STARIMA交通流预测模型,其应用步骤可以分为以下6步: 交通路网拓扑抽象化。根据城市路网的空间拓扑关系,将其抽象为明确表示上下游关系的网状结构,网络中包含方向和长度数据,以此为基础可以建立空间权重矩阵;确定空间权重矩阵元素。利用文献[26]中的交通路口动态转弯率预测模型进行估计,使用公式(4)确定一阶和二阶空间权重矩阵,而三阶以上的由于相关性较小,可以忽略不计; 时间序列平稳化。实际情况下,交通流时间序列为非平稳序列,可以使用序列图[10]通过差分方式使交通流时间序列平稳化; 确定模型阶数和参数。可以使用时空自相关函数[27]与时空偏相关函数[28]确定自回归移动平均阶数,然后利用预测值和实际值残差平方进行参数估计; 模型校验和诊断。检查预测值和实际值之间的误差序列是否满足随机误差,并检查参数估计的统计显著性,若不满足要求则返回上一步; 交通流预测。确定模型阶数和参数之后,即可将交通流历史和增量数据代入模型进行预测。

3 应用实例分析

3.1 数据来源及运行环境


郑州市动态交通流信息采集传感器,包括微波检测器、视频检测器、地磁检测器采集以及浮动车GPS数据。平台数据总量已达到160多亿条,日均增量约2 000万条。本文选取2015年11月9日至11月22日共计14 d的数据进行实验。

实验环境中架设了1台服务器作为中心节点进行交通流预测分析,4台服务器作为分布节点处理增量交通流数据,配置均为Intel5620 2.4GHz,6核,4GB内存,2TB硬盘。

3.2 交通流大数据分布式增量聚合实验

实验设定初始状态下历史交通流数据集合为前4 d的交通流量数据约8 000万条,以15 min为增量周期,每一周期内的数据量约为20万条。由于白天和晚上交通流数据分布不均匀,因此在一个流量高峰周期的数据量可能达到平均量的2倍,即40万条,而且交通流数据是在不断连续增长的,必须在周期时限内完成对数据的快速聚合处理,才能满足中心节点的预测分析的需求。


1) 基于MPI的数据聚合。MPI主从模式并行程序中,主进程负责分配任务和数据,从进程完成任务后返回结果。实验利用文献[29]中的MPI方法,主进程设置在中心节点,在4台分布节点设置4个从进程,从进程中运行的计算主要是对于数据的遍历和清洗算法,在遍历数据同时完成交通网络中流量统计,并传送给中心节点的主进程,最终由主进程完成交通流预测。

2) 基于分布式增量MapReduce的数据聚合。分布节点的4台服务器存储时空数据全集,并对数据集合进行平均分块,配置48个Map运算和4个Combine运算,在Map运算中包含了交通流清洗算法,由分布节点Combine运算完成中间统计数据集处理,之后将中间结果推送到中心节点,最终在中心节点使用Reduce运算进行全局数据聚合,最终执行预测模型生成预测结果。


图4   两种算法不同数据量时间对比

Fig.4   The cost of time of two kinds of algorithm for different amount of data


3.3 基于路网相关性的交通流预测实验


图5   郑州市城区道路交通网及龙子湖高校园区路网抽象化结果

Fig.5   Zhengzhou City road network and abstraction of Longzi Lake college area road network

根据文献[30]的研究发现,交通流预测周期以15 min为宜,若时间间隔过小,交通流数据会被信号灯或其他因素影响而出现较大波动,而时间间隔过大,对于交通流预测又无法起到实际的诱导交通作用。因此本文使用15 min作为数据增量周期进行预测。


1) 动态STARIMA预测模型。文献[12]中提出了该模型,该模型将上下游路段的相关性引入STARIMA模型,但只考虑了一阶上游路段的影响。

2) 基于路网相关性的改进STARIMA模型。本文提出的模型不仅引入路网之间的相关性,而且将n阶上游路段的影响考虑在内。

图5b中的示意路段为例,将实验数据中的前4 d数据作为历史数据,使用两种预测模型对后10 d的数据做预测。每天24 h按照15 min一个周期进行划分,一天分为96个时段,所以共使用384个时段的历史数据预测后960个时段的交通流量,将预测结果和实际交通流数据对比,计算均方误差作为预测误差指标,两种方法得到的预测误差结果如表1

表1   两种方法预测结果均方误差(MSE)对比

Table 1   The MSE comparison of two predict methods results



对比两种方法的实验结果可以看出,基于路网相关性的改进STARIMA方法预测效果要明显优于动态 STARIMA方法,原因在于动态STARIMA方法仅考虑了一阶上下游路段之间的相关性,而本文提出的方法还考虑了二阶以上上下游路段之间的相关性,因此更加符合道路网中交通流的分配规则,预测结果也更加准确。

4 总结与展望



