基于改进型小数据量法的局域网流量预测
王石1,2,3, 隋永新1, 董琰3, 杨怀江1
1.中国科学院 长春光学精密机械与物理研究所,长春 130033
2.中国科学院大学,北京 100039
3.东北师范大学 信息化管理与规划办公室,长春 130024

作者简介:王石(1979-),男,工程师,博士研究生.研究方向:信息安全.E-mail:wangs@nenu.edu.cn

摘要

基于Takens理论对混沌时间序列进行相空间重构,对小数据量法进行如下改进:利用C-C算法计算嵌入维和延迟时间;以功率对频率加权并采用求平均的方法计算平均周期,使小数据量法更加完善。使用改进前、后的小数据量法分别仿真计算Lorenz系统混沌时间序列的Lyapunov指数并预测混沌时间序列,并计算实测局域网流量时间序列的最大Lyapunov指数并预测局域网流量时间序列。仿真及实验结果均表明,采用改进型小数据量法进行流量预测,精度更高、速度更快、预测点数更多。

关键词: 计算机应用; 混沌时间序列; 小数据量法; 局域网流量预测
中图分类号:TP393 文献标志码:A 文章编号:1671-5497(2016)04-1254-07
LAN traffic flow prediction using improved small data method
WANG Shi1,2,3, SUI Yong-xin1, DONG Yan3, YANG Huai-jiang1
1.Changchun Institute of Optics,Fine Mechanics and Physics,Chinese Academy of Sciences,Changchun 130033,China
2.University of Chinese Academy of Sciences,Beijing 100039,China
3. Office of Information Management and Planning,Northeast Normal University,Changchun 130024,China
Abstract

First, the LAN traffic flow time series are reconstructed in the phase space using Takens theory. Then the embedding dimension and delay time are calculated via the C-C algorithm. Third, the average period is calculated via the frequency weighting derived from the power and averaging method. With the above steps the improved small data method becomes more complete. The improved small data method is applied to calculate the largest Lyapunov exponent of the chaos time series of the Lorenz system and the prediction data of the real measured LAN traffic flow time series. Results show that the LAN peak traffic flow is chaotic and the prediction based on the improved small data method is more accurate, faster, and more points can be predicted.

Keyword: computer application; chaos time series; small data method; LAN traffic flow prediction
0 引 言

局域网流量的预测对设计、控制、分析网络具有重要意义。随着互联网的快速发展、新型应用的部署, 现代局域网流量体现为高速、突发等特征, 又具有自相似、低维混沌等非线性动力学特性[1], 基于传统模型(如Possion模型)进行的流量预测遇到了新的挑战[2]。因此, 可以利用混沌控制的基本理论和方法提取局域网流量蕴含的动力学信息并且解决局域网流量预测所遇到的新问题。

混沌的离散情况常常表现为混沌时间序列, 而混沌时间序列中蕴含着丰富的动力学信息, 因此通常采用混沌时间序列的方法进行研究。判断一个时间序列是否为混沌系统, 只需看最大Lyapunov指数是否大于0即可。目前, 计算最大Lyapunov指数的方法主要有Wolf法[3]P范数法[4]、小数据量法[5]等。小数据量法利用了时间序列所有数据进行计算且具有准确、快速、易于操作、抗噪能力强等优点, 因而得到广泛应用。文献[6]利用小数据量算法计算固体“ 类流态” 的最大Lyapunov指数。文献[7]利用小数据量法计算股票市场的混沌吸引子, 分别证明了固体“ 类流态” 和股票市场存在的混沌现象。文献[8]通过虚假临界点法计算嵌入维数以完善小数据量法, 用以计算交通流的最大Lyapunov指数, 其中虚假临近点的判定需要设置门限值, 因此增加了人为主观因素对计算结果的影响。文献[9]根据G-P方法[10]计算出关联维d,再由m≥2d+1确定嵌入维m以改进小数据量算法,对边坡位移进行预测,但没有将系统相空间中延迟时间t和嵌入维m联系起来。

本文基于Takens理论对混沌时间序列进行相空间重构[11], 根据改进的小数据量法计算用网高峰时段局域网流量时间序列最大Lyapunov指数, 并判断其具有混沌特性。然后基于最大Lyapunov指数进行局域网流量时间序列预测计算。改进的小数据量法使用C-C算法计算嵌入维和延迟时间, 提高了Lyapunov指数的准确性和计算速度; 以功率对频率加权并采用求平均的方法计算平均周期, 提高了预测精度和预测点数。实验结果表明, 本文方法是有效的。

1 相空间重构

混沌是有确定性规律的随机性运动。混沌系统的运动轨线经过一段时间的变化后, 通过反复的拉伸和折叠, 最终会产生一种规则的、有型的轨迹, 即混沌吸引子。混沌吸引子可以刻画系统的运动特征。相空间重构思想是为了在高维空间恢复混沌系统的吸引子。Takens[11]证明了如果找到合适的嵌入维数且大于2d(d为状态空间奇异吸引子的维数), 在这个嵌入维空间里可以把有规律的轨迹(吸引子)恢复出来, 为基于混沌时间序列的预测奠定了理论基础。

设混沌系统的时间序列为 {xi}(i=1,2,…,N),找到合适的嵌入维数m和延迟时间t,可重构相空间如下:

Yi=(xi, xi+t, , xi+(m-1)t), YiRm1i=1, 2, , M

式中: M为代表重构相空间中相点总数, M=N-(m-1)t

嵌入维数太低会导致相空间轨线相交; 嵌入维数太高相点空间距离又过大, 只有选取合适的嵌入维数才能使吸引子的轨线充分展开并确定地表达系统的运动规律, 由此计算出来的物理量如Lyapunov指数等才能准确地表征系统的运动特征。延迟时间太小, 相空间中相点坐标差别过小; 延迟时间过大, 会导致相点坐标完全独立无关。延迟时间过大或过小均无法反应系统运动特征。因此嵌入维数 m和延迟时间t的选取是相空间重构的关键。

2 最大Lyapunov指数计算及混沌时间预测
2.1 小数据量法

混沌系统的基本表现形式为“ 蝴蝶效应” , 即系统对初始值的极端敏感性, 两个相差无几的初始值所产生的轨迹随着时间的推移按指数方式分离。Lyapunov指数是混沌系统在整个吸引子的轨线上平均后得到的特征量。其中最大Lyapunov指数可以定量地描述两个很靠近的初始值所产生的轨道随时间推移按指数方式分离的现象[12], 因此可以基于最大Lyapunov指数实现混沌时间序列的预测。文献[12]证明了只要最大Lyapunov指数大于0, 就可以肯定混沌的存在, 因此在许多实际应用只需计算最大Lyapunov指数即可。

小数据量法是计算混沌系统时间序列的最大Lyapunov指数的一种方法, 其算法步骤为:

(1)对时间序列 {xi}(i=1, 2, , N)做FFT变换, 计算延迟时间 t和平均周期P。其中延迟时间t根据自相关函数下降到初始值的1-1/e;平均周期P根据能量谱的平均频率的倒数估计。

(2)根据Takens理论, 由m≥2d+1估计嵌入维数m,d为状态空间奇异吸引子的维数。

(3)根据嵌入维数m和延迟时间t重构相空间, 如式(1)所示。

(4)寻找相空间中每个点 Yi的最邻近点Yj, 并限制短暂分离, 即:

di(0)=minYi-Yj, i-j> P2

(5)对相空间中每个点 Yi, 计算出该邻点对的k个离散时间步后距离di(k):

di(k)=|Yi+k-Yj+k|(3)i=1, 2, , min(M-i, M-j)

(6)对每个 k, 求出所有ilndi(k)平均值y(k):

y(k)=1qhi=1qlndi(k)(4)

式中: q为非零di(k)的数目; h为采样周期。

用最小二乘法作出回归直线, 该直线的斜率即最大Lyapunov指数λ 1

2.2 预测方法

根据Lyapunov指数的物理意义, 最大Lyapunov指数可以定量地描述两个很靠近的初值所产生的轨道随时间推移按指数方式分离的现象[12]。因此可以按照如下步骤对混沌时间进行预测:

(1)根据嵌入维数m和延迟时间t重构相空间, 如式(1)所示。

(2)选取预报中心点YM,找到YM 最邻近点Yj两相点各自随时间推移一步, 其轨道距离将按指数分离, 可表示为:

|YM+1-Yj+1=YM-Yj|eλ15

式中:只有 Y(M+1) 的最后一个分量x(n+1) 是未知的,从而可以计算出原时间序列的一步预测值x(n+1)

(3)依次随时间推移选取预测中心点 YM+1, YM+2, , 利用步骤(2)预测值并重复执行步骤(2), 可以计算有限步推测值xn+2, xn+3,

(4)最大可预报时间依然可以依据此理论推测。两最邻近相点 YiYj, 各自随时间推移k步, 其轨道距离按指数分离, 可表示为:

|Yi+k-Yj+k|)/d(0)=ekλ16

式中: d0为两相点的初始距离。

可以认为式(6)超过临界C时,轨道发散到不可预测,这时所经历的时间就是临界时间,即最大可预报时间t0,并且有t0=lnC/(λ1 。)通常取C=e或更小,可得到:t0=1/λ1 。t0亦为最大可预测点数或最大可预测步数。

3 仿真实验及分析

仿真实验考察混沌系统Lorenz系统 x分量所生成的时间序列, 采用上述小数据量法计算该时间序列的最大Lyapunov指数, 并且基于该值对时间序列进行预测。

Lorenz方程如下:

x·=-a(x-y)y·=-xz+cx-yz·=xy-bz

式中: a=16; b=4; c=45.92

初始值 [x, y, z]=[-1, 0, 1], 并除去前面50 000个点, 用后面2880个点, 采样周期h=0.01。

依据小数据量法计算平均周期 P=0.32;延迟时间t=14。算法中并没有明确指出计算嵌入维数m的方法,在此给m设定一个较大的范围(2≤m≤14)对算法进行评估, 计算结果见表1。评估标准如下:预测方法对预测点的计算有开方过程, 预测有效点数取为预测结果为实数的点数与最大可预报时间t0两者中的较小值, 用te表示; 预测结果相对误差绝对值小于5%的点数占预测有效点数的百分比, 用tp表示, tp越大代表预测精度越高。以tetp作为评估标准。

表1 小数据量法计算结果(P=0.32, t=14) Table 1 Results of small data method(P=0.32, t=14)

当7≤ m≤ 14时, 最大Lyapunov指数λ 1< 0, 时间序列不在混沌状态。由表1可知, 当m=5时, 理论上最大预报时间(即最大预测步数)t0=90.9。实际预测有效点数te=14, 并且所有点预测值与真实值相对误差绝对值小于5%。因此, 当平均周期P=0.32、延迟时间t=14时, 可取嵌入维 m的估计值为5, 此时最大Lyapunov指数λ 1=0.011073, 大于0, 说明仿真实验所选Lorenz系统 x分量对应的时间序列处于混沌状态。表2是基于以上参数的预测结果。

表2 基于小数据量法的预测结果(m=5, t=14, P=0.32) Table 2 Prediction results based on small data method (m=5, t=14, P=0.32)

根据以上的实验结果进行分析, 以下问题值得进一步研究:

(1)实际预测有效点数与最大可预报时间相差较大。

(2)小数据量算法对较大范围的延迟时间变化工作效果良好, 但是算法没有说明随延迟时间变化引起的最大Lyapunov指数变化对实际应用中的预测结果有什么影响, 需要验证。

(3)如何提高计算嵌入维数 m的效率。

(4)时间序列平均周期依据能量谱平均频率选取是否合理。

(5)预测精度可否进一步提高。

针对以上问题进行以下数据分析:

(1)考察延迟时间变化对计算最大Lyapunov指数及预测结果的影响。

表3数据可知, 保持m不变, t在一定范围内最大Lyapunov指数变化不大, 符合小数据量算法描述。但是tetp有明显波动, 比较所有数据, 当m=3、t=11时预测效果最好,理论上最大预报时间(即最大预测步数)t0=29.6,实际预测有效点数te=27, 二者接近, 并且预测精度较高tp=92.6%。

表3 小数据量法计算结果(3≤ m≤ 6, 11≤ t≤ 14, P=0.32) Table 3 Results of small data method (3≤ m≤ 6, 11≤ t≤ 14, P=0.32)

参数 m=3t=11的估计值由统计数据得出, 应用于实际预测工作计算难度高、计算量大。且两个参数与小数据量算法的估计值都不相同, 因此对小数据量法作出改进, 使参数计算更加合理。同时需要确定嵌入维数 m的计算方法以降低实际预测计算的复杂度与难度。实际上, 估计嵌入维数 m和延迟时间t的确定方法现在主要有两种观点。传统的观点认为两者应该独立选取, 如求嵌入维数的G-P算法或虚假临近点法, 求延迟时间的自相关函数法、互信息量法。近来研究表明两者是相关的, 延迟时间的选取不应独立于嵌入维, 而应依赖于延迟时间窗tw=(m-1)t。延迟时间t确保时间序列各成分的相关性, 时间窗tw则依赖于嵌入维数m。Kim等[13]于1999年提出C-C算法, 基于以上理论应用混沌时间序列的关联积分可以同时估计出twt, 进而计算出m

利用C-C算法可以计算出延迟时间窗tw=80, 延迟时间t=10, 则m=9。按照以上参数进行预测计算, 结果如下:λ 1=0.007 737 7; t0=33.8; te=3; tp=66.7%。

由计算数据可知, 理论上最大预报时间t0=33.8, 实际预测有效点数te=3, 二者相差很大, 考察平均周期 P对计算结果的影响。

(2)考察平均周期变化对计算最大Lyapunov指数及预测结果的影响

对时间序列 {xi}(i=1, 2, , N)进行DFT变换:

X(n)=i=1Nx(i)e-j2πni-1N7

变换中用到的频率为:

fi=2πi-1N, i=1, 2, , N8

变换后的幅值谱为:

X(n)=(i=1Nx(i)cos(-nfi))2+(i=1Nx(i)sin(-nfi))29

则变换后的功率谱 F(n)=|X(n)|2

取功率F(i)(i=1,2,…,N)对频率fi (i=1,2,…,N)加权并求加权平均的值作为平均周期P,则有:

P=i=1NF(i)(i=1NF(i)fi)10

以此方法计算的平均周期P=27, 利用了时间序列的所有数据, 不仅与时间序列的长度相关而且依赖于时间序列的具体值。

选取P=27并以C-C算法计算的延迟时间 t=10m=9进行预测计算, 结果如下:λ 1=0.029587; t0=33.8te=33tp=84.8%。可知, 理论上最大预报时间t0=33.8, 实际预测有效点数te=33, 二者接近; 预测精度较高tp=84.8%, 有效性和预测精度与由表3得出的统计结果相当。因此改进平均周期的计算方法及使用C-C算法计算嵌入维数和延迟时间后, 使小数据量法更完善, 计算速度快、预测精度高。根据改进型小数据量法计算得出如下参数: m=9; t=10; P=27; λ1=0.029587, Lorenz系统预测数据见表4

表4 基于改进型小数据量法的预测结果 Table 4 Prediction results based on improved small method

表4数据可知, 预测值前29个点相对误差绝对值在5%以内, 预测值比较准确。从第30点开始, 相对误差急剧增加并且越来越大, 符合相空间轨迹逐渐发散的实际情况。

4 改进型小数据量法及其实际应用

综合以上分析, 改进型小数据量法算法步骤如下:

(1)对时间序列 {xi}(i=1, 2, , N)做DFT变换, 以功率对频率加权并求加权平均, 计算平均周期P, 如式(10)所示。

(2)根据C-C算法, 计算嵌入维数 m和延迟时间t

算法其余步骤及预测方法与小数据量法相同。

采用小数据量法及上述改进的算法对真实网络流量进行预测, 验证改进后算法在实际工作中的效果。

所分析局域网流量数据来自某高校核心交换机联通出口数据。测试时间为2014年3月1日至3月10日, 选取7∶ 00~23∶ 00用网高峰时段进行采样。采样周期30 s, 采样点数1760个。

用小数据量法估计出m=6;t=12;P=0.32;λ1=0.2079。则t0=1/λ1 =4.8,得到7个有效预测点,预测值见表5。采用改进型小数据量法估计出m=11;t=10;P=53;λ1=0.2128,则t0=1/λ1=4.7。λ1>0说明用网高峰时段局域网流量时间序列处于混沌状态。得到10个有效预测点, 预测值见表6

表5 基于小数据量法的局域网流量预测结果 Table 5 Prediction results of LAN traffic flow based on small data method
表6 基于改进型小数据量法的局域网流量预测结果 Table 6 Prediction results of LAN traffic flow based on improved small data method

对比表5表6数据可知:小数据量法对局域网流量预测相对误差绝对值在5%以内, 改进算法预测的相对误差绝对值90%的点在3%以内, 说明改进算法预测精度更高, 同时有效预测点数也更多。

5 结束语

局域网流量预测对预判网络拥塞、病毒攻击等有重要意义, 基于混沌理论的局域网流量预测具有不用事先建立主观模型、预测精度高等优点。根据改进型小数据量法计算用网高峰时段局域网流量时间序列最大Lyapunov指数, 可以判断出该时间序列处于混沌状态, 为基于混沌理论的局域网流量预测提供了依据。改进型小数据量法使用C-C算法计算嵌入维数的延迟时间, 降低了估计嵌入维的复杂度和难度, 提高了计算速度, 也使两个参数的计算更准确。改进的平均周期利用了混沌时间序列的长度和具体值, 与混沌时间序列自身相关, 更具代表意义。实验结果表明, 基于改进型小数据量法的局域网流量预测速度更快, 精度更高, 预测点数更多。

The authors have declared that no competing interests exist.

参考文献
[1] Leland W. On the self-similar nature of Ethernet traffic(extended version)[J]. IEEE/ACM Transactions on Communications on Networking, 1994, 2(1): 1-15. [本文引用:1]
[2] 张宾, 杨家海, 吴建平. Internet流量模型分析与评述[J]. 软件学报, 2011, 22(1): 115-131.
Zhang Bin, Yang Jia-hai, Wu Jian-ping. Survey and analysis on the Internet traffic model[J]. Journal of Software, 2011, 22(1): 115-131. [本文引用:1]
[3] Wolf A, Swift J B, Swinney H L, et al. Determining Lyapunov exponents from a time series[J]. Physica D Nonlinear Phenomena, 1985, 16(3): 285-317. [本文引用:1]
[4] Barana G, Tsuda I. A new method for computing Lyapunov exponents[J]. Physics Letters A, 1993, 175(6): 421-427. [本文引用:1]
[5] Rosenstein M T, Collins J J, DeLuca C J. Apractical method for calculating largest Lyapunov exponents from smalldatasets[J]. Physica D Nonlinear Phenomena, 1993, 65(1-2): 117-134. [本文引用:1]
[6] 张贵杰, 高后秀, 杨渝钦. 基于小数据量法计算固体“类流态”的最大Lyapunov指数[J]. 天津大学学报, 2006(增刊1): 185-189.
Zhang Gui-jie, Gao Hou-xiu, Yang Yu-qin. Calculating largest Lyapunov exponent of solid quasi-fluid with small data sets arithmetic[J]. Journal of Tianjin University, 2006(Sup. 1): 185-189. [本文引用:1]
[7] 李红权, 邹琳. 股票市场混沌吸引子的特征量——基于G-P算法与小数据量算法[J]. 计算机工程与应用, 2007, 43(6): 229-232.
Li Hong-quan, Zou Lin. Empirical study on chaotic attractor in stock market based on G-P arithmetic and small data arithmetic[J]. Computer Engineering and Applications, 2007, 43(6): 229-232. [本文引用:1]
[8] 卢宇, 陈宇红, 贺国光. 应用改进型小数据量法计算交通流的最大Lyapunov指数[J]. 系统工程理论与实践, 2007(1): 85-90.
Lu Yu, Chen Yu-hong, He Guo-guang. The computing of maximum Lyapunov exponent in traffic flow applying the improved small-data methed[J]. Systems Engineering-Theory and Practice, 2007(1): 85-90. [本文引用:1]
[9] 陈益峰, 吕金虎, 周创兵. 基于Lyapunov指数改进算法的边坡位移预测[J]. 岩石力学与工程学报, 2001(5): 671-675.
Chen Yi-feng, Lyu Jin-hu, Zhou Chuang-bing. Prediction of slope displacement by using Lyapunov exponent improved technique[J]. Chinese Journal of Rock Mechanics and Engineering, 2001(5): 671-675. [本文引用:1]
[10] 董春娇, 邵春福, 张辉, . 基于G-P算法的快速路交通流参数相空间重构[J]. 吉林大学学报: 工学版, 2012, 42(3): 594-599.
Dong Chun-jiao, Shao Chun-fu, Zhang Hui, et al. Phase space reconstruction of traffic flow parameters on expressway based on G-P algorithm[J]. Journal of Jilin University(Engineering and Technology Edition), 2012, 42(3): 594-599. [本文引用:1]
[11] Takens F. Detecting strange attractors in turbulence[J]. Lecture Notes in Math, 1981, 898(2): 366-381. [本文引用:2]
[12] 刘秉正, 彭建华. 非线性动力学[M]. 北京: 高等教育出版社, 2004: 403-415. [本文引用:2]
[13] Kim H S, Eykholt R, Salas J D. Nonlinear dynamics, delay times and embedding windows[J]. Physica D: Nonlinear Phenomena, 1999, 127(1-2): 48-60. [本文引用:1]