基于矢量量化的长期直觉模糊时间序列预测
郑寇全1,2, 雷英杰1, 王睿1, 余晓东1
1.空军工程大学 防空反导学院,西安 710051
2.中国人民解放军68331部队,陕西 华阴 714200
余晓东(1989),男,博士研究生.研究方向:智能信息处理及信息融合.E-mail:agosoa@163.com

郑寇全(1983),男,博士.研究方向:智能信息处理.E-mail:zhengkouquan0421@163.com

摘要

通过引入滑动窗口机制和矢量量化技术,较好地解决了直觉模糊规则零匹配的问题,准确反映了不确定时序系统数据的分布特性,提高了复杂环境下时间序列长期趋势预测的精度,扩展了直觉模糊时间序列预测理论的应用范围。最后通过典型实例验证了该方法的有效性和优越性。

关键词: 计算机应用; 直觉模糊集; 时间序列; 确定性转换; 矢量量化
中图分类号:TP18 文献标志码:A 文章编号:1671-5497(2014)03-0795-06
Long-term intuitionistic fuzzy time series forecasting based on vector quantization
ZHENG Kou-quan1,2, LEI Ying-jie1, WANG Rui1, YU Xiao-dong1
1. Air Defense and Antimissile Institute, Air Force Engineering University, Xi'an 710051, China
2. Unit of 68331, PLA, Huayin 714200, China
Abstract

A new method for long-term Intuitionistic Fuzzy Time Series (IFTS) forecasting is proposed. By employing the sliding window scheme and vector quantization technique, the non-matching problem of intuitionistic fuzzy rules is solved efficiently. Meanwhile, the distribution characters of the uncertain time series data system are reflected accurately. The long-term forecasting accuracy of time series in the complex environment is improved, thus greatly extending the IFTS forecasting application. Finally, the experimental results validate the efficiency and advantage of the proposed algorithm.

Keyword: computer application; intuitionistic fuzzy sets; time series; deterministic transition; vector quantization
0 引言

时间序列是指随时间变化的具有随机性且前后相互关联的动态数据序列,时间序列分析是用概率论与数理统计的方法研究序列数据关联规律的科学理论[ 1]。现实世界的随机性、缺乏相关属性(参数)以及信息不精确等因素的广泛存在,使得随机理论已无法有效描述和处理样本数据的模糊不确定性。Song[ 2]将序列变量设定为模糊数,首次提出了模糊时间序列(Fuzzy time series,FTS)的概念。由于能较好地处理含糊和不完整的模糊信息,模型具有较强的鲁棒性和兼容性,FTS预测得到了相关领域的重点关注,并与其他优化理论相融合产生了多种改进算法:Singh[ 3]构建了时间不变性FTS预测模型;Bai[ 4]提出了启发式时间不变性FTS预测方法;Aladag[ 5]结合自适应期望和人工神经网络建立了FTS混合预测模型;Li[ 6]将FTS预测扩展到长期时间范围,初步建立了长期FTS预测模型。然而,随着FTS预测理论的日趋成熟,其局限性也逐渐显现:普通模糊集隶属度单一,不能有效描述和表征序列数据的实时模糊变化趋势;等间距论域区间划分无法反映连续数据分布不均匀的特性;FTS预测性能大多局限于短期时间范围,即使少数模型尝试进行长期趋势预测,却均是基于多输入单输出映射,为不同时间范围建立不同的模型,这样不仅增加了系统的复杂度,忽略了预测值间的随机依赖性,且易造成误差积累。因此,FTS预测理论的完善与拓展已成为亟待研究解决的重要问题。

直觉模糊集(Intuitionistic fuzzy sets,IFS)作为模糊理论的重要扩充和发展,其数学描述更加符合客观世界的模糊本质,为不确定信息的研究和处理提供了新的思路[ 7]。Castillo[ 8]首次将直觉模糊推理融入时间序列分析,提出了直觉模糊时间序列(Intuitionistic fuzzy time series,IFTS)的概念,极大地扩展了时间序列对不精确、不完备等模糊信息的处理功效。然而,关于IFTS的研究才刚刚起步,目前正处于初期理论探索阶段,缺乏标准化的体系结构,系统的泛化性能差,预测算法的适用范围有限。文献[ 9]在研究直觉模糊逻辑关系的基础上,规范了IFTS的概念,提出了基于确定性转换的IFTS预测算法,获得了较好的预测精度,但算法仅适用于短期时间范围预测,模型的实际应用范围有限。

鉴于此,本文引入易识别的滑动窗口机制获取序列数据的分布特性,在基于直觉模糊C均值(Intuitionistic fuzzy C-means,IFCM)聚类算法优化论域区间划分标准以及建立确定性转换直觉模糊规则库的基础上,提出了基于矢量量化的长期IFTS预测方法。实例验证结果表明,本文算法取得了较好的预测结果。

1 基础理论

定义1(直觉模糊时间序列) 设{Y(t)}(t∈[1,n])为论域U上的时间序列,给定次序分割集合{Pi},其语言变量为{Li},其中i∈[1,r], {Pi}=U。若在{Li}上相对于Y(t)的直觉模糊集F(t)有隶属度与非隶属度函数<μi(Y(t)),γi(Y(t))>,其中μi(Y(t)),γi(Y(t))∈[0,1],且μi(Y(t))+γi(Y(t))≤1,则称F(t)为定义在Y(t)上的直觉模糊时间序列,并记:

F(t)=+ +…+ (1)

式中:<μi(Y(t)),γi(Y(t))>/Li表示Y(t)相对于语言变量Li及其隶属度、非隶属度函数的对应关系;“+”为连接符号。令fi(t)=<μi(Y(t)),γi(Y(t))>/Li,若将fi(t)理解为语言变量值,则F(t)作为直觉模糊集的集合就可以表示为时间t的函数。因此,IFTS的样本数据集为直觉模糊集。

定义2(直觉模糊时序关系) 设F(t)为给定论域U上的IFTS,则其时序关系式可表示为:

F(t)=(F(t-1)*F(t-2)*…*F(t-m))°Rw(t,t-m) (2)

式中:Rw(t,t-m)=<μR(t,t-m),γR(t,t-m)>为直觉模糊关系矩阵;w为滑动窗口宽度;如果F(t)仅由F(t-1)确定,或者仅由F(t-2)确定,或者仅由…确定,或者仅由F(t-m)(m>0)确定,则“*”取直觉模糊并运算;否则,若F(t)由F(t-1),F(t-2),…,F(t-m)同时确定,则“*”取直觉模糊交运算;本文取合成运算符“°”为“∧-∨”运算。

定义3(直觉模糊范数) 设A=<μA(xi),γA(xi)>,B=<μB(xi),γB(xi)>为论域∨上的直觉模糊集,依据欧氏距离定义直觉模糊范数为

‖A-B‖=[(μA(xi)-μB(xi))2+(γA(xi)-γB(xi))2+…+(πA(xi)-πB(xi))2 (3)

式中:πA(xi),πB(xi)分别表示A、B的犹豫度参数。

定义4(矢量量化) 设给定包含w维向量的数据集 D r。矢量量化方法是指尝试确定预定义的最佳量化数值 M j( j∈[1, c]),通过计算数据向量坐标的最近质心,估计预测值可定位于其质心的相应坐标,以此降低测量数据间的误差。而且一旦编码器生成,根据码本学习理论,每个 D r就被距离最近的质心 所量化[ 10],其计算表达式可定义为:

(4)

式中:“ ”为直觉模糊范数运算符。

2 长期 IFTS预测模型

关于模糊时间序列预测的研究大多都采用短期趋势预测方法,即一个预测步骤只能预测一个未知值,而长期时间序列预测是指一个预测步骤可以获取多个待预测值,形成一个预测矢量。若利用矢量量化方法进行长期时间序列预测必将大幅提升系统的预测性能。因此,如图1所示,本文建立的长期 IFTS预测模型就是通过挖掘历史数据的模糊变化特性,基于直觉模糊逻辑规则构建确定性转换直觉模糊规则库,引入矢量量化方法对预测数据进行处理,从而减小长期时间范围预测的误差积累,提高系统的预测精度。以下对几个关键理论分别进行描述,并总结预测算法。

图1 长期直觉模糊时间序列预测模型Fig.1 Forecasting model of long-term IFTS

2.1 序列数据的直觉模糊化预处理

本文利用IFCM聚类算法优化论域区间划分标准,并在论域划分之前引入易识别的滑动窗口机制,实现序列数据的直觉模糊化预处理。

设给定长度为l的时间序列历史数据X=(x1,x2,…,xτ,…,xl),定义滑动窗口宽度w,序列前件长度p以及预测向量维数d,其中w=p+d。则序列数据的直觉模糊化预处理算法可描述为:

Step1 在时刻τ沿着X序列执行滑动窗口机制,构建X的一个子序列Sτ,可定义为: =(xτ,xτ+1,…,xτ+w-1)。则相应的包含n个子序列数据集S可表示为:

S=, , ,…, (5)

式中:n=(l-p)/d。

Step2 利用IFCM聚类算法对S进行聚类[ 11],获取c个聚类中心,即M={M1,M2,…,Mc}。因此,序列论域便可动态划分为c个优化子区间,其相应的语言变量直觉模糊集Aj可定义为:

Aj=(6)

式中:<μjkjk>表示Mk属于直觉模糊集Aj的隶属度与非隶属度函数对,可按下式计算:

jkjk>=(7)

Step3 直觉模糊化原始序列。根据式(8)计算数据集S中所有子序列Sτ属于Aj的隶属度及非隶属度函数:

>=< ,1- > (8)

式中:e为平滑参数,通常取e=2;λ≤1为犹豫度调节因子。

因此,序列数据集X对应的IFTS可相应地表示为:F(n)=F1,F2,…,Fn,其中Fi∈{A1,A2,…,Ac}。

Step4 参考文献[ 9]动态构建确定性转换直觉模糊规则库(DCRIF_base)。

2.2 基于矢量量化的长期IFTS预测算法

设直觉模糊化预处理后某个时间段待预测的直觉模糊时间序列为Fr=(f1,f2,…,ft,…,fr),相应的查询时间序列为X'=(x1,x2,…,xw)。可见,根据式(2),序列数据ft经推理可获得对应于X'在时刻w+(t-1)d,w+(t-1)d-(d-1),w+(t-1)d-(d-2),…的d维预测值,则其结果时间序列可表示为:

X'=(x1,x2,…,xw, (f2,d),…, (ft,d),…) (9)

式中: (ft,d)=( , ,…, )。

因此,基于矢量量化的长期IFTS预测算法可描述为:

Step1 确定直觉模糊观察子序列Temp F。

若r>q,需观察长度为q的直觉模糊子序列Temp F=Fr-q+s,…,Fr-1,Fr;否则,Temp F=Fs-1,Fs,…,Fr,其中s∈[1,r]。

Step2 根据观察子序列Temp F进行直觉模糊规则库的查看及匹配。

本文采用文献[ 12]中的启发式规则,如果Temp F与确定性转换直觉模糊规则i*的前件rb_cause(i*)匹配,即Temp F→rb_cause(i*),则Fr+1对应规则i*的后件,Temp Fr+1→rb_effect(i*),跳至Step4;否则,转到Step3。

Step3 矢量量化方法估计预测结果。

令Fr=Aj,Aj∈{A1,…,Ac},则IFTS中p维历史数据可表示为:past(Aj,p)=( ,…, , );d维待预测的直觉模糊向量值(缺失值)可定义为: (Fr+1,d)=( , ,…, )。加入历史数据,直觉模糊扩展 (Fr+1,d)为p+d维向量,则Dr+1=(past(Aj,p)| (Fr+1,d))=( , ,…, , , ,…, )。根据式(3)(4)计算距离Dr+1质心最近的直觉模糊聚类中心 =( , ,…, ),即 (Dr+1)=‖Dr+1- ‖= ‖Dr+1-Mj‖。输出Fr+1

Step4 去直觉模糊化精确输出。

若IFTS预测结果为Fr+1,则Defuzz( )= =( , ,…, )。因此,d维预测向量可表示为: (Fr+1,d)=( ,…, , )。

3 算法应用
3.1 实例设计

为了验证预测算法的有效性,本文采用模糊时间序列预测模型研究系列文献中的常用观测数据进行测试[ 13],其输入序列可表示为X(t)=(26.1,27.8,…,30.2),取前20天平均气温数据序列为训练样本,利用基于矢量量化的长期IFTS模型进行预测。

(1)序列数据直觉模糊化预处理

Step1 执行滑动窗口操作获取数据集S,并利用IFCM聚类算法优化区间划分。令p=2,d=2,则w=4。根据式(5)可知:S= , , , , , , , , 。各子序列数据的取值如表1所示。取c=3,即论域可划分为3个子区间,利用IFCM算法获取相应的聚类中心为:M1=(26.15,27.84,29.10,30.47);M2=(29.42,29.81,29.23,30.04);M3=(29.04,28.61,28.15,27.32)。

表1 子序列数据集取值表 Table 1 Subsequence data set values table

Step2 构建直觉模糊时间序列及其对应的确定性转换动态直觉模糊规则库。

设定语言变量直觉模糊集:A1代表{低}、A2代表{适中}、A3代表{高},其中 A j = jkjk>/Mk。根据式(6)(7)可定义直觉模糊集 A j为:

(10)

令犹豫度调节因子λ =0 .97。根据式(3)(8)计算数据集 S中所有子序列属于 A j的隶属度与非隶属度函数对,其结果如表2所示。

根据文献[8]关于直觉模糊期望值计算理论,观察 F( t)对 A j的期望排序,获取 IFTS为: F9 =( A1, A2, A2, A2, A3, A3, A3, A2, A2)。因此,由确定性转换直觉模糊规则库算法可知其对应规则如表3所示[ 9]

表2 直觉模糊集隶属度与非隶属度函数取值表 Table 2 Numerical values for IFS membership grade and non membership grade function
表3 确定性转换直觉模糊规则关系式 Table 3 Rules repository of intuitionistic fuzzy deterministic transition

(2)基于矢量量化方法的长期IFTS预测

Step1 确定观察子序列Temp F。给定测试数据集t=1时刻的数据资料,时间序列(x1,x2,x3,x4)的直觉模糊集可表示为F1→F(1)→A3。查询序列A3的长度r=1,规则库中前件的最大长度q=3,即r0,F1

Step2 直觉模糊规则库查看与匹配。遍历查询表3描述的DCRIF_base可知,没有相匹配的规则。因此,调用矢量量化方法进行IFTS长期趋势预测。

Step3 矢量量化方法获取预测结果。首先,考察p=2维的IFTS历史数据。例如past(A3,2)=(28.15,27.32),增加预测向量进行扩展,则D2=(past(A2,2)| (F2,2))=(28.15,27.32, , ),其中 (F2,2)=( , )为缺失数据,在对扩展向量与IFCM聚类中心进行比较时,不考虑此缺失数据。最后,根据式(3)(4)计算距D2质心最近的聚类中心Mj:M3(D2)= ‖D2-Mj‖。因此,输出预测结果为:F2→A3

Step4 去直觉模糊化输出。由F2→A3可知,Defuzz(A3)=(29.04,28.61,28.15,27.32),则二维待预测向量可表示为: (F2,2)=(28.15,27.32)。用同样的算法遍历整个数据集,若直觉模糊时间序列F=F1F2F3→A3A3A3,则已预测的序列长度r=3,r≥q,根据确定性转换直觉模糊规则库rb8知:F4→A2,待预测向量可表示为: (F4,2)=(29.23,30.04)。因此,如表4所示,可计算测试数据集基于矢量量化的长期IFTS预测结果。

表4 基于矢量量化长期IFTS预测结果 Table 4 Forecasting results for Long-term IFTS based on vector quantization
3.2 算法性能评估及比较

图2所示,将本文提出的长期IFTS预测算法与几种常用的FTS预测算法进行比较,并利用度量标准中的均方差(MSE)、平均预测误差率(AFER)和算法的时间复杂度(T(n))对系统的预测性能进行测试,结果如表5所示。

图2 预测结果对比图Fig.2 Constrast figure of predicted results

表5 预测算法性能比较 Table 5 Performance comparison for different forecasting methods

由此可见,短期FTS预测模型对于具有明显非线性特征的序列数据在长期趋势预测上易陷入局部收敛;基于确定性转换IFTS预测虽能从本质上把握非线性数据的波动特征,较好地反映序列数据的模糊变化趋势,但针对没有规则相匹配的长期时间范围预测,忽略了数据间的模糊依赖性,预测精度不高;基于矢量量化的长期IFTS预测算法将长期趋势预测转换为矢量预测,不仅简化了算法的复杂度,准确描述了序列数据的不确定性本质,充分考虑了历史知识对预测向量的影响,虽短期范围预测的准确度有所波动,但随着时间的延伸,系统的预测精度得到了较大的提高。

4 结束语

针对FTS长期趋势预测理论研究的不足,提出了基于矢量量化的长期TFTS预测方法。将序列数据由单输出扩展为多输出,预测值由标量转换为向量,较大程度地提高了TFTS的长期时间范围预测精度。文中引入滑动窗口机制,准确、快速地获取序列数据的模糊变化特征。利用IFCM聚类算法动态划分论域区间,更加接近不确定数据分布的实际。基于矢量量化的长期时间范围预测,较好地解决了直觉模糊规则零匹配以及长期趋势预测误差积累的问题。最后通过实例验证了本文模型具备较好的预测性能。

The authors have declared that no competing interests exist.

参考文献
[1] Harikrishnan K P, Misra R, Ambika G. Revisiting the box counting algorithm for the correlation dimension analysis of hyperchaotic time series[J]. Communications in Nonlinear Science and Numerical Simulation, 2012, 17(1): 263-276. [本文引用:1] [JCR: 2.773]
[2] Song Q, Chissom B S. Forecasting enrollments with fuzzy time series-Part I[J]. Fuzzy Sets and Systems, 1993, 54(1): 1-9. [本文引用:1] [JCR: 1.749]
[3] Singh S R. A computational method of forecasting based on high-order fuzzy time series[J]. Expert Systems with Applications, 2009, 36(7): 10551-10559. [本文引用:1] [JCR: 1.854]
[4] Bai E, Wong W K, Chu W C, et al. A heuristic time-invariant model for fuzzy time series forecasting[J]. Expert Systems with Applications, 2011, 38(3): 2701-2707. [本文引用:1] [JCR: 1.854]
[5] Aladag C H, Yolcu U, Egrioglu E. A high order fuzzy time series forecasting model based on adaptive expectation and artificial neural networks[J]. Mathematics and Computers in Simulation, 2010, 81(4): 875-882. [本文引用:1] [JCR: 0.836]
[6] Li Sheng-tun, Kuo Shu-ching, Cheng Yi-chung, et al. Deterministic vector long-term forecasting for fuzzy time series[J]. Fuzzy Sets and Systems, 2010, 161(13): 1852-1870. [本文引用:1] [JCR: 1.749]
[7] Atanassov K T. Two theorems for intuitionistic fuzzy sets[J]. Fuzzy Sets and Systems, 2000, 110(2): 267-269. [本文引用:1] [JCR: 1.749]
[8] Castillo O, Alanis A, Garcia M, et al. An intuitionistic fuzzy system for time series analysis in plant monitoring and diagnosis[J]. Applied Soft Computing, 2007, 7(4): 1227-1233. [本文引用:1] [JCR: 2.14]
[9] 郑寇全, 雷英杰, 王睿, . 基于确定性转换的IFTS预测[J]. 应用科学学报, 2013, 31(2): 204-211.
Zheng Kou-quan, Lei Ying-jie, Wang Rui, et al. Prediction of IFTS based on deterministic transition[J]. Journal of Applied Sciences, 2013, 31(2): 204-211. [本文引用:3] [CJCR: 0.5182]
[10] Mwebaze E, Schneider P, Schleif F M, et al. Divergence-based classification in learning vector quantization[J]. Neurocomputing, 2011, 74(9): 1429-1435. [本文引用:1] [JCR: 1.634]
[11] 鲁珊, 雷英杰, 孔韦韦, . 基于模糊核聚类的鲁棒性基础矩阵估计算法[J]. 吉林大学学报: 工学版, 2012, 42(2): 434-439.
Lu Shan, Lei Ying-jie, Kong Wei-wei, et al. Robust fundamental matrix estimation based on kernel fuzzy clustering[J]. Journal of Jilin University(Engineering and Technology Edition), 2012, 42(2): 434-439. [本文引用:1] [CJCR: 0.701]
[12] Li Sheng-tun, Cheng Yi-chung. Deterministic fuzzy time series model for forecasting enrollments[J]. Computers & Mathematics with Applications, 2007, 53(12): 1904-1920. [本文引用:1]
[13] Li Sheng-tun, Cheng Yi-chung, Lin Su-yu. A FCM-based deterministic forecasting model for fuzzy time series[J]. Computers & Mathematics with Applications, 2008, 56(12): 3052-3063. [本文引用:1]