基于数据分布的快速灰关联分析
代劲1, 胡峰2, 刘歆1
1.重庆邮电大学 软件学院,重庆 400065
2.重庆邮电大学 计算机学院,重庆 400065

作者简介:代劲(1978-),男,副教授,博士.研究方向:智能信息处理,灰理论.E-mail:daijin@cqupt.edu.cn

摘要

从灰关联分析中最核心的灰关联度构造及相应的挖掘算法出发,结合正态分布的普适性,提出了一种体现数据分布特点的正态灰数,并给出了相应的灰度及灰关联度计算方法。在此基础上,构建了一种多粒度无监督的快速灰聚类方法,无需先验知识即可完成自动聚类。通过实验验证了本文方法的有效性,为大数据下灰关联分析的进一步发展提供了新思路。

关键词: 计算机应用; 灰理论; 正态灰数; 灰关联度; 灰关联分析
中图分类号:TP391 文献标志码:A 文章编号:1671-5497(2015)01-0283-08
Novel rapid grey incidence analysis method based on data distribution
DAI Jin1, HU Feng2, LIU Xin1
1.College of Software Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
2.College of Computer Science, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
Abstract

The classic grey theory does not adequately take into account the distribution of data set, and lacks effective methods to analyze and mine large sample in multi-granularity. Considering the universality of normal distribution, a normality grey number is proposed. Moreover, the corresponding definition and calculation method of the incidence degree between the normality grey numbers are constructed. On this basis, the grey incidence analysis method in multi-granularity is put forward to realize the automatic clustering in the specified granularity without any experience knowledge. Experiments fully demonstrate that the proposed method is effective in knowledge acquisition for large data.

Keyword: computer application; grey theory; normal grey number; degree of grey incidence; grey incidence analysis
引言

灰色系统理论[1]是以“ 部分信息已知, 部分信息未知” 的数据为研究对象, 通过对“ 部分” 已知信息的生成、开发, 提取有价值信息的不确定性知识获取模式[2]

灰关联分析是灰色系统理论的重要组成部分, 根据各因素之间发展趋势的相似或相异程度来衡量彼此接近程度。灰关联分析不仅是灰理论的重要研究内容, 同时也是灰色系统分析、预测和决策的基石。目前, 众多学者对此进行了深入研究, 取得了较多的研究成果。针对二元组及语言学习中的多属性群决策问题, 文献[3]提出了基于不完全权重信息的灰关联分析方法; 文献[4]根据指标权重的重要性进行灰关联分析, 解决了股票投资中的多标准决策问题; 针对多属性决策中属性权重的模糊问题, 文献[5]提出了相应的灰关联分析解决方案; 文献[6]用数据的凸性表征样本之间的相似程度, 提出了三维灰色凸关联度的概念; 文献[7]提出了一种基于灰色关联分析和D-S证据理论的决策方法, 显著降低决策的不确定性; 文献[8]将模糊集理论中MYCIN不确定因子和灰色关联方法相结合, 建立推理决策模型; 文献[9]将某一对象属于或不属于某一类别的不确定性程度视为灰度, 提出一种面向集合论的灰度定义与灰数分级方法; 文献[10]提出了方案量变和质变的判定方法和评价者判断质量变化的测度指标, 从而建立了基于灰色关联度的时间权重确定模型。

从以上研究成果可知, 灰关联分析领域正朝着针对数据分布本身, 以降低数据的不确定性方向发展。同时, 更加注重与其他不确定性知识获取方法的相互借鉴, 互相补充。但当前的灰理论研究中, 还缺乏针对数据分布的灰关联分析研究。在信息处理越来越朝大数据、大样本方向发展的当今社会, 越来越凸显出该需求的紧迫性。大数据下灰关联分析的核心在于建立具有较强数据表示能力, 同时便于进行高效数据处理的信息粒子。本文结合数据自身的概率分布, 提出了正态灰数概念并给出了相应的灰度及灰关联度。在此基础上, 构建了一种多粒度的快速无监督灰聚类方法, 无需先验知识即可完成自动聚类分析。在仿真实验中, 该方法取得了较好的效果, 为大数据下灰理论的进一步发展提供了新的思路。

1 灰数与灰关联分析
1.1 灰数与灰度

灰数是已知大概范围而不知其确切数值的数。它是灰色系统的基本单元。

定义1 灰数[1]:指在某一个区间或某个一般的数集内取值不确定的数, 通常用 为白数。

灰数可以通过人们对它的认识加以白化。通常, 借助白化权函数[1]来描述对一个灰数在其取值范围内不同数值的“ 偏爱” 程度。灰色白化权函数反映了人们在主观上掌握的该灰数的信息, 而灰数的灰度则是对该灰数的灰程度的测定, 反映其信息量大小。邓聚龙[1]给出了典型白化权函数灰数灰度:

基于灰区间长度

以上给出的灰度定义皆存在当灰区间长度 分别表示灰数的熵和最大熵。但该定义要求灰数在区间内的取值是离散的, 对于连续型取值缺乏处理能力。

1.2 灰色关联分析

灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法, 其基本思想是通过灰色关联度来比较参考数据列和若干个比较数据列的几何形状相似程度。灰关联度越大, 则序列间发展方向和速率越接近, 关系越紧密。灰色关联分析方法要求样本容量可以少到4个, 对无规律数据同样适用, 不会出现量化结果与定性分析结果不符的情况。

按照相似性度量原理的不同, 目前灰关联度可分为3类:基于距离的方法、基于斜率的方法和基于面积的方法。其中, 邓氏灰关联度和广义灰关联度是应用较为广泛的两种灰关联度计算模型。

定义2 邓氏灰关联度[1]:设 为比较序列, 序列长度相同。则邓氏灰关联度可表示为:

式中:

邓氏灰关联度满足灰关联四公理, 两级最大差与最小差充分利用了多个比较序列的信息, 分辨系数的选择能够削弱比较序列中异常值对关联空间的影响, 使关联度更好地体现出系统的整体性。

广义灰关联度分为灰色绝对关联度和灰色相对关联度, 这两种算法的区别在于通过不同的数据变换方法, 分别从相似性和接近性两个角度衡量数据序列。灰色绝对关联度采用的是始点零化算子, 而灰色相对关联度采用的是初值化算子。

定义3 广义灰色关联度[11]:设序列 变换后生成的像序列, 则广义灰色关联度定义为:

式中:|s|=| x(k)d+ x(n)d|; |si-sj|=| ( (k)- (k))+ ( (n)- (n))|

灰色绝对关联度采用两曲线间相交面积的大小作为序列相似性的度量标准。曲线越相似, 始点零化像越接近, 从而相交面积越小, 关联度越大。

灰色关联度是灰色关联分析的基础, 然而无论是邓氏灰色关联度还是广义灰色关联度, 均对区间序列数据的分布特征考虑不足。当序列本身满足一定的统计特征时, 通过简单的极值或折线段面积计算将具有比较大的误差, 直接影响到关联度取值。

2 正态灰数及相应灰度

如果某一现象决定于若干独立的、微小的随机因素的总和, 并且各个因素的单独作用相对均匀地小, 那么这一现象一般近似于正态分布。

定义4 正态灰数:指在某一个区间或某个一般的数集内取值不确定的数, 且该数的取值满足区间内均值为

借助正态灰数定义, 可以给出正态灰数的典型白化权函数, 如图1所示。

图1 正态灰数典型白化权函数Fig.1 Forms of classic ablation function based on normal distribution grey number

正态灰数具有普遍意义, 由Lindeberg-Levy中心极限定理, 任意一个概率分布中生成的随机变量, 在序列和(或者等价的求算术平均)的操作之下, 均会统一规约到正态分布, 即:

根据正态分布的性质, 正态灰数具有以下的一些性质:

(1)给定

正态分布中, 随机变量的取值具有一个明显的特征, 即在 范围内的变量分布率达到了99%以上, 这部分区域对整个分布起着决定性作用。基于此, 本文提出了正态灰数的灰度定义。

定义5 正态灰数灰度:设 是论域测度。

在此定义下, 可以得到正态分布灰数的形式化描述: 为灰数所在论域, 一般为区间上界和下界。

基于正态分布的灰度为灰理论在大数据下进行多粒度知识获取提供了一种新的思路。但需要特别注意的是, 虽然正态分布具有良好的普适性, 但实际中也存在许多不符合正态假设的数据分布, 如数学中常见 分布等。因此, 在对给定序列能否转换为正态灰数时, 需要对序列进行正态分布假设检验。进行总体正态性检验的方法有很多, 常用的有Jarque-Bera[13]检验及Lilliefors[14]正态性检验。Jarque-Bera检验适用于大样本, 而Lilliefors正态性检验更具一般性。

对于非正态数据, 可以先将非正态分布数据进行正态化转换再进行估计, 如Box和Cox提出的幂转换方法[15]、Johnson分布曲线族方法[16, 17]。也可以采用Bootstrap再抽样法[18]进行处理。以研究样本做为抽样总体, 从研究样本中反复抽取一定数量(如抽取500次)的样本, 通过平均每次抽样得到的参数作为最后的估计结果。

3 基于正态灰数的灰色关联分析
3.1 正态灰数灰关联度

灰色绝对关联度是灰色关联分析的基础, 然而邓氏灰关联度和广义灰关联度均存在以下问题:①序列 长度必须相等, 否则必须进行补齐或者删除较长序列的过剩数据, 增加了系统的不确定性, 直接影响到关联度取值; ②灰色关联度实际是针对白数的操作, 当序列本身具有不确定性, 或序列元素直接就是灰数时, 该关联度将无法处理。

基于以上分析, 结合正态灰数性质, 本文提出一种基于正态灰数的灰关联度, 该关联度以正态随机分布为核心, 通过计算两个正态分布相交面积得到关联度。两个正态分布之间的相交情况如图2所示, 阴影部分面积反映了彼此的相似情况。

图2 两个正态分布的相似情况Fig.2 Similar situation between normal distributions

相交面积为:

式中:

由两分布曲线相交, 故 解得:

由正态分布的3σ 规则可知, 有99.74%的数值落在区间 的分布有下面3种情况:

(1)

(2)若存在 中(见图2(a)), 则:

式中:

(3)若 中(见图2(b)(c)), 则:

式中:

考虑到相似度的规范性, 需对 做归一化处理。将归一化处理后的面积作为两个正态分布的相似度。

定义6 正态灰数关联度:给定正态灰数 则两者之间的正态灰数关联度为:

式中: 间相交面积。

正态灰数关联度简称正态灰关联度。正态灰数关联度更好地考虑了数据在区间内的变化情况, 体现了其概率分布特性, 为基于正态灰数的灰关联分析打下了坚实基础。

3.2 基于正态灰关联度的多粒度无监督快速灰色聚类

灰色聚类是灰关联分析的核心内容, 通过灰数关联矩阵或灰数的白化权函数将观测指标或观测对象划分成若干个可定义类别。目前, 灰色聚类仅支持小样本数据, 而且聚类过程需要人工进行参与, 增加了算法的复杂性与不确定性。基于此分析, 本文提出了一种多粒度无监督快速灰色聚类算法。算法以正态灰关联度为核心, 通过构建灰关联矩阵, 采用改进的k-means方法实现无监督动态聚类。

k-means是一种效率较高的动态聚类算法, 然而传统k-means算法存在着需要人工指定聚类个数, 容易陷入局部最优解的缺陷。基于此, 本文对k-means算法进行了改进。

算法基于如下分析:在聚类时, 将特征最为相似的样本数据划分在同一类中, 而它们在空间中的相互关系可以按照某些范数度量的大小关系来表征。通过逐步增加层数(即聚类数), 层间类与类相互关系随着层数的增加不断变化, 可以某种准则来刻画这种变化, 一旦达到要求, 即表示聚类完成。本文用样本标准差 时, 聚类完成。

基于正态灰关联矩阵, 可构建基于灰关联度的无监督快速灰色聚类算法。

算法1 基于正态灰关联度的无监督快速灰聚类

输入:给定序列

为类别编号

算法步骤:

(1)计算序列初值像与始点零化像//排除序列数据量纲不一致、初始值不一致带来的影响。

(2)对序列进行时间粒度为

(3)对序列进行正态分布假设检测。若不满足, 则进行正态分布转换。

(4)对 进行正态灰序列转换(计算划分序列的期望与方差), 得到正态灰序列:

(5)计算正态灰序列 间的距离:

得到正态灰关联矩阵 为聚类编号, 初始为0。

(6)提取

(7)计算阈值 //聚类结束控制条件。

(8)初始类别K=1, v=0//v为循环控制变量。

(9)Do

①构建中心类别表 置为0;

②设定临时循环控制变量

③当 时, 执行以下循环://当聚类稳定后, 各类的标准差将收敛为一稳定值。

a)

b)计算 中各类别的距离, 将其归并到距离最小的类别中去;

c)根据加权平均修正TC中各类别的中心距离;

d)计算

时, 各类的聚合程度已经比较好, 聚类结束。

(10)根据Csim, 对应更新RClusterid

(11)设置 降序方式, 进行如下处理:

①依次取 中最相似样本集如下:

越大, 则相似度越高;

//每一簇最相似样本集;

(12)返回

经过算法1聚类处理, 得到序列在灰关联度下的等价簇, 相同 即为相似序列。

算法1采用正态灰关联度作为序列相似度计算基础, 对序列的长度、序列取值都无严格要求, 适用于大样本、多粒度的灰关联分析。

4 实验结果及分析

为了考察算法的性能, 采用UCI数据库中的“ Individual household electric power consumption” 数据集进行仿真测试。该数据集记录了一个家庭4年的用电量情况(间隔一分钟采样, 时间从2006年10月至2010年11月), 有效记录数据2 049 280条。

根据数据集特点, 需要按年分析数据集的用电情况, 以月为分析单位找出每年的用电高峰、低谷。

采用算法1对数据集进行处理, 首先得到时间序列在指定时间粒度(月份)的正态灰序列, 如表1所示。

表1 数据集1转换后的正态灰序列 Table 1 Converted normal grey sequence of dataset

按年份对正态灰序列进行指定粒度(月份)聚类, 得到如下聚类结果(按照期望降序排序):

可看到, 在2007-2010年期间, 耗电情况最多的发生在1、2、11、12月, 而且呈稳步递增状态; 3、4、5、6、9、10月耗电量较多, 变化较为稳定; 用电量最小的月份为7、8月, 而且耗电量波动情况最为明显。以2009年每月耗电量为例, 聚类结果如图3所示。

图3中可以看出, 采用算法1进行多粒度聚类处理后的结果与实际数据分布情况较为相符, 整个过程无需人工参与或经验知识, 计算结果体现出了数据的概率分布特性, 充分证明了算法的正确性。

图3 数据集聚类分析结果Fig.3 Cluster distribution of dataset

5 结束语

虽然灰理论正日渐成熟, 但实际应用还不够广泛。一个重要原因是灰理论缺乏行之有效的针对大数据集及多粒度的灰关联分析方法。本文在考虑数据概率分布的基础上, 建立了正态灰数概念并完成了相应的灰度定义。在此基础上, 提出了基于正态灰关联度的多粒度灰关联分析方法。整个分析方法无需先验知识即可完成自动聚类分析, 在聚类实验中取得了较好的效果。在后续的研究中, 将展开正态灰序列的GM模拟及预测模型研究, 建立完整的正态灰关联分析、多粒度模拟与预测理论体系。

The authors have declared that no competing interests exist.

参考文献
[1] 邓聚龙. 灰理论基础[M]. 武汉: 华中科技大学出版社, 2002: 1-46. [本文引用:5]
[2] Liu S F, Hu M L, Yang Y J. Progress of grey system models[J]. Transactions of Nanjing University of Aeronautics and Astronautics, 2012, 29(2): 103-111. [本文引用:1] [CJCR: 0.22]
[3] Wei G W. Grey relational analysis method for 2-tuple linguistic multiple attribute group decision making with incomplete weight information[J]. Expert Systems with Applications, 2011, 38(5): 4824-4828. [本文引用:1] [JCR: 1.854]
[4] Hamzaçebi C, Pekkaya M. Determining of stock investments with grey relational analysis[J]. Expert Systems with Applications, 2011, 38(8): 9186-9195. [本文引用:1] [JCR: 1.854]
[5] Wei G W. Gray relational analysis method for intuitionistic fuzzy multiple attribute decision making[J]. Expert Systems with Applications, 2011, 38(9): 11671-11677. [本文引用:1] [JCR: 1.854]
[6] 吴利丰, 刘思峰. 基于灰色凸关联度的面板数据聚类方法及应用[J]. 控制与决策, 2013, 28(7): 1033-1036.
Wu Li-feng, Liu Si-feng. Panel data clustering method based on grey convex relation and its application[J]. Control and Decision, 2013, 28(7): 1033-1036. [本文引用:1] [CJCR: 0.907]
[7] 李鹏, 刘思峰. 基于灰色关联分析和 DS 证据理论的区间直觉模糊决策方法[J]. 自动化学报, 2011, 37(8): 993-998.
Li Peng, Liu Si-feng. Interval-valued intuitionistic fuzzy numbers decision-making method based on grey incidence analysis and D-S theory of evidence[J]. Acta Automatica Sinica, 2011, 37(8): 993-998. [本文引用:1] [CJCR: 0.572]
[8] 李鹏, 刘思峰, 方志耕. 基于灰色关联分析和 MYCIN 不确定因子的区间直觉模糊决策方法[J]. 控制与决策, 2012, 27(7): 1009-1014.
Li Peng, Liu Si-feng, Fang Zhi-geng. Interval-valued intuitionistic fuzzy numbers decision-making method based on grey incidence analysis and MYCIN certainty factor[J]. Control and Decision, 2012, 27(7): 1009-1014. [本文引用:1] [CJCR: 0.907]
[9] 菅利荣, 刘思峰. 面向集合论的灰度定义及灰色粗糙集模型建立[J]. 控制与决策, 2013, 28(5): 721-725.
Jian Li-rong, Liu Si-feng. Definition of grey degree in set theory and construction of grey rough set models[J]. Control and Decision, 2013, 28(5): 721-725. [本文引用:1] [CJCR: 0.907]
[10] 王翯华, 朱建军, 方志耕. 基于灰色关联度的多阶段语言评价信息集结方法[J]. 控制与决策, 2013, 28(1): 109-114.
Wang He-hua, Zhu Jian-jun, Fang Zhi-geng. Aggregation of multi-stage linguistic evaluation information based on grey incidence degree[J]. Control and Decision, 2013, 28(1): 109-114. [本文引用:1] [CJCR: 0.907]
[11] 刘思峰, 党耀国, 方志耕, . 灰色系统理论及其应用[M]. 5版. 北京: 科学出版社, 2010. [本文引用:1]
[12] 张岐山, 秦洪. 灰数灰度的一个新定义[J]. 大庆石油学院学报, 1996, 20(1): 89-92.
Zhang Qi-shan, Qin Hong. New definition of grey number’s grade[J]. Journal of Northeast Petroleum University, 1996, 20(1): 89-92. [本文引用:1]
[13] Thadewald T, Büning H. Jarque-Bera test and its competitors for testing normality-a power comparison[J]. Journal of Applied Statistics, 2007, 34(1): 87-105. [本文引用:1] [JCR: 0.449]
[14] Lilliefors H W. On the Kolmogorov-Smirnov test for normality with mean and variance unknown[J]. Journal of the American Statistical Association, 1967, 62(318): 399-402. [本文引用:1] [JCR: 1.834]
[15] Box G E R, Cox D R. An analysis of transformations[J]. Journal of the Royal statistical Society: Series B, 1964, 26(2): 221-252. [本文引用:1]
[16] Farnum Nicholas R. Using Johnson curves to describe non-normal process data[J]. Quality Engineering, 1996, 9(2): 329-336. [本文引用:1] [JCR: 0.941]
[17] Band alos. Reliability generalization of working alliance inventory scale scores[J]. Educational and Psychological Measurement, 2002, 62(4): 659-673. [本文引用:1] [JCR: 1.07]
[18] Efron B, Tibshirani R. An Introduction to the Bootstrap[M]. New York: CRC Press, 1993. [本文引用:1]