作者简介:董飒(1985-),女,博士研究生.研究方向:数据挖掘.E-mail:dongsa7701@163.com
基于同质性假设的关系分类方法对异质性网络分类性能较差,针对异质性网络的分类问题提出了一种基于类传播分布的关系近邻分类方法.该方法采用二阶马尔可夫假设,分类时考虑来自未标记结点邻居的邻居的影响,并通过计算传播类别向量和传播参考向量使结点间的影响进行传递,结合松弛标注的协作推理方法不断更新分类结果直至类分布收敛.对比实验结果表明,本文方法在异质性网络分类上具有较高的分类精度.
The performance of the relational classifiers based on homophily is poor for the classification in networked data with heterophily. To solve this problem, a relational neighbor algorithm based on propagation distributions is proposed for heterophilous networks. The algorithm adopts the second-order Markov assumption and considers the influence from the neighbors of the unlabeled nodes' neighbors. At the same time the algorithm propagates the influence between nodes through computing propagating class vector and propagating reference vector; and by means of combining the relaxation labeling collective inference method, the algorithm continuously updates the results until the class distributions converge. Experiment results show that the proposed algorithm performs better on the networks with heterophily.
与传统的相互独立且均匀分布的数据实体不同, 网络数据用于建模相互关联的实体.许多针对网络数据的分类方法都是基于同质性假设的.所谓同质性(homophily)是指具有相似特征的结点趋向于彼此连接, 也可以说相互连接的实体倾向于属于相同的类别.这种简单的假设在现实世界的网络中是普遍存在的.基于同质性假设的网络分类方法利用未标记结点的直接邻居的标签来分类结点, 所以当网络数据的同质度较高时这些方法能取得较高的分类精度.然而, 当网络的同质度低, 也就是说大部分相连接的结点具有不同的类标签, 即网络为异质性(heterophily)网络时, 显然基于同质性假设的方法不能获得较高的分类精度.
本文针对异质性网络数据的分类提出了一种基于类传播分布的关系近邻分类方法.未标记结点的类别受其邻居结点的邻居的标签影响, 本文方法通过计算结点的传播类别向量和传播参考向量将邻居结点的邻居的影响传递给待标记结点, 再通过协作推理使这种影响在网络中传播, 当未标记结点的类分布达到一个稳定状态时即得到了最终分类.在6个现实网络数据集上将本文方法与其他3种方法进行比较, 实验结果表明, 该方法在异质网络分类上获得了更好的性能.
分类是网络数据挖掘的主要任务之一.网络数据分类是基于网络和已标记结点的类别预测未标记结点类别的过程.网络数据中的结点表示数据实体, 连接结点的边表示实体之间的关系.结点具有标签信息用于表示实体所属的类别, 例如通过超链接互连的网页, 由引用关系相连接的科研论文等.
针对网络数据分类, Chakrabarti等[1]提出了网络贝叶斯分类器NBC, 是将贝叶斯方法应用于网络数据的一种关系分类方法.2003年, Macskassy等[2]提出的加权投票关系近邻分类器WVRN是一个简单的协作推理方法, 该方法不需要训练过程, 直接以迭代的方式计算未标记结点的类别.2003年, Lu等[3]又提出了网络链接分类器NLB, NLB首先计算特征向量, 再使用逻辑回归建立模型.2006年, Perlich等[4, 5]提出了类分布关系近邻分类器CDRN, 通过未标记结点的直接邻居计算类别向量和参考向量, 由相似度函数得到结点类别的估计概率.2007年, Macskassy等[6]再次证明了WVRN与CDRN结合松弛标注的协作推理方法的分类性能不相上下, 特别是当抽样率小于50%时相比NBC和NLB显示出了卓越的分类性能, 可作为网络分类方法的基准; 而NLB更适合抽样率大于50%的情况.这些方法都是基于同质性假设[7]的, 都是根据直接邻居的类别来预测未标记结点的类别.当网络数据的同质度高时, 这些方法可以实现精确的分类, 然而对于异质性网络这些方法的分类精度有明显的下降.2013年, Wang等[8]针对异质性网络数据分类提出了基于概率的矩阵运算方法CPD, 该方法与随机行走方法MRW[9]和WVRN方法相似, 都是以迭代的方式计算未标记结点, 实验表明该方法对异质性网络分类显示出了较好的性能.但由于该方法的矩阵运算方式以及使用邻接矩阵计算类传播分布, 当网络中结点较多时计算时间的开销非常大.
文献[10]表明, 协作推理方法在处理稀疏标记的网络分类问题上显示了优越性.网络数据的协作推理是指不同的相互关连的实体可以同时被推理.协作推理机制与关系分类器相结合, 不断地更新未标记实体的标签, 直至达到迭代次数或满足收敛条件为止.典型的协作推理方法有迭代分类[3], 吉布斯抽样[11]和松弛标注[1]方法.
不同于同质性网络, 异质性网络中大部分相连接的结点具有不同的类别, 显然此时传统的关系分类方法无法取得较高的分类精度.针对这种类型的网络, 本文将类传播分布的思想应用于基于同质性假设的类分布关系近邻分类器CDRN, 使其适用于异质性网络.
在网络G中, 将已标记结点即类别已知的结点集记为VK, xi 表示结点vi 的类别取值, 也称标签, 其中xi∈ {c1, , et al., cm}, m为类别个数.向量
网络数据分类由于链接(表达相应结点间的关联)的存在, 结点类别分类受其邻居结点的影响.传统关系分类方法基于一阶马尔可夫假设:
式中:
一阶马尔可夫假设利用结点的直接邻居的类别进行分类.本文的分类方法关注的范围扩展到邻居结点的邻居, 基本思想是:假设结点vi 和vl 是相邻结点, 当计算vi 的类别时, 首先通过vl 邻居集Nl 计算vl 的类别向量CV(vl), 来自vl 的类别向量对vi 的分类产生影响, 根据CV(vl)计算vi 的传播类别向量PCV(vi), 此时vi 的传播类别向量PCV(vi)是根据vi 邻居的邻居计算得到的.来自vi 邻居的邻居的影响通过类别向量CV(vl)进行了传播.也可以说本文方法基于二阶马尔可夫假设:
二阶马尔可夫假设使用待分类结点邻居的邻居进行分类.最后通过计算vi 的传播类别向量PCV(vi )k 与传播参考向量PRV(ck)之间的相似度得到vi的概率分布.本文方法中分类结点vi的计算步骤如下:
首先根据Macskassy[6]的方法, 在训练过程中, 结点vl 的类别向量CV(vl)为vl 的邻居结点集Nl 中所有已标记结点vm对应各个类别的加权平均值构成的向量:
式中:Z=|Nl |为标准化因子; CV(vl )k 为类别向量CV(vl)的第k个位置, 且ck∈ {c1, , et al., cm}是第k个类.
训练过程中忽略Nl 中所有未标记结点, 即vm∈ VK, 则此时vm 的类分布为对应已知类别ck的概率为1, 其余概率为0的向量.
本文方法为所有已标记结点vi 定义一个m元传播类别向量PCV(vi), 该向量为vi 所有邻居结点vl 的类别向量CV(vl)对应各个类别k之概率的加权平均值构成的向量:
式中:
本文还给出了传播参考向量PRV(c)的定义, PRV(c)也为m元向量, 向量中第k个位置PRV(ck)为所有已标记为标签ck的结点vi 的传播类别向量PCV(vi)的平均值:
式中:
推理过程中计算类别向量时使用了Nl 中未标记结点vm的当前估计概率即类分布, 将式(3)改写为:
最后, 未标记结点vi 被标记为标签ck 的概率P(xi=ck|Nl), 定义为该结点的传播类别向量PCV(vi)与标签ck 的传播参考向量PRV(ck)间的余弦相似度:
式中:
在协作推理过程中本文采用松弛标注方法.该方法返回不确定性, 记录未标记结点集的当前类分布, 算法在式(6)中使用这些概率.松驰标注不是每次标记一个结点后马上更新网络G, 而是冻结当前类分布, 在t+1步迭代时所有结点将根据t步迭代的类分布进行更新.实验证明, 松弛标注方法有时不能收敛, 而是在两个或更多个网络状态间震荡.所以本文采用Macskassy等[6]提出的改进方法, 在每个子迭代中执行模拟退火, 分配给结点当前类分布更多的权重, 而逐渐削弱来自其邻居的影响:
式中:
本文采用以结点为中心的计算方法, 每次分类只计算一个结点, 这种方法有利于将分类系统模块化, 框架由先验计算, 关系分类方法与协作推理方法3个模块组成, 与CPD方法的矩阵运算相区别.
令网络中已标记结点抽样比例
本文使用6个真实的网络来检验本文算法的性能, 包括Cora, Imdb和4个WebKB数据集中的网络.其中WebKB的4个网络包括Cornell, Texas, Washington和Wisconsin.
WebKB项目中, 结点由4所大学的网页组成, 边由网页结点之间的超链接构成.Cora是根据引用关系建立的论文引用关系网络.Imdb中结点表示电影, 结点间的边表示所连接的电影由同一个制作公司制作.实验数据的信息如表1所示.
本文使用Sen[12]给出的同质度形式化定义, 即网络的同质度可以表示为每个结点的邻居结点中与其具有相同标签的邻居所占的平均百分比.因此网络的同质度为:
式中:|Ni|为结点vi 的邻居结点数; |si|为与结点vi 具有相同标签的邻居结点数; N为网络中的结点数.
用式(9)对表1中的网络数据集进行计算, 得到数据集cora, imdb, cornell, texas, washington, wisconsin相应的同质度分别为0.805 703, 0.738 337, 0.265 515, 0.165 911, 0.409 598, 0.231 258.可以看出:cora和imdb是同质性网络, 而其他4个网络的同质度非常低, 从同质性的视角, 可将它们看作异质性网络.
本文将PCDRN方法与其他3个关系分类器在6个现实网络数据集上进行了比较, 以测试PCDRN方法的分类性能.3个基准方法分别是加权投票关系近邻分类器WVRN, 类分布关系近邻分类器CDRN和基于概率的类传播分布CPD方法.其中WVRN是不需要训练过程的简单关系分类器.CDRN是根据类别向量和参考向量的相似度来分类结点的关系分类器.WVRN和CDRN都是基于同质性假设的方法, 同时结合松弛标注的协作推理方法.CPD是基于概率的处理异质网络分类的矩阵运算关系分类器, 其采用迭代的协作推理方法.4个分类器的10-折交叉验证的平均分类精度如图1所示.
本文采用只考虑网络中链接和类标签的单变量分类方法, 实验证明仅仅是网络结构本身(链接+已标记结点标签)对于分类就包括了可观的有用信息.PCDRN在后面4个异质性网络数据集上展现了较好的性能, 特别是当r=10%时.在cora和imdb数据集上PCDRN没有明显优于其他3个分类器, 这是因为WVRN和CDRN是基于同质性假设的分类器, 他们使用未标记结点的直接邻居分类结点, 所以对于高同质度的网络cora和imdb显示了较好的性能.然而不难发现PCDRN在网络cora上性能与WVRN不相上下, 并且略优于CPD, 当r< 40%时明显优于CDRN.可以说, PCDRN不仅在异质性网络上能取得较好的性能, 在同质性网络上同样具有优势.关于后面4个异质性网络, PCDRN的分类精度大大优于WVRN和CDRN.这是因为异质性网络中大部分相互连接的结点具有不同的类别, 所以基于同质性假设的WVRN和CDRN方法的性能降低了.CPD和PCDRN摒弃了同质性假设, 所以它们的分类精度优于以上两种分类器.从图1中还可看出, 在cornell和texas数据集上PCDRN明显优于CPD, 特别是r=10%时.当r> 40%时, PCDRN在异质性网络上体现了绝对优势.实验结果表明, PCDRN对于异质性网络具有较好的分类性能.
WVRN, CDRN和PCDRN都采用了以结点为中心的计算方法, 每次迭代过程中的循环次数与未知结点的度以及标签个数有关, 并且迭代时只对测试集中未知结点进行分类, 与CPD方法采用邻接矩阵对所有结点进行运算不同.令网络数据中结点数为N, 测试集中未知结点数为Nu, 显然N> Nu, 结点vi 的度为d(vi), 标签个数为m, 迭代次数为K.WVRN方法的时间复杂度为O(KNu d(vi)m), 最坏情况结点vi 与所有其他N-1个结点相连接, 此时时间复杂度为O(KNu (N-1)m), 即O(KNu Nm).CDRN方法由于引入了类别向量和参考向量, 故时间复杂度为O(KNu (N-1)m+m2), 即O(KNu Nm+m2).CPD方法的时间复杂度为
现实中存在很多异质性的网络, 这种网络同质度低, 并且大部分相连接的结点具有不同的类标签.此时基于同质性假设的网络数据分类方法应用未标记结点的邻居结点的类别进行分类将得不到合理的分类结果.本文针对异质性网络提出了一种基于类传播分布的关系近邻分类方法, 实验表明此方法对异质性网络分类具有较好的性能.
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|