吉林大学学报(工学版) ›› 2018, Vol. 48 ›› Issue (5): 1593-1599.doi: 10.13229/j.cnki.jdxbgxb20170668

• • 上一篇    下一篇

基于优化k-mer频率的宏基因组聚类方法

刘富1,2, 兰旭腾1,2, 侯涛2, 康冰2, 刘云2, 林彩霞3   

  1. 1.吉林大学 汽车仿真与控制国家重点实验室,长春 130022;
    2.吉林大学 通信工程学院,长春 130022;
    3.海南大学 信息科学与技术学院, 海口 570228
  • 收稿日期:2017-06-27 出版日期:2018-09-20 发布日期:2018-12-11
  • 作者简介:刘富(1968-),男,教授,博士生导师.研究方向:计算机视觉及模式识别.E-mail:liufu@jlu.edu.cn
  • 基金资助:
    国家自然科学基金项目(61503151);吉林省青年科研基金项目(20160520100JH);吉林省省级产业创新专项资金项目(2017C032-4,2017C045-4);海南自然科学基金面上项目(0112631040)

Metagenomic clustering method based on k-mer frequency optimization

LIU Fu1,2, LAN Xu-teng1,2, HOU Tao2, KANG Bing2, LIU Yun2, LIN Cai-xia3   

  1. 1.State Key Laboratory of Automotive Simulation and Control,Jilin University,Changchun 130022,China;
    2.College of Communication Engineering, Jilin University, Changchun 130022, China;
    3.College of Information Science &Technology, Hainan University, Haikou 570228, China;
  • Received:2017-06-27 Online:2018-09-20 Published:2018-12-11

摘要: k-mer频率是进行宏基因组分类时的一种重要的数字特征,然而该特征的维数随参数k的增加呈指数增长,利用该特征进行宏基因组分类易陷入“维数灾难”。为解决此问题,本文提出了一种基于优化k-mer频率的宏基因组DNA序列聚类方法。首先,提取DNA序列的k-mer频率特征;其次,使用非负矩阵分解算法对DNA序列的k-mer频率特征进行优化;最后,利用模糊C均值算法进行聚类。将本文方法在包含有不同物种个数的模拟宏基因组数据上运行的结果表明,其能有效地克服现有宏基因组数据分类方法计算量大的缺点,且分类性能优于同类算法。

关键词: 计算机应用, 模式识别与智能系统, k-mer, 非负矩阵分解, 模糊C均值, 宏基因组

Abstract: DNA sequence classification is a very important step in metagenomic study, and k-mer frequency is a commonly used feature for DNA sequence classification. The dimension of k-mer grows exponentially with k, easily leading to the “dimension disaster”. To solve this problem, this paper proposes a k-mer optimization based metagenomic DNA sequence classification method. First, the k-mer frequency is extracted for each DNA sequence. Second, the k-mer frequency is optimized based on Non-negative Matrix Factorization (NMF) algorithm. Finally, the fuzzy C-means clustering algorithm is used for DNA sequence clustering. Experimental results on metagenomic datasets containing different species show that the proposed method can effectively overcome the shortcoming of traditional classification method, and the classification performance is better than that of several similar algorithms.

Key words: computer application, pattern recognition and intelligent systems, k-mer, non-negative matrix factorization(NMF), fuzzy C-means method, metagenome

中图分类号: 

  • TP391
[1] Teeling H, Glöckner F O.Current opportunities and challenges in microbial metagenome analysis—a bioinformatic perspective[J]. Briefings in Bioinformatics, 2012, 13(6): 728-742.
[2] Burge C B, Karlin S.Finding the genes in genomic DNA[J]. Current Opinion in Structural Biology, 1998, 8(3): 346-354.
[3] Borodovskii M Y, Sprizhitskii Y A, Golovanov E I, et al.Statistical patterns in primary structures of functional regions in the E. coli genome. I. Oligonucleotide frequencies analysis[J]. Molecular Biology, 1986, 77(7): 3816-3820.
[4] Rosen G L, Reichenberger E R, Rosenfeld A M.NBC: the Naïve Bayes Classification tool webserver for taxonomic classification of metagenomic reads[J]. Bioinformatics, 2011, 27(1): 127-129.
[5] Gregor I, Dröge J, Schirmer M, et al.PhyloPythiaS+: a self-training method for the rapid reconstruction of low-ranking taxonomic bins from metagenomes[J]. Peer J, 2016, 4(10): e1603.
[6] Meinicke P, Aßhauer K P, Lingner T.Mixture models for analysis of the taxonomic composition of metagenomes[J]. Bioinformatics, 2011, 27(12): 1618-1624.
[7] 刘富,张潇,侯涛,等. 基于粗糙集的基因信号属性约简[J]. 吉林大学学报:工学版, 2015, 45(2): 624-629.
Liu Fu, Zhang Xiao, Hou Tao, et al.Attributes reduction of gene signal based on rough set[J]. Journal of Jilin University(Engineering and Technology Edition), 2015, 45(2): 624-629.
[8] Koslicki D, Foucart S, Rosen G.Quikr: a method for rapid reconstruction of bacterial communities via compressive sensing[J]. Bioinformatics, 2013, 29(17): 2096-2102.
[9] Jiang X, Weitz J S, Dushoff J.A non-negative matrix factorization framework for identifying modular patterns in metagenomic profile data[J]. Journal of Mathematical Biology, 2012, 64(4): 697-711.
[10] Liang Z, Li Y, Zhao T.Projected gradient method for kernel discriminant nonnegative matrix factorization and the applications[J]. Signal Processing, 2010, 90(7): 2150-2163.
[11] Lin C J.On the convergence of multiplicative update algorithms for nonnegative matrix factorization[J]. IEEE Transactions on Neural Networks, 2014, 18(6): 1589-1596.
[12] 李华, 杨帆, 杨华民, 等. 条纹颜色分离与聚类[J]. 光学精密工程, 2016, 24(5): 1206-1214.
Li Hua, Yang Fan, Yang Hua-min, et al.Separating and clustering of structured light stripe colo[J]. Optics and Precision Engineering, 2016, 24(5): 1206-1214.
[13] 赵文昌, 李忠木. 融合改进人工蜂群和K均值聚类的图像分割[J]. 液晶与显示, 2017, 32(9): 726-735.
Zhao Wen-chang, Li Zhong-mu.Image segmentation algorithm based on improved artificial bee colony and K-mean clustering[J]. Chinese Journal of Liquid Crystal and Displays, 2017, 32(9): 726-735.
[14] 郭少军, 娄树理, 刘峰. 应用颜色聚类图像块的多舰船显著性检测[J]. 光学精密工程, 2016, 24(7): 1807-1817.
Guo Shao-jun, Lou Shu-li, Liu Feng.Multi-ship saliency detection via patch fusion by color clustering[J]. Optics and Precision Engineering, 2016, 24(7): 1807-1817.
[15] 王永,万潇逸,陶娅芝,等.基于K-medoids项目聚类的协同过滤推荐算法[J]. 重庆邮电大学学报:自然科学版,2017,29(4):521-526.
Wang Yong,Wan Xiao-yi,Tao Ya-zhi,et al.Collaborative filtering recommendation algorithm based on K-medoids item clustering[J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition), 2017,29(4):521-526.
[16] 杨玉梅. 基于信息熵改进的 K-means 动态聚类算法[J].重庆邮电大学学报:自然科学版,2016,28(2):254-259.
Yang Yu-mei.Improved K-means dynamic clustering algorithm based on information entropy[J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition), 2016,28(2):254-259.
[17] Leung H C, Yiu S M, Yang B, et al.A robust and accurate binning algorithm for metagenomic sequences with arbitrary species abundance ratio[J]. Bioinformatics, 2011, 27(11): 1489-1495.
[18] Alsop E B, Raymond J.Resolving prokaryotic taxonomy without rRNA: longer oligonucleotide word lengths improve genome and metagenome taxonomic classification[J]. Plos One, 2013, 8(7): e67337.
[19] 吴秋红, 吴谨, 朱磊, 等. 基于图论和FCM的图像分割算法[J]. 液晶与显示, 2016, 31(1): 112-116.
Wu Qiu-hong, Wu Jin, Zhu Lei, et al.Image segmentation algorithm based on graph theory and FCM[J]. Chinese Journal of Liquid Crystal and Displays, 2016, 31(1): 112-116.
[20] 王民, 张鑫, 贠卫国,等. 基于核模糊C-均值和EM混合聚类算法的遥感图像分割[J]. 液晶与显示, 2017, 32(12): 999-1005.
Wang Min, Zhang Xin, Yun Wei-guo, et al.Remote sensing image segmentation based on KFCM and EM hybrid clustering algorithm[J]. Chinese Journal of Liquid Crystal and Displays, 2017, 32(12): 999-1005.
[21] Liang J, Bai L, Dang C, et al.The K-means-type algorithms versus imbalanced data distributions[J]. IEEE Transactions on Fuzzy Systems, 2012, 20(4): 728-745.
[1] 刘富,宗宇轩,康冰,张益萌,林彩霞,赵宏伟. 基于优化纹理特征的手背静脉识别系统[J]. 吉林大学学报(工学版), 2018, 48(6): 1844-1850.
[2] 王利民,刘洋,孙铭会,李美慧. 基于Markov blanket的无约束型K阶贝叶斯集成分类模型[J]. 吉林大学学报(工学版), 2018, 48(6): 1851-1858.
[3] 金顺福,王宝帅,郝闪闪,贾晓光,霍占强. 基于备用虚拟机同步休眠的云数据中心节能策略及性能[J]. 吉林大学学报(工学版), 2018, 48(6): 1859-1866.
[4] 赵东,孙明玉,朱金龙,于繁华,刘光洁,陈慧灵. 结合粒子群和单纯形的改进飞蛾优化算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1867-1872.
[5] 刘恩泽,吴文福. 基于机器视觉的农作物表面多特征决策融合病变判断算法[J]. 吉林大学学报(工学版), 2018, 48(6): 1873-1878.
[6] 欧阳丹彤, 范琪. 子句级别语境感知的开放信息抽取方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1563-1570.
[7] 桂春, 黄旺星. 基于改进的标签传播算法的网络聚类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1600-1605.
[8] 刘元宁, 刘帅, 朱晓冬, 陈一浩, 郑少阁, 沈椿壮. 基于高斯拉普拉斯算子与自适应优化伽柏滤波的虹膜识别[J]. 吉林大学学报(工学版), 2018, 48(5): 1606-1613.
[9] 车翔玖, 王利, 郭晓新. 基于多尺度特征融合的边界检测算法[J]. 吉林大学学报(工学版), 2018, 48(5): 1621-1628.
[10] 赵宏伟, 刘宇琦, 董立岩, 王玉, 刘陪. 智能交通混合动态路径优化算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1214-1223.
[11] 黄辉, 冯西安, 魏燕, 许驰, 陈慧灵. 基于增强核极限学习机的专业选择智能系统[J]. 吉林大学学报(工学版), 2018, 48(4): 1224-1230.
[12] 傅文博, 张杰, 陈永乐. 物联网环境下抵抗路由欺骗攻击的网络拓扑发现算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1231-1236.
[13] 曹洁, 苏哲, 李晓旭. 基于Corr-LDA模型的图像标注方法[J]. 吉林大学学报(工学版), 2018, 48(4): 1237-1243.
[14] 侯永宏, 王利伟, 邢家明. 基于HTTP的动态自适应流媒体传输算法[J]. 吉林大学学报(工学版), 2018, 48(4): 1244-1253.
[15] 赵宏伟, 刘宇琦, 特日根, 陈长征, 臧雪柏. 基于有限序列的压缩新算法[J]. 吉林大学学报(工学版), 2018, 48(3): 882-886.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 彭其渊,徐进,郑升宝,邵毅明,邓天民. 隧道洞口路面两种材料交替对行车的影响及交替位置优化[J]. 吉林大学学报(工学版), 2009, 39(06): 1497 -1503 .
[2] 王昕,姜继海. 轮边驱动液压混合动力车辆再生制动控制策略[J]. 吉林大学学报(工学版), 2009, 39(06): 1544 -1549 .
[3] 武剑,董惠娟,张松柏,张广玉. 压电超声换能器初级串联匹配新方法[J]. 吉林大学学报(工学版), 2009, 39(06): 1641 -1645 .
[4] 郑文忠, 万夫雄, 李时光. 用无机胶粘贴CFRP布加固混凝土板火灾后受力性能[J]. 吉林大学学报(工学版), 2010, 40(05): 1244 -1249 .
[5] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[6] 初亮, 王彦波, 祁富伟, 张永生. 用于制动压力精确控制的进液阀控制方法[J]. 吉林大学学报(工学版), 2013, 43(03): 564 -570 .
[7] 李静, 王子涵, 余春贤, 韩佐悦, 孙博华. 硬件在环试验台整车状态跟随控制系统设计[J]. 吉林大学学报(工学版), 2013, 43(03): 577 -583 .
[8] 朱剑峰, 林逸, 陈潇凯, 施国标. 汽车变速箱壳体结构拓扑优化设计[J]. 吉林大学学报(工学版), 2013, 43(03): 584 -589 .
[9] 胡兴军, 李腾飞, 王靖宇, 杨博, 郭鹏, 廖磊. 尾板对重型载货汽车尾部流场的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 595 -601 .
[10] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .