基于隐马尔可夫模型的转录因子文本挖掘算法

J4 ›› 2012, Vol. 50 ›› Issue (02): 320-322.

基于隐马尔可夫模型的转录因子文本挖掘算法

吴晓洲¹, 万里明², 韩霄松¹, 梁艳春¹, 吴春国^1,3

1. 吉林大学计算机科学与技术学院, 符号计算与知识工程教育部重点实验室, 长春 130012;2. 中国人民解放军空军装备研究院装备总体论证研究所, 北京 100076|3. 上海理工大学管理学院, 上海 200093

收稿日期:2011-12-29 出版日期:2012-03-26 发布日期:2012-03-21
通讯作者: 吴春国 E-mail:wucg@jlu.edu.cn

An HMM Based Transcription Factor Name Mining Algorithm

WU Xiaozhou¹, WAN Liming², HAN Xiaosong¹, LIANG Yanchun¹, WU Chunguo^1,3

1. College of Computer Science and Technology, Key Laboratory for Symbol Computation and Knowledge Engineeringof National Education Ministry, Jilin University, Changchun 130012, China|2. Research Institute on General Development and Evaluation of Equipment, EAAF of PLA, Beijing 100076, China;3. School of Business, University of Shanghai for Science and Technology, Shanghai 200093, China

Received:2011-12-29 Online:2012-03-26 Published:2012-03-21
Contact: WU Chunguo E-mail:wucg@jlu.edu.cn

摘要/Abstract

摘要：

提出一种基于隐马尔可夫模型的转录因子文本挖掘算法(HMM-TFM), 该方法通过建立转录因子名称的词库, 利用谓语筛选策略判断句子是否描述转
录因子, 使用隐马尔可夫模型预测单词词性, 并根据前后文单词词性识别转录因子的名称. 实验结果表明, HMM-TFM在英文文献中抽取转录因子名称的查全率和查准率分别可达74.2%和77.9%.

关键词: 隐马尔可夫模型；转录因子；文本挖掘；启动子；生物信息

Abstract:

A text mining algorithm named HMMTFM (hidden Markov model based transcription factor name mining) was presented. The proposed algorithm does not need a dictionary of transcription factor names. A small verb set is defined to filter sentences. Transcription factor names are mined according to the part of speech tagged by hidden Markov model. Experimental results show that the recall rate and precision of HMMTFM come to 74.2% and 77.9%, respectively.

Key words: hidden Markov model, transcription factor, text mining, promoter, bioinformatics

中图分类号:

TP18

吴晓洲, 万里明, 韩霄松, 梁艳春, 吴春国. 基于隐马尔可夫模型的转录因子文本挖掘算法[J]. J4, 2012, 50(02): 320-322.

TUN Xiao-Zhou, MO Li-Meng, HAN Xiao-Song, LIANG Yan-Chun, TUN Chun-Guo. An HMM Based Transcription Factor Name Mining Algorithm[J]. J4, 2012, 50(02): 320-322.

[1]	王立君, 富倩. 一种凹形区域和简单宽边界区域间的拓扑关系表示模型[J]. J4, 2013, 51(03): 487-490.
[2]	王涛, 王瑞芹, 李占山, 陈超. 基于分割的超树分解方法[J]. J4, 2013, 51(02): 257-266.
[3]	王雁苓, 孙利, 郭新辰, 吕学实. 应用字典数据建模[J]. J4, 2013, 51(02): 273-278.
[4]	李健, 欧阳继红, 王国伟, 陈岗. 一个带单洞区域和一个简单区域间的拓扑关系表示[J]. J4, 2012, 50(06): 1209-1213.
[5]	孙凤芳, 朱晓冬, 刘元宁, 张晓旭, 张巍, 李为韬, 李鑫. 一种Personality_OCC情感建模的新方法[J]. J4, 2012, 50(01): 106-110.
[6]	王海洋, 王江, 李红利, 陈颖源, 王延权. 基于Terminal滑模的HindmarshRose神经元放电同步控制[J]. J4, 2011, 49(06): 1087-1094.
[7]	钟毅, 刘桂霞, 郑明, 沈威, 赖丽娜, 周春光. 基于AP算法支持向量机的设计与应用[J]. J4, 2011, 49(05): 906-910.
[8]	葛金辉. 有时间窗的车辆路径问题及改进[J]. J4, 2011, 49(01): 105-111.
[9]	杜会盈, 李占山, 李宏博, 沈海娇. 图分割在Singleton弧相容算法中的应用[J]. J4, 2010, 48(06): 981-986.
[10]	王俊勇, 张长海, 刘元宁, 朱晓冬, 何飞. 基于ROI归一化的ICA/PCA虹膜识别方法[J]. J4, 2010, 48(05): 793-798.
[11]	池淑珍, 周春光, 张长胜, 杨草原. 一种受限于给定最大延误上界的单目标启发式算法[J]. J4, 2010, 48(05): 805-810.
[12]	王红梅, 李宏博, 李占山. 无环配置问题研究[J]. J4, 2010, 48(03): 444-448.
[13]	李永丽, 刘衍珩, 肖见涛, 李向涛, 关伟洲. 基于支持向量机的增量学习算法[J]. J4, 2010, 48(03): 464-467.
[14]	李妮娅, 刘大有, 张健. 面向制造业的产品配置器与PDM集成设计方法[J]. J4, 2010, 48(1): 73-78.
[15]	孙英娟, 黄岚, 翟延东, 蒲东兵, 周春光. 一种基于分类目标的启发式离散化算法[J]. J4, 2009, 47(6): 1251-1254.