基于特征和HMM的信息提取

J4 ›› 2009, Vol. 27 ›› Issue (04): 396-.

基于特征和HMM的信息提取

纪祥,刘华虓,吴芬芬,刘磊

吉林大学计算机科学与技术院,长春 130012

出版日期:2009-07-20 发布日期:2009-08-27
通讯作者: 纪祥(１９84— )，男，黑龙江鸡西人，吉林大学硕士研究生，主要从事基于语义的web服务研究， E-mail:jixiang_2113@126.com
作者简介:纪祥(１９84— )|男|黑龙江鸡西人| 吉林大学硕士研究生|主要从事基于语义的web服务研究|（Tel）86-13578920655 （E-mail）jixiang_2113@126.com；刘磊(１９60— )|男|长春人| 吉林大学教授|博士生导师|主要从事基于语义的web服务研究|（Tel）86-13086867820 （E-mail）liulei@mail.jlu.edu.cn
基金资助:
中国高等教育博士研究基金资助项目（20060183044）

Information Extraction Based on Character Extraction and HMM

JI Xiang,LIU Hua-xiao,WU Fen-fen,LIU Lei

College of Computer Science and Technology,Jilin University,Changchun 130012,China

Online:2009-07-20 Published:2009-08-27

摘要/Abstract

摘要：

为了解决在信息提取中,召回率和精度都不高的问题，提出了改进的HMM(Hidden Markov Models)模型，该模型采用一种新的文本分块技术。通过文本的语义特征和结构特征,抽取具有特征的状态,并在此基础上,抽取剩余的无特征的状态改进HMM,测试了由卡耐基梅隆大学数据搜索引擎研究小组所提供的100篇计算机科学文件头部。结果表明，与基于字词和传统的HMM方法相比,召回率和精确率分别达到了91.99％和94.79％。

关键词: 文本块, 特征提取, 机器学习, HMM模型

Abstract:

An improved HMM(Hidden Markov Models) was proposed for text information extraction by utilizing the semanteme characteristic and structure characteristic of the text to make certain the states with characteristic. We carry on extracting the remainder states having no characteristic with the improved HMM. It can solve the problem which the recall rate and the precision rate are not high in information extraction.We have tested 100 pieces of headers of computer science paper of the data provided by the search-engine research group from CMU(Carnegie Mellon Univerisity) of USA.The result shows that the recall and precision rate are all improved compared with existing methods which are based on words and traditional HMM.Recall rate and precision rate are 91.99％and 94.79％.

Key words: text block, characterextraction, machine learning, hidden markov models(HMM)

中图分类号:

纪祥,刘华虓,吴芬芬,刘磊. 基于特征和HMM的信息提取[J]. J4, 2009, 27(04): 396-.

JI Xiang,LIU Hua-xiao,WU Fen-fen,LIU Lei. Information Extraction Based on Character Extraction and HMM[J]. J4, 2009, 27(04): 396-.

[1]	商微微,任桐慧 . 直喷汽油机喷雾图像特征提取方法[J]. 吉林大学学报(信息科学版), 2017, 35(6): 617-622.
[2]	王浩畅,李钰,李斌,吴旻. 基于集成特征选择策略的基因共表达模式识别[J]. 吉林大学学报(信息科学版), 2017, 35(5): 525-532.
[3]	徐志刚, 李文文. 基于多字典 L1/2 正则化的超分辨率重建算法[J]. 吉林大学学报(信息科学版), 2017, 35(3): 354-362.
[4]	王贺,邓茂云,姜守坤,李明明,宗宇轩,刘富 . 改进的双边二维线性判别分析的手背静脉识别[J]. 吉林大学学报(信息科学版), 2017, 35(1): 32-36.
[5]	贾隆嘉,孙铁利,杨凤芹,孙红光 . 基于类空间密度的文本分类特征加权算法[J]. 吉林大学学报(信息科学版), 2017, 35(1): 92-97.
[6]	郭卉笑, 王鏐璞. 基于 LBP 和 KNN 的视频纹理识别算法[J]. 吉林大学学报(信息科学版), 2016, 34(5): 692-696.
[7]	范延军, 张为公. 基于双向窗口特征提取技术的车道线检测算法[J]. 吉林大学学报(信息科学版), 2015, 33(4): 485-.
[8]	李志军, 陈雪, 李志刚, 顾海军. 基于梯度投影的视频跟踪算法[J]. 吉林大学学报(信息科学版), 2014, 32(5): 458-464.
[9]	张澎涛, 刘晋浩. 连续小波变换在机械故障特征提取中的应用[J]. 吉林大学学报(信息科学版), 2014, 32(2): 172-176.