吉林大学学报(工学版)

• • 上一篇    下一篇

基于组块及记忆的词性自动标注

石晶,戴国忠   

  1. 中国科学院 软件研究所 人机交互技术与智能信息处理实验室,北京 100080
  • 收稿日期:2005-11-12 修回日期:2006-01-25 出版日期:2006-07-01 发布日期:2006-07-01
  • 通讯作者: 戴国忠

Block and memory based part of speech tagging

Shi Jing ,Dai Guo-zhong   

  1. Computer Human Interaction and Intelligent Information Processing Laboratory, Institute of Software,The Chinese Academy of Sciences, Beijing 100080, China
  • Received:2005-11-12 Revised:2006-01-25 Online:2006-07-01 Published:2006-07-01
  • Contact: Dai Guo-zhong

摘要: 基于组块及记忆的模型(BMM)采用与传统方法明显不同的标注思路,以汉语中的整句为处理单元,从组块出发,立足于单个词汇,分析更为丰富的上下文语境知识,并借助知网词典记忆词性集合,同时采用渐增式的机械学习方式获取参数值。对于棘手的稀疏数据问题只简单地设置平伏常数加以平滑,最后利用少量人工规则修正标注结果。实验表明,该模型的封闭式测试准确率将近99%,开放式测试准确率为95%以上。

关键词: 人工智能, 词性自动标注, 基于组块及记忆的模型, 渐增式学习

Abstract: Automatic partofspeech tagging is often applied to natural language processing. The approach of Block and Memory based Model (BMM) is other than that of the traditional models. BMM takes a whole Chinese sentence as a processing unit. Each word is considered respectively in a more abundant and informative context environment. The lexicon of WordNet is employed to store the tag sets, and, to improve the efficiency, the incremental learning method is applied to obtain parameters. A constant is given to smooth the sparse data and some handcrafting rules are used to amend the results. Experiments show that the accuracy of close test is about 99% and the accuracy of open test is higher than 95%.

Key words: artificial intelligence, automatic partofspeech tagging, block and memory based model, incremental learning

中图分类号: 

  • TP301
[1] 董飒, 刘大有, 欧阳若川, 朱允刚, 李丽娜. 引入二阶马尔可夫假设的逻辑回归异质性网络分类方法[J]. 吉林大学学报(工学版), 2018, 48(5): 1571-1577.
[2] 顾海军, 田雅倩, 崔莹. 基于行为语言的智能交互代理[J]. 吉林大学学报(工学版), 2018, 48(5): 1578-1585.
[3] 王旭, 欧阳继红, 陈桂芬. 基于垂直维序列动态时间规整方法的图相似度度量[J]. 吉林大学学报(工学版), 2018, 48(4): 1199-1205.
[4] 张浩, 占萌苹, 郭刘香, 李誌, 刘元宁, 张春鹤, 常浩武, 王志强. 基于高通量数据的人体外源性植物miRNA跨界调控建模[J]. 吉林大学学报(工学版), 2018, 48(4): 1206-1213.
[5] 黄岚, 纪林影, 姚刚, 翟睿峰, 白天. 面向误诊提示的疾病-症状语义网构建[J]. 吉林大学学报(工学版), 2018, 48(3): 859-865.
[6] 李雄飞, 冯婷婷, 骆实, 张小利. 基于递归神经网络的自动作曲算法[J]. 吉林大学学报(工学版), 2018, 48(3): 866-873.
[7] 刘杰, 张平, 高万夫. 基于条件相关的特征选择方法[J]. 吉林大学学报(工学版), 2018, 48(3): 874-881.
[8] 王旭, 欧阳继红, 陈桂芬. 基于多重序列所有公共子序列的启发式算法度量多图的相似度[J]. 吉林大学学报(工学版), 2018, 48(2): 526-532.
[9] 杨欣, 夏斯军, 刘冬雪, 费树岷, 胡银记. 跟踪-学习-检测框架下改进加速梯度的目标跟踪[J]. 吉林大学学报(工学版), 2018, 48(2): 533-538.
[10] 刘雪娟, 袁家斌, 许娟, 段博佳. 量子k-means算法[J]. 吉林大学学报(工学版), 2018, 48(2): 539-544.
[11] 曲慧雁, 赵伟, 秦爱红. 基于优化算子的快速碰撞检测算法[J]. 吉林大学学报(工学版), 2017, 47(5): 1598-1603.
[12] 李嘉菲, 孙小玉. 基于谱分解的不确定数据聚类方法[J]. 吉林大学学报(工学版), 2017, 47(5): 1604-1611.
[13] 邵克勇, 陈丰, 王婷婷, 王季驰, 周立朋. 无平衡点分数阶混沌系统全状态自适应控制[J]. 吉林大学学报(工学版), 2017, 47(4): 1225-1230.
[14] 王生生, 王创峰, 谷方明. OPRA方向关系网络的时空推理[J]. 吉林大学学报(工学版), 2017, 47(4): 1238-1243.
[15] 马淼, 李贻斌. 基于多级图像序列和卷积神经网络的人体行为识别[J]. 吉林大学学报(工学版), 2017, 47(4): 1244-1252.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!