基于CRF的中文组块分析

基于CRF的中文组块分析

徐中一, 胡谦, 刘磊

吉林大学计算机科学与技术学院, 长春 130012

收稿日期:2006-06-29 修回日期:1900-01-01 出版日期:2007-05-26 发布日期:2007-05-26
通讯作者: 刘磊

Chinese Text Chunking Based CRF

XU Zhongyi, HU Qian, LIU Lei

College of Computer Science and Technology, Jilin University, Changchun 130012, China

Received:2006-06-29 Revised:1900-01-01 Online:2007-05-26 Published:2007-05-26
Contact: LIU Lei

摘要/Abstract

摘要： 提出一种基于条件随机域模型的方法用于中文文本组块分析. 该方法将中文组块分析转化为对每个词语赋予一个组块标注符号, 再根据条件随机域对标注好的训练语料建立模型, 从而预测测试语料中每个词语的组块标注符号. 使用北京大学中文树库的测试结果为F₁=85.5%, 高于隐马尔可夫模型和最大熵马尔可夫模型. 实验结果表明, 条件随机域在中文组块识别方面有效, 并避免了严格的独立性假设和数据归纳偏置问题.

关键词: 组块分析, 条件随机域, 特征函数

Abstract: A new method to solve Chinese text chunking was introduced as conditional random fields (CRF) model, by which Chinese text chunking transformed into labeling the words with their chunk tags and establishinga model for tagged corpus according to conditional random fields so as to predict the chunk ta g of each word. An F₁ score of 85.5% is achieved by using the evaluation dataset of Chinese treebank of Beijing university, and obviously better than those of hidden Markov model and maximum entropy Markov model. Experimental results show that conditional random fields model is an effective way on Chinese text chunking and the strict Independence hypothesis and the label bias problem are avoided.

Key words: chunking, conditional random fields, feature function

中图分类号:

TP391

徐中一, 胡谦, 刘磊. 基于CRF的中文组块分析[J]. J4, 2007, 45(03): 416-420.

XU Zhongyi, HU Qian, LIU Lei. Chinese Text Chunking Based CRF[J]. J4, 2007, 45(03): 416-420.

[1]	王玉, 申铉京, 周昱洲, 林鸿斌. 一种求解交通网络中最短路径问题的人工蜂群算法[J]. 吉林大学学报(理学版), 2021, 59(5): 1144-1150.
[2]	朱新丽, 才华, 寇婷婷, 杜冬晖, 孙俊喜. 行人多目标跟踪算法[J]. 吉林大学学报(理学版), 2021, 59(5): 1161-1170.
[3]	张震, 张照崎, 朱留存, 刘济尘, 魏金占, 蔡旭航, 赵成龙. 一种基于Shi-Tomasi和改进LBP的特征匹配及目标定位快速算法[J]. 吉林大学学报(理学版), 2021, 59(5): 1171-1178.
[4]	孙启隆, 于萍, 司振惠, 郭鑫, 王岩. 基于暗通道的沙尘图像增强算法[J]. 吉林大学学报(理学版), 2021, 59(5): 1179-1187.
[5]	刘高天, 段锦, 范祺, 吴杰, 赵言. 基于改进RFBNet算法的遥感图像目标检测[J]. 吉林大学学报(理学版), 2021, 59(5): 1188-1198.
[6]	胡雅婷, 陈营华, 宝音巴特, 曲福恒, 李卓识. 一种增量式MinMax k-Means聚类算法[J]. 吉林大学学报(理学版), 2021, 59(5): 1205-1211.
[7]	聂逯松, 常方圆, 常学智, 刘畅, 金有为, 刘国晟, 付加胜, 韩霄松. 一种新型的自适应多核学习算法[J]. 吉林大学学报(理学版), 2021, 59(5): 1212-1218.
[8]	蒲晓川, 黄俊丽, 祁宁, 宋长松. 基于密度信息熵的K-means算法在客户细分中的应用[J]. 吉林大学学报(理学版), 2021, 59(5): 1245-1251.
[9]	焦冲, 苏科华, 吴博文, 任术波, 辛宁. 一种基于局部平均法向变形的网格参数化方法[J]. 吉林大学学报(理学版), 2021, 59(4): 867-876.
[10]	丁通, 刘元宁, 朱晓冬, 刘帅, 张齐贤, 张阔. 面向残差网络多元特征的轻量级虹膜分类[J]. 吉林大学学报(理学版), 2021, 59(4): 877-882.
[11]	孙俊, 才华, 朱新丽, 胡浩, 李英超. 基于双重注意力机制的深度人脸表示算法[J]. 吉林大学学报(理学版), 2021, 59(4): 883-890.
[12]	傅博, 王瑞子, 王丽妍, 张湘怡. 基于深度卷积神经网络的水下偏色图像增强方法[J]. 吉林大学学报(理学版), 2021, 59(4): 891-899.
[13]	李晓峰, 李东, 王妍玮. 基于深度残差网络的医学超声图像多尺度边缘检测算法[J]. 吉林大学学报(理学版), 2021, 59(4): 900-908.
[14]	张震, 张照崎, 朱留存, 苗志滨, 王骥月, 李修明, 赵成龙, 张坤伦. 基于Harris-改进LBP的特征匹配及目标定位算法[J]. 吉林大学学报(理学版), 2021, 59(3): 568-576.
[15]	李二强, 陈凯健, 周漾. 可控多重纹理扩展合成与迁移[J]. 吉林大学学报(理学版), 2021, 59(3): 577-586.