吉林大学学报(信息科学版)

• 论文 • 上一篇    下一篇

中文全文检索系统中基于分词技术的研究

刘畅1, 张猛2   

  1. 1. 吉林工商学院 信息工程学院, 长春 130062; 2. 吉林大学 网络中心, 长春 130012
  • 收稿日期:2013-02-25 出版日期:2013-05-27 发布日期:2013-06-07
  • 作者简介:刘畅(1978—), 女, 长春人, 吉林工商学院讲师, 主要从事计算机网络研究, (Tel)86-13844176483(E-mail)liuchang8023@sina.com.cn。
  • 基金资助:

    吉林省教育厅科技发展规划基金资助项目(2012373)

Chinese Full-Text Retrieval System Based on Segmentation Techniques

LIU Chang1, ZHANG Meng2   

  1. 1. Department of Information Engineering, Jilin Business and Technology College, Changchun 130062, China;2. Network Center, Jilin University, Changchun 130012, China
  • Received:2013-02-25 Online:2013-05-27 Published:2013-06-07

摘要:

为在保证中文歧义包容和长度限制的同时提高中文全文检索的速率, 在现有中文分词算法的基础上, 提出了一种改进的中文分词算法。通过在算法中建立索引的过程建立文本中相关词与词库的映射, 对词库进行改造, 使之更好地与相关词进行映射, 以便于实现中文分词。实验证明, 改进的中文分词算法能降低检索耗时, 是已有的分词算法的1/2和1/5, 有效提高中文全文检索的速率。

关键词: 中文全文检索, 中文分词, 字索引

Abstract:

In order to raise the rate of Chinese text retrieval of Chinese fulltext retrieval system on the basis of the Chinese ambiguity inclusiveness and length restrictions, a kind of improved Chinese word segmentation algorithm is proposed based on the existing Chinese word segmentation algorithms. In this improved algorithm the process of indexing establishment makes a mapping from related words to the thesaurus. Through the improvement to the thesaurus, a better mapping is realized. Experiments show that the improved algorithm is a more efficient Chinese text retrieval segmentation algorithm.

Key words: Chinese full-text retrieval, Chinese segmentation, character-based indexing

中图分类号: 

  • TP311