摘要: 提出一种基于后缀数组的无词典分词算法. 该算法通过后缀数组和利用散列表获得汉字的结合模式, 通过置信度筛选词. 实验表明, 在无需词典和语料库的前提下, 该算法能够快速准确地抽取文档中的中、 高频词. 适用于对词条频度敏感、 对计算速度要求高的中文信息处理.
中图分类号:
张长利, 赫枫龄, 左万利. 一种基于后缀数组的无词典分词方法[J]. J4, 2004, 42(04): 548-553.
ZHANG Chang-li, HE Feng-ling, ZUO Wan-li. An automatic and dictionary-free Chinese wordsegmentation method based on suffix array[J]. J4, 2004, 42(04): 548-553.