一种基于词典的lucene中文分词方法

文档序号:9667488阅读:470来源:国知局
一种基于词典的lucene中文分词方法
【技术领域】
[0001] 本发明属于中文分词技术领域,更为具体地讲,涉及一种基于词典的lucene中文 分词方法。
【背景技术】
[0002] 中文信息和英文信息有一个明显的差别,英语单词之间用空格分隔;而在中文文 本中,词与词之间没有明显的分隔符,中文词汇大多是由两个或者两个以上的汉字组成的, 并且语句是连续书写的。这就意味着在对中文文本进行自动分析前,要先将一整句话切割 成小的词汇单元,即中文分词。中文分词是当今中文信息处理和检索的一个难点,是研究搜 索领域不可避免的一个问题,现在,中文分词已经有了一些成果,并且在很多方面如信息检 索有了广泛的应用。
[0003] 随着互联网的快速发展,搜索引擎的应用越来越广泛,然而普通的商用搜索引擎 无法满足特定领域内的搜索要求,其搜索结果含有大量对于使用者无关的信息,无法显示 准确的搜索结果。于是需要更加准确,符合某一特定领域的搜索引擎,其中需使用中文分词 技术。中文分词技术在索引的过程中至关重要。
[0004] Lucene作为目前世界上最流行的开源全文索引系统,已经在许多搜索引擎技术项 目中得到了广泛且深入的应用和研究,而其中的语言分析器已经能够支持世界上大多数语 言,当然也包括中文汉字。但目前Lucene中只提供中文单字和双字分词机制,而这两种中 文分词模块并不能较好支持Lucene中文分析处理。

【发明内容】

[0005] 本发明的目的在于克服现有技术的不足,提供一种基于词典的lucene中文分词 方法,构建专业词典,然后使用通用词典和专业词典进行分词,从而满足专业领域要求。
[0006] 为实现上述发明目的,本发明基于词典的lucene中文分词方法包括以下步骤:
[0007] S1 :收集语料,构建专业词典,其具体步骤为:
[0008] SI. 1 :对收集到的语料去除停用词,将语料划分成文本片段;
[0009] S1. 2 :对每个文本片段,提取相邻两个字作为候选词,对候选词按顺序进行编号, 统计候选词和每个单字在所有文本片段中的出现概率;
[0010] S1. 3 :计筧毎个候诜词中两个汉字X和Y的互信息M(X,Y):
[0011]
[0012] 其中P(X,Y)是汉字X和Y的相邻共现概率,P(X)、P(Y)分别是汉字X、Y的出现概 率;如果候选词的互信息大于预设的互信息阈值,则保留该候选词,否则删除该候选词;
[0013] S1. 4 :在筛选得到的候选词中,如果两个以上候选词的编号连续,并且前一个候选 词的末字与后一个候选词的首字相同,则将这些候选词按照顺序进行合并,其他候选词不 作任何操作;
[0014] SI. 5 :将合并处理后的候选词与通用词典进行匹配,如果候选词属于通用词典,则 将该候选词删除,否则再将候选词与专业词典进行匹配,如果尚未存在于专业词典中,则加 入专业词典,否则不作任何操作;
[0015] S2:从待分词文本中去除停用词,然后对待分词文本采用专业词典分词,专业词典 分词后剩下的文本再采用通用词典进行分词。
[0016] 进一步地,步骤S1. 5中,还需要维护一个非术语词典,对于经通用词典匹配后保 留的候选词,采用非术语词典进行匹配,如果候选词属于非术语词典,则将其删除;然后保 留的候选词在加入专业词典之前,进行人工检查,如果有非术语候选词则放入非术语词典 中,不再加入专业词典。
[0017] 进一步地,步骤S2中的采用专业词典或通用词典分词采用双向最大匹配算法,其 具体方法为:对待分词文本先分别采用正向最大匹配法和逆向最大匹配法进行分词,当正 向最大匹配法和逆向最大匹配法分词结果词数不同时,则取分词数量较少的那个分词结果 作为最终结果;当分词结果词数相同时,如果分词结果相同,任意取一个分词结果作为最终 结果,如果分词结果不同,则将单字较少的那个分词结果作为最终结果。
[0018] 本发明基于词典的中文分词方法,首先收集语料,构建专业词典,构建方法为:首 先去除停用词,将语料划分为文本片段,从文本片段中提取候选词,统计候选词和每个单字 在所有文本片段中的出现概率,计算每个候选词中两个汉字的互信息,互信息大于预设的 互信息阈值,则保留该候选词,否则删除该候选词,然后对筛选后的候选词进行合并,将合 并处理后的候选词采用通用词典进行匹配过滤,将过滤后的候选词加入专业词典;对待分 词文本先采用专业词典进行分词,剩下的文本再采用通用词典进行分词。
[0019] 本发明基于统计的方法从语料中抽取专业术语来构建专业词典,不需要句法、语 义上的信息,不局限于某一专门领域,也不依赖任何资源,通用性较强,采用该专业词典进 行分词可以有效满足专业领域的要求,提高lucene索引的有效性,使得搜索结果更符合主 题搜索引擎的要求。
【附图说明】
[0020] 图1是本发明基于词典的lucene中文分词方法的【具体实施方式】流程图;
[0021] 图2是构建专业词典的流程图。
【具体实施方式】
[0022] 下面结合附图对本发明的【具体实施方式】进行描述,以便本领域的技术人员更好地 理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许 会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0023] 实施例
[0024] 本发明基于词典的lucene中文分词方法主要包括两大阶段,一是专业词典的构 建,二是文本分词。图1是本发明基于词典的lucene中文分词方法的【具体实施方式】流程图。 如图1所示,本发明基于词典的lucene中文分词方法包括以下步骤:
[0025] S101 :构建专业词典:
[0026] 本发明首先需要收集语料,构建专业词典。图2是构建专业词典的流程图。如图 2所示,本发明中构建专业词典的具体步骤为:
[0027]S201 :语料预处理:
[0028] 首先需要对收集到的语料进行预处理,也就是从语料中去除经过人工收集的停用 词,将语料中的每一个句子切分成相对较小的文本片段。停用词主要包含标点符号、代词、 语气词、助词、连词等。这些停用词一般没有特殊的意义,经常搭配别的词构成词或短语,且 术语一般不会包含这些词,可以用于切分句子。停用词示例:"啊"、"它"、"以及"、"并且"、 "咦"、"大多数"、"及时"、"几乎"、"什么"、"我"、"我等。
[0029] 本实施例中,假设语料中的一句话为"中文分词使用统计方法进行词典的构造。" 由于段落中有出现频率高、构词能力差的单字词一一 "的",所以此句话可以分为两个文本 片段:"中文分词使用统计方法进行词典"和"构造"。
[0030]S202 :概率统计:
[0031] 对于预处理后的得到的每个文本片段,提取相邻两个字作为候选词,对候选词按 顺序进行编号,统计候选词和每个单字在所有文本片段中的出现概率。
[0032] 本实施例中,待分词文本被划分成了两个部分,因此需要统计"中文","文分","分 词","词使","使用","用统","统计","计方","方法","法进","进行","行词","词典","构 造"和各个单字的出现概率。
[0033]S203 :候选词筛选:
[0034] 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越 多,就越有可能组成一个词,因此字与字相邻出现的频率或概率能够较好的反应词的可信 度,对待分词文本中相邻出现的各个字的组合的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1