中文分词方法、装置和服务器的制造方法

文档序号:6511900阅读:189来源:国知局
中文分词方法、装置和服务器的制造方法
【专利摘要】本发明公开了一种中文分词方法、装置和服务器,属于搜索引擎【技术领域】。所述方法包括:接收分词指令;获取第一汉字集;根据预设对应关系,获取所述第一汉字集中每个汉字对应的检索信息;根据所述第一汉字集和所述第一汉字集中每个汉字对应的检索信息,获取多个组合词以及检索概率;根据所述多个组合词中包括的汉字,进行路径组合;获取每条路径的检索概率;确定所述检索概率最大的路径;根据所述检索概率最大的路径中包括的组合词,对所述关键词进行分词。本发明无需人工进行分词,也无需依赖于字典等工具,操作简便;且实现了动态地更新数据源,能够快速地修正错误的分词方式,对新词也有很高的辨识度,提高了分词的准确性。
【专利说明】中文分词方法、装置和服务器

【技术领域】
[0001] 本发明涉及搜索引擎【技术领域】,特别涉及一种中文分词方法、装置和服务器。

【背景技术】
[0002] 随着搜索技术的发展和用户搜索需求的提高,在进行数据搜索时,用户可能会输 入很长的待搜索关键词,此时,若直接对关键词进行搜索,搜索成功率一般很低。而为了提 高搜索成功率,可以在搜索之前,对关键词进行分词,再对得到的分词结果进行搜索,将与 分词结果匹配的内容作为关键词的搜索结果。
[0003] 其中,在对中文关键词进行分词时,可以采用基于统计的机器学习方法。具体包括 以下步骤:(1)从公开发行的媒体等数据源中采集文本集;(2)人工选取其中的部分文本 集,进行分词;(3)根据人工分词的结果并利用统计学习模型,学习人工分词的规律;(4)在 对当前的中文关键词进行分词时,按照学习到的分词规律,对该中文关键词进行分词。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 基于统计的机器学习方法需要耗费大量的人力和时间,且非常依赖于人工分词的 结果,当人工分词结果存在错误时,无法快速地进行纠正;此外,由于采集文本集的局限性, 基于统计的机器学习方法对新词的识别能力很弱,且对于专有领域的分词,错误率也很高。


【发明内容】

[0006] 为了解决现有技术的问题,本发明实施例提供了一种中文分词方法、装置和服务 器。所述技术方案如下:
[0007] 第一方面,提供了一种中文分词方法,所述方法包括:
[0008] 接收分词指令,所述分词指令携带待切分的关键词;
[0009] 将所述关键词按照单个汉字进行切分,获取第一汉字集,所述第一汉字集包括所 述关键词的每个汉字;
[0010] 根据预设对应关系,依次获取所述第一汉字集中每个汉字对应的检索信息;
[0011] 根据所述第一汉字集和所述第一汉字集中每个汉字对应的检索信息,获取多个组 合词,以及所述多个组合词的检索概率;
[0012] 根据所述多个组合词中包括的汉字,对所述多个组合词进行路径组合,得到多条 路径;
[0013] 根据所述多个组合词的检索概率,获取每条路径的检索概率;
[0014] 根据每条路径的检索概率,确定所述检索概率最大的路径;
[0015] 根据所述检索概率最大的路径中包括的组合词,对所述关键词进行分词。
[0016] 第二方面,提供了一种中文分词装置,所述装置包括:
[0017] 指令接收模块,用于接收分词指令,所述分词指令携带待切分的关键词;
[0018] 第一汉字集获取模块,用于将所述关键词按照单个汉字进行切分,获取第一汉字 集,所述第一汉字集包括所述关键词的每个汉字;
[0019] 检索信息获取模块,用于根据预设对应关系,依次获取所述第一汉字集中每个汉 字对应的检索信息;
[0020] 组合词获取模块,用于根据所述第一汉字集和所述第一汉字集中每个汉字对应的 检索信息,获取多个组合词,以及所述多个组合词的检索概率;
[0021] 路径组合模块,用于根据所述多个组合词中包括的汉字,对所述多个组合词进行 路径组合,得到多条路径;
[0022] 概率获取模块,用于根据所述多个组合词的检索概率,获取每条路径的检索概 率;
[0023] 最大概率确定模块,用于根据每条路径的检索概率,确定所述检索概率最大的路 径;
[0024] 分词模块,用于根据所述检索概率最大的路径中包括的组合词,对所述关键词进 行分词。
[0025] 第三方面,提供了一种服务器,包括:接收器、发射器、存储器和处理器,所述接收 器、所述发射器和所述存储器分别与所述处理器连接,所述存储器存储有程序代码,所述处 理器用于调用所述程序代码,执行以下操作:
[0026] 接收分词指令,所述分词指令携带待切分的关键词;
[0027] 将所述关键词按照单个汉字进行切分,获取第一汉字集,所述第一汉字集包括所 述关键词的每个汉字;
[0028] 根据预设对应关系,依次获取所述第一汉字集中每个汉字对应的检索信息,所述 预设对应关系包括汉字和检索信息之间的对应关系;
[0029] 根据所述第一汉字集和所述第一汉字集中每个汉字对应的检索信息,获取多个组 合词,以及所述多个组合词的检索概率;
[0030] 根据所述多个组合词中包括的汉字,对所述多个组合词进行路径组合,得到多条 路径;
[0031] 根据所述多个组合词的检索概率,获取每条路径的检索概率;
[0032] 根据每条路径的检索概率,确定所述检索概率最大的路径;
[0033] 根据所述检索概率最大的路径中包括的组合词,对所述关键词进行分词。
[0034] 本发明实施例提供的技术方案带来的有益效果是:
[0035] 本发明实施例提供的方法、装置和服务器,通过对待切分的关键词按照单个汉字 进行切分,无需人工进行分词,也无需依赖于字典等工具,操作简便;且通过建立并更新该 预设对应关系,实现了动态地更新数据源,能够快速地修正错误的分词方式,对新词也有很 高的辨识度,提高了分词的准确性。

【专利附图】

【附图说明】
[0036] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0037] 图1是本发明实施例提供的一种中文分词方法的流程图;
[0038] 图2是本发明实施例提供的一种中文分词方法的流程图;
[0039] 图3是本发明实施例提供的路径组合示意图;
[0040] 图4是本发明实施例提供的一种中文分词装置结构示意图;
[0041] 图5是本发明实施例提供的一种服务器结构示意图。

【具体实施方式】
[0042] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
[0043] 图1是本发明实施例提供的一种中文分词方法的流程图。本发明实施例的执行主 体为服务器,参见图1,所述方法包括:
[0044] 101 :接收分词指令,该分词指令携带待切分的关键词;
[0045] 本发明实施例应用于服务器根据终端设备提供的关键词进行搜索的场景下。该服 务器可以为搜索服务器,具体用于对该关键词进行分词,对得到的分词结果进行搜索。
[0046] 在本发明实施例中,终端设备可以在搜索界面上提供用于输入待搜索的关键词的 搜索栏,以及用于对该待搜索的关键词进行数据搜索的搜索按键,用户在搜索栏中输入关 键词,当该终端设备检测到对该搜索按键的点击操作时,向该服务器发送该分词指令,该分 词指令携带该搜索栏中的关键词,该服务器接收该分词指令。或者,该终端设备在搜索界面 上显示热门搜索关键词,当检测到对热门搜索关键词的点击操作时,该终端设备向该服务 器发送该分词指令,该分词指令携带该热门搜索关键词,该服务器接收该分词指令。本发明 实施例对该分词指令的触发方式不做限定。
[0047] 实际上,在语言分析领域,采用本发明实施例提供的技术方案对关键词进行分词 后,还可以进行词组组合分析或词组应用分析等。即在本发明实施例提供的另一实施例中, 所述中文分词方法应用于通过服务器对关键词进行分词,而不进行搜索过程。本发明实施 例对分词之后是否执行搜索过程不作具体限定。
[0048] 102 :将该关键词按照单个汉字进行切分,获取第一汉字集,该第一汉字集包括该 关键词的每个汉字;
[0049] 优选地,该服务器将该关键词按照单个汉字进行切分,并按照该关键词的汉字顺 序,获取该第一汉字集,也即是,该第一汉字集不仅包括该关键词的每个汉字,还包括该关 键词中每个汉字的先后顺序。
[0050] 例如,关键词为"建立繁荣富强的社会主义国家",则经过切分,获取到的第一汉字 集为{:建立繁荣富强的社会主义国家}。
[0051] 103 :根据预设对应关系,依次获取该第一汉字集中每个汉字对应的检索信息;
[0052] 可选地,该预设对应关系包括汉字和检索信息之间的对应关系,该检索信息至少 包括检索词、该检索词的检索概率和第二汉字集,该第二汉字集为该检索词的汉字集。根据 该预设对应关系,可以获取该第一汉字集中每个汉字对应的检索信息。在本发明实施例中, 该服务器根据历史搜索记录,预先建立该预设对应关系,并将该预设对应关系保存在数据 库中。
[0053] 其中,与该第一汉字集类似,该第二汉字集为该检索词切分得到的汉字集,可以包 括该检索词的每个汉字和该检索词中每个汉字的先后顺序。
[0054] 基于步骤102的举例,对于汉字"建"来说,根据该预设对应关系,可以确定汉字 "建"对应有检索词"建立稳定国家",且检索词"建立稳定国家"的检索概率为f0,第二汉字 集为{建立稳定国家},即汉字"建"的检索信息至少包括检索词"建立稳定国家"、检索概 率f0和第二汉字集{建立稳定国家}。
[0055] 在本发明实施例中,该服务器通过更新该预设对应关系中的检索词或者检索词的 检索概率,可以动态地更新数据源,进而能够提高分词的准确性。
[0056] 104 :根据该第一汉字集和该第一汉字集中每个汉字对应的检索信息,获取多个组 合词,以及该多个组合词的检索概率;
[0057] 具体地,该服务器将该第一汉字集和该第一汉字集中每个汉字对应的检索词进行 比较,获取多个组合词,该组合词用于指示所比较的检索词和该关键词的相同汉字和不同 汉字,以便于在后续过程中,根据检索词的检索概率以及该检索词与该关键词的相同汉字 和不同汉字,确定该关键词的最大可能性的分词方式。
[0058] 优选地,对于一个检索词,该服务器将该第一汉字集和该检索词的第二汉字集进 行比较,将该第一汉字集与该第二汉字集中包括的相同汉字以第一标识表示,将该第一汉 字集与该检索词包括的不同的汉字以第二标识表示,根据该第一标识和该第二标识,生成 组合词。其中,该组合词的汉字顺序与该检索词的汉字顺序对应,该第一标识和该第二标识 可以为汉字或符号等,本发明实施例对此不做限定。
[0059] 假设该第一标识为1,该第二标识为0,则基于步骤102和步骤103的举例,第一汉 字集为{:建立繁荣富强的社会主义国家},第二汉字集为{建立稳定国家},将第一汉字集 与第二汉字集中包括的相同汉字以1表示,包括的不同的汉字以〇表示,则按照该第二汉字 集的汉字顺序,生成的组合词为"110011"。
[0060] 105 :根据该多个组合词中包括的汉字,对该多个组合词进行路径组合,得到多条 路径;
[0061] 106 :根据该多个组合词的检索概率,获取每条路径的检索概率;
[0062] 在本发明实施例中,一条路径包括一个或多个组合词。对于一条路径,当该路径包 括一个组合词时,该服务器将该组合词的检索概率确定为该路径的检索概率,或,当该路径 包括多个组合词时,该服务器对该多个组合词的检索概率进行统计计算,将获取到的统计 结果确定为该路径的检索概率。
[0063] 其中,该统计结果可以为该多个组合词的检索概率的平均值、最大值等,本发明实 施例对此不做限定。
[0064] 107 :根据每条路径的检索概率,确定检索概率最大的路径;
[0065] 108:根据该检索概率最大的路径中包括的组合词,对该关键词进行分词。
[0066] 本发明实施例提供的方法,通过对待切分的关键词按照单个汉字进行切分,无需 人工进行分词,也无需依赖于字典等工具,操作简便;且通过建立并更新该预设对应关系, 实现了动态地更新数据源,能够快速地修正错误的分词方式,对新词也有很高的辨识度,提 高了分词的准确性。
[0067] 可选地,该预设对应关系包括汉字和检索信息之间的对应关系,该检索信息至少 包括检索词、该检索词的检索概率和第二汉字集,该第二汉字集为该检索词的汉字集。
[0068] 可选地,根据预设对应关系,依次获取该第一汉字集中每个汉字对应的检索信息 之前,该方法还包括:
[0069] 获取预设时间间隔内预设网站的多个检索词和该获取到的多个检索词的检索概 率;
[0070] 对该获取到的多个检索词按照单个汉字进行切分,得到该多个检索词的第二汉字 集;
[0071] 对于切分得到的每个汉字,获取包括该汉字的多个检索词、该多个检索词的检索 概率以及该多个检索词的第二汉字集;
[0072] 根据切分得到的多个汉字和该多个汉字对应的检索词、检索概率和第二汉字集, 建立该预设对应关系。
[0073] 可选地,根据该第一汉字集和该第一汉字集中每个汉字对应的检索信息,获取多 个组合词,以及该多个检索词的检索概率包括:
[0074] 对于该第一汉字集的每个汉字对应的检索词,根据该第一汉字集是否包括该检索 词的第二汉字集中的汉字,获取该第二汉字集中汉字的组合字;
[0075] 当获取到该第二汉字集中的所有汉字的组合字时,按照该检索词的汉字顺序,将 该所有汉字的组合字组成组合词;
[0076] 将该检索词的检索概率获取为该组合词的检索概率。
[0077] 可选地,对于该第一汉字集的每个汉字对应的每个检索词,根据该第一汉字集是 否包括该检索词的第二汉字集中的汉字,获取该第二汉字集中汉字的组合字包括 :
[0078] 对于该第一汉字集的每个汉字对应的每个检索词,当该第一汉字集包括该检索词 的第二汉字集中的汉字时,将该汉字获取为该汉字的组合字;或,
[0079] 当该第一汉字集不包括该汉字时,将指定标识获取为该汉字的组合字。
[0080] 可选地,根据该检索概率最大的路径中包括的组合词,对该关键词进行分词包 括:
[0081] 根据该检索概率最大的路径中的组合词所包括的组合字的位置,对该关键词进行 切分,获取该关键词的分词结果。
[0082] 可选地,根据该第一汉字集和该第一汉字集中每个汉字对应的检索信息,生成多 个组合词,并获取该多个检索词的检索概率之后,根据该多个组合词中包括的汉字,对该多 个组合词进行路径组合之前,该方法还包括:
[0083] 当该多个组合词中存在至少两个相同的组合词时,将该至少两个相同的组合词合 并,合并后的组合词的检索概率为该至少两个相同的组合词的检索概率之和。
[0084] 可选地,根据该多个组合词的检索概率,获取每条路径的检索概率包括:
[0085] 获取每条路径中所有组合词的检索概率的平均值;
[0086] 将每条路径中的所有组合词的检索概率的平均值获取为每条路径的检索概率。
[0087] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再 --赘述。
[0088] 图2是本发明实施例提供的一种中文分词方法的流程图。该发明实施例的执行主 体为服务器,参见图2,所述方法包括:
[0089] 201 :该服务器获取预设时间间隔内预设网站的多个检索词和该获取到的多个检 索词的检索概率;
[0090] 其中,该预设网站可以为具有搜索功能的任意一个或多个网站,如百度、谷歌等, 本发明实施例对此不做限定。该预设时间间隔可以由该服务器与该预设网站的服务器约 定,本发明实施例对此不做限定。
[0091] 具体地,在用户进行数据搜索的过程中,该预设网站的服务器获取用户输入的检 索词,并根据用户输入的多个检索词,计算每个检索词的检索概率。该预设网站的服务器按 照预设时间间隔,将该预设时间间隔内获取到的检索词和检索词的检索概率发送给该服务 器,该服务器获取该预设网站的服务器发送的该预设时间间隔内的多个检索词和该获取到 的多个检索词的检索概率。或者,该预设网站的服务器在接收到该服务器发送的请求时,将 该预设时间间隔内获取到的检索词和检索词的检索概率发送给该服务器。
[0092] 在本发明实施例提供的另一实施例中,该步骤201包括:该服务器实时获取该预 设网站的多个检索词和该获取到的多个检索词的检索概率。具体地,该预设网站的服务器 实时地获取用户输入的检索词,实时地计算检索词的检索概率,并将获取到的检索词和检 索概率发送给该服务器,使得该服务器实时地获取该预设网站的多个检索词和该多个检索 词的检索概率。
[0093] 在本发明实施例中,通过动态地获取该预设网站的检索词和检索概率,可以快速 地纠正错误的分词方式,且当该预设网站出现如"高富帅"、"给力"等网络新词时,通过多次 获取新词,更新数据源,可以准确地对关键词中的新词进行识别,即提高了对新词的识别能 力。
[0094] 202:该服务器对该获取到的多个检索词按照单个汉字进行切分,得到该多个检索 词的第二汉字集;
[0095] 具体地,该服务器对该获取到的多个检索词按照单个汉字进行切分,得到该多个 检索词的第二汉字集,并建立该第二汉字集与该第二汉字集中的汉字的对应关系。
[0096] 例如,该服务器获取到的检索词、检索概率,以及将获取到的检索词按照单个汉字 进行切分得到的第二汉字集如表1所示。
[0097] 表 1
[0098]

【权利要求】
1. 一种中文分词方法,其特征在于,所述方法包括: 接收分词指令,所述分词指令携带待切分的关键词; 将所述关键词按照单个汉字进行切分,获取第一汉字集,所述第一汉字集包括所述关 键词的每个汉字; 根据预设对应关系,依次获取所述第一汉字集中每个汉字对应的检索信息; 根据所述第一汉字集和所述第一汉字集中每个汉字对应的检索信息,获取多个组合 词,W及所述多个组合词的检索概率; 根据所述多个组合词中包括的汉字,对所述多个组合词进行路径组合,得到多条路 径; 根据所述多个组合词的检索概率,获取每条路径的检索概率; 根据每条路径的检索概率,确定所述检索概率最大的路径; 根据所述检索概率最大的路径中包括的组合词,对所述关键词进行分词。
2. 根据权利要求1所述的方法,其特征在于,所述预设对应关系包括汉字和检索信息 之间的对应关系,所述检索信息至少包括检索词、所述检索词的检索概率和第二汉字集,所 述第二汉字集为所述检索词的汉字集。
3. 根据权利要求2所述的方法,其特征在于,根据预设对应关系,依次获取所述第一汉 字集中每个汉字对应的检索信息之前,所述方法还包括: 获取预设时间间隔内预设网站的多个检索词和所述获取到的多个检索词的检索概 率; 对所述获取到的多个检索词按照单个汉字进行切分,得到所述多个检索词的第二汉字 集; 对于切分得到的每个汉字,获取包括所述汉字的多个检索词、所述多个检索词的检索 概率W及所述多个检索词的第二汉字集; 根据切分得到的多个汉字和所述多个汉字对应的检索词、检索概率和第二汉字集,建 立所述预设对应关系。
4. 根据权利要求2所述的方法,其特征在于,根据所述第一汉字集和所述第一汉字集 中每个汉字对应的检索信息,获取多个组合词,W及所述多个组合词的检索概率包括: 对于所述第一汉字集的每个汉字对应的检索词,根据所述第一汉字集是否包括所述检 索词的第二汉字集中的汉字,获取所述第二汉字集中汉字的组合字; 当获取到所述第二汉字集中的所有汉字的组合字时,按照该检索词的汉字顺序,将所 述所有汉字的组合字组成组合词; 将所述检索词的检索概率获取为所述组合词的检索概率。
5. 根据权利要求4所述的方法,其特征在于,对于所述第一汉字集的每个汉字对应的 每个检索词,根据所述第一汉字集是否包括所述检索词的第二汉字集中的汉字,获取所述 第二汉字集中汉字的组合字包括: 对于所述第一汉字集的每个汉字对应的每个检索词,当所述第一汉字集包括所述检索 词的第二汉字集中的汉字时,将所述汉字获取为所述汉字的组合字;或, 当所述第一汉字集不包括所述汉字时,将指定标识获取为所述汉字的组合字。
6. 根据权利要求5所述的方法,其特征在于,根据所述检索概率最大的路径中包括的 组合词,对所述关键词进行分词包括: 根据所述检索概率最大的路径中的组合词所包括的组合字的位置,对所述关键词进行 切分,获取所述关键词的分词结果。
7. 根据权利要求1所述的方法,其特征在于,根据所述第一汉字集和所述第一汉字集 中每个汉字对应的检索信息,生成多个组合词,并获取所述多个检索词的检索概率之后, 根据所述多个组合词中包括的汉字,对所述多个组合词进行路径组合之前,所述方法还包 括: 当所述多个组合词中存在至少两个相同的组合词时,将所述至少两个相同的组合词合 并,合并后的组合词的检索概率为所述至少两个相同的组合词的检索概率之和。
8. 根据权利要求1所述的方法,其特征在于,根据所述多个组合词的检索概率,获取每 条路径的检索概率包括: 获取每条路径中所有组合词的检索概率的平均值; 将每条路径中的所有组合词的检索概率的平均值获取为每条路径的检索概率。
9. 一种中文分词装置,其特征在于,所述装置包括: 指令接收模块,用于接收分词指令,所述分词指令携带待切分的关键词; 第一汉字集获取模块,用于将所述关键词按照单个汉字进行切分,获取第一汉字集,所 述第一汉字集包括所述关键词的每个汉字; 检索信息获取模块,用于根据预设对应关系,依次获取所述第一汉字集中每个汉字对 应的检索信息; 组合词获取模块,用于根据所述第一汉字集和所述第一汉字集中每个汉字对应的检索 信息,获取多个组合词,W及所述多个组合词的检索概率; 路径组合模块,用于根据所述多个组合词中包括的汉字,对所述多个组合词进行路径 组合,得到多条路径; 概率获取模块,用于根据所述多个组合词的检索概率,获取每条路径的检索概率; 最大概率确定模块,用于根据每条路径的检索概率,确定所述检索概率最大的路径; 分词模块,用于根据所述检索概率最大的路径中包括的组合词,对所述关键词进行分 词。
10. 根据权利要求9所述的装置,其特征在于,所述预设对应关系包括汉字和检索信息 之间的对应关系,所述检索信息至少包括检索词、所述检索词的检索概率和第二汉字集,所 述第二汉字集为所述检索词的汉字集。
11. 根据权利要求10所述的装置,其特征在于,所述装置包括: 检索词获取模块,用于获取预设时间间隔内预设网站的多个检索词和所述获取到的多 个检索词的检索概率; 第二汉字集获取模块,用于对所述获取到的多个检索词按照单个汉字进行切分,得到 所述多个检索词的第二汉字集; 汉字信息获取模块,用于对于切分得到的每个汉字,获取包括所述汉字的多个检索词、 所述多个检索词的检索概率W及所述多个检索词的第二汉字集; 关系建立模块,用于根据切分得到的多个汉字和所述多个汉字对应的检索词、检索概 率和第二汉字集,建立所述预设对应关系。
12. 根据权利要求10所述的装置,其特征在于,所述组合词获取模块包括: 组合字获取单元,用于对于所述第一汉字集的每个汉字对应的检索词,根据所述第一 汉字集是否包括所述检索词的第二汉字集中的汉字,获取所述第二汉字集中汉字的组合 字; 组合单元,用于当获取到所述第二汉字集中的所有汉字的组合字时,按照该检索词的 汉字顺序,将所述所有汉字的组合字组成组合词; 概率获取单元,用于将所述检索词的检索概率获取为所述组合词的检索概率。
13. 根据权利要求12所述的装置,其特征在于,所述组合字获取单元用于对于所述第 一汉字集的每个汉字对应的每个检索词,当所述第一汉字集包括所述检索词的第二汉字集 中的汉字时,将所述汉字获取为所述汉字的组合字;或,当所述第一汉字集不包括所述汉字 时,将指定标识获取为所述汉字的组合字。
14. 根据权利要求13所述的装置,其特征在于,所述分词模块用于根据所述检索概率 最大的路径中的组合词所包括的组合字的位置,对所述关键词进行切分,获取所述关键词 的分词结果。
15. 根据权利要求9所述的装置,其特征在于,所述装置还包括: 合并模块,用于当所述多个组合词中存在至少两个相同的组合词时,将所述至少两个 相同的组合词合并,合并后的组合词的检索概率为所述至少两个相同的组合词的检索概率 之和。
16. 根据权利要求9所述的装置,其特征在于,所述概率获取模块包括: 平均值获取单元,用于获取每条路径中所有组合词的检索概率的平均值; 概率获取单元,用于将每条路径中的所有组合词的检索概率的平均值获取为每条路径 的检索概率。
17. -种服务器,其特征在于,包括;接收器、发射器、存储器和处理器,所述接收器、所 述发射器和所述存储器分别与所述处理器连接,所述存储器存储有程序代码,所述处理器 用于调用所述程序代码,执行W下操作: 接收分词指令,所述分词指令携带待切分的关键词; 将所述关键词按照单个汉字进行切分,获取第一汉字集,所述第一汉字集包括所述关 键词的每个汉字; 根据预设对应关系,依次获取所述第一汉字集中每个汉字对应的检索信息; 根据所述第一汉字集和所述第一汉字集中每个汉字对应的检索信息,获取多个组合 词,W及所述多个组合词的检索概率; 根据所述多个组合词中包括的汉字,对所述多个组合词进行路径组合,得到多条路 径; 根据所述多个组合词的检索概率,获取每条路径的检索概率; 根据每条路径的检索概率,确定所述检索概率最大的路径; 根据所述检索概率最大的路径中包括的组合词,对所述关键词进行分词。
【文档编号】G06F17/30GK104462105SQ201310422879
【公开日】2015年3月25日 申请日期:2013年9月16日 优先权日:2013年9月16日
【发明者】马超 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1