专利名称:分词评价方法及装置的制作方法
技术领域:
本发明涉及信息处理领域,特别涉及一种分词评价方法及装置。
背景技术:
随着互联网的普遍应用,面向互联网进行搜索逐渐成为了人们获取信息的主要方 式。分词技术作为搜索引擎中的一项重要的基础技术,它的好坏将直接影响搜索质量的好 坏。为了提高分词的质量,人们设计出了各种各样的分词程序。如何对这些分词程序的分 词性能进行评价,一直是一个比较困难的问题。现有技术采用的是根据分词的准确率和召回率进行分词评价的方式,为了计算分 词的准确率和召回率,需要有事先标注的比较大规模的语料库,并在此基础上进行统计计 算,最后根据计算结果对分词的好坏进行评价。在实现本发明的过程中,发明人发现现有技术至少存在以下缺点现有的分词评价方式需要有事先标注的语料库才能实现自动评价,而目前已有的 比较大规模的语料库均需要人工进行标注。另外,由于现有语料库中的语料和目前互联网 中涉及的网络语料具有一定的差异性,从而导致有些分词程序即使根据现有语料库计算出 较高的准确率和召回率,但将其应用到面向互联网的搜索引擎中时,分词性能仍然很差。
发明内容
为了实现对分词性能的自动评价,并更加有效地评价面向互联网应用的分词性 能,本发明实施例提供了一种分词评价方法及装置。所述技术方案如下—方面,提供了一种分词评价方法,所述方法包括从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料 集;以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所 述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词 程序进行评价。其中,所述从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的 测试语料集,具体包括将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所 述每个测试词语的搜索结果;在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语 的测试语料集。所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性, 对所述待评价的分词程序进行评价,具体包括统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数;根据所述统计出的个数,对所述待评价的分词程序进行评价。或者,所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一 致性,对所述待评价的分词程序进行评价,具体包括在所有测试语料集中,统计测试语料集中的所有分词结果均与所述测试语料集对 应的测试词语的分词结果一致的个数;根据所述统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行 评价。另一方面,提供了一种分词评价装置,所述装置包括构建模块,用于从互联网中获取每个测试词语的测试语料,构建所述每个测试词 语的测试语料集;分词模块,用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分 词处理;比对模块,用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进 行比对;评价模块,用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果 进行比对之后,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致 性,对所述待评价的分词程序进行评价。其中,所述构建模块,具体包括搜索单元,具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎 中进行搜索,得到所述每个测试词语的搜索结果;构建单元,具体用于在所述每个测试词语的搜索结果中提取有效的测试语料,构 建所述每个测试词语的测试语料集。具体地,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语 料集中的分词结果进行比对之后,统计每个测试语料集中的分词结果的个数,并统计所述 每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的 个数;根据所述统计出的个数,对所述待评价的分词程序进行评价。或者,所述评价模块,具体用于在将所述每个测试词语的分词结果与其测试语料 集中的分词结果进行比对之后,在所有测试语料集中,统计测试语料集中的所有分词结果 均与所述测试语料集对应的测试词语的分词结果一致的个数;根据所述统计出的个数,及 所有测试词语的个数,对所述待评价的分词程序进行评价。本发明实施例提供的技术方案的有益效果是通过从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料 集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致性,对分词性能进行 评价,不仅能够在无需人工参与的情况下实现自动评价,还能够更好地评价面向互联网应 用的分词性能,使分词评价更具可靠性,适合应用于大规模的数据测试。
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。图1是本发明实施例一提供的分词评价方法流程图;图2是本发明实施例二提供的分词评价方法流程图;图3是本发明实施例三提供的分词评价装置结构示意图;图4是本发明实施例三提供的分词评价装置中的构建模块结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。实施例一参见图1,本实施例提供了一种分词评价方法,该方法流程如下101 从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料 集;102 以待评价的分词程序对每个测试词语及其测试语料集进行分词处理;103:将每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据每 个测试词语的分词结果与其测试语料集中的分词结果的一致性,对待评价的分词程序进行 评价。综上所述,本实施例提供的方法,通过从互联网中获取测试词语的测试语料,构建 测试词语的测试语料集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致 性,进行分词评价,能够在无需人工参与的情况下,更好地评价面向互联网应用的分词性 能,使分词评价更具可靠性,适合应用于大规模的数据测试。实施例二本实施例提供了一种分词评价方法,该方法针对各种各样的分词程序,提供了一 种面向互联网应用的分词性能评价方法,参见图2,方法流程具体如下201 从互联网中获取每个测试词语的测试语料,构建每个测试词语的测试语料 集;针对该步骤,为了使测试词语更具代表性,更能体现出分词性能,可以将网络中点 击频率较高、比较热门的词语作为测试词语,还可以将古今中外的一些名人的人名作为测 试词语,除此之外,还可以将一些具有代表性、确定性的词语作为测试词语,本实施例不对 测试词语的内容及数量进行具体限定。具体地,为了缩小获取的测试语料与网络语料之间的差异性,提供一种面向互联 网应用的分词评价方法,本实施例以面向互联网的搜索引擎为例,将每个测试词语作为搜 索词放入面向互联网的搜索引擎中进行搜索,得到每个测试词语的搜索结果;并在每个测 试词语的搜索结果中提取有效的测试语料,构建每个测试词语的测试语料集。对于每个测试词语,其搜索结果可能是成千上万的,搜索引擎一般会将最相关的、 高质量的搜索结果显示在最前面,因此,为了提高获取测试语料的效率,提高获取的测试语 料的质量,可以在显示靠前的多个搜索结果中提取有效的测试语料。
此处判断测试语料有效性的标准是以“。”、“ ? ”、“ !,,等代表完整语句的符号作为 分隔符,且该测试语料中包含其对应的测试词语,而不是另一个词语的一部分。例如,以测 试词语“王维”为例,将其放入搜索引擎中进行搜索时,搜索结果可能会出现“上海社保案核 心人物王维工受贿千万获死缓”的语料,测试词语“王维”作为该语料中词语“王维工”的一 部分,因此,该语料不具备有效性。优选地,再对提取的语料进行过滤,去除一些包含特殊字符的语料,同时去除上下 文完全相同的语料,最终得到每个测试词语的测试语料集。202 以待评价的分词程序对每个测试词语及其测试语料集进行分词处理;其中,对每个测试词语的测试语料集进行分词处理,也就是对测试语料集中的每 个测试语料进行分词处理,每个测试词语的测试语料集中包含一至多个测试语料。由于每 种分词程序之间会存在不同程度的差异,即使是同一个测试语料或测试词语,在用不同的 分词程序进行分词处理时,得到的分词结果也可能会不一样。即使是同一个测试词语,以相 同的分词程序对其进行分词处理,和将其放入测试语料中再对其进行分词处理,得到的分 词结果也可能不同,因此,一个测试语料集中可能存在多种分词结果。例如,对于测试词语“ABC”,对其进行分词处理时,得到的分词结果可能是“A”、 “^’、“(^“^”、“(^“^’、“肌”;“仙^’等多种分词结果中的任一种。而将该测试词语放入 测试语料中,即对该测试词语的测试语料集进行分词处理时,有可能会得到“A”、“B”、“C”; “AB”、“C”;“A”、“BC”;“ABC”等多种分词结果,由此可见,对单独的测试词语进行分词处理, 和将其放入测试语料中再对其进行分词处理时,得到的分词结果有可能是不一样的,一个 测试语料集中也可能存在多种分词结果。203 将每个测试词语的分词结果与其测试语料集中的分词结果进行比对;针对该步骤,通过将每个测试词语的分词结果与其测试语料集中的分词结果进行 比对,可得出每个测试词语的分词结果,和将其放入测试语料中的分词结果是否一样,如果 一样,则认为该测试词语的分词结果,和将其放入测试语料中的分词结果一致。测试语料集 中的分词结果与测试词语的分词结果一致的个数越多,则说明该测试词语的分词结果与其 测试语料集中的分词结果的一致性越高。204:根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对该 待评价的分词程序进行评价。具体地,统计每个测试语料集中的分词结果的个数,并统计每个测试语料集中的 分词结果与每个测试语料集对应的测试词语的分词结果一致的个数;根据统计出的个数, 对待评价的分词程序进行评价。例如,将每个测试词语的分词结果与其测试语料集中的分词结果的一致性定义为 “-致性指标”,表示为
权利要求
1.一种分词评价方法,其特征在于,所述方法包括从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集; 以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理; 将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每 个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序 进行评价。
2.根据权利要求1所述的方法,其特征在于,所述从互联网中获取每个测试词语的测 试语料,构建所述每个测试词语的测试语料集,具体包括将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索,得到所述每 个测试词语的搜索结果;在所述每个测试词语的搜索结果中提取有效的测试语料,构建所述每个测试词语的测 试语料集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个测试词语的分词结果 与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果 与所述每个测试语料集对应的测试词语的分词结果一致的个数; 根据所述统计出的个数,对所述待评价的分词程序进行评价。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个测试词语的分词结果 与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价,具体包括在所有测试语料集中,统计测试语料集中的所有分词结果均与所述测试语料集对应的 测试词语的分词结果一致的个数;根据统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行评价。
5.一种分词评价装置,其特征在于,所述装置包括构建模块,用于从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的 测试语料集;分词模块,用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;比对模块,用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对;评价模块,用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行 比对之后,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对 所述待评价的分词程序进行评价。
6.根据权利要求5所述的装置,其特征在于,所述构建模块,具体包括搜索单元,具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进 行搜索,得到所述每个测试词语的搜索结果;构建单元,具体用于在所述每个测试词语的搜索结果中提取有效的测试语料,构建所 述每个测试词语的测试语料集。
7.根据权利要求5所述的装置,其特征在于,所述评价模块,具体用于在将所述每个测 试词语的分词结果与其测试语料集中的分词结果进行比对之后,统计每个测试语料集中的分词结果的个数,并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的 测试词语的分词结果一致的个数;根据统计出的个数,对所述待评价的分词程序进行评价。
8.根据权利要求5所述的装置,其特征在于,所述评价模块,具体用于在将所述每个测 试词语的分词结果与其测试语料集中的分词结果进行比对之后,在所有测试语料集中,统 计测试语料集的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个 数;根据统计出的个数,及所有测试词语的个数,对所述待评价的分词程序进行评价。
全文摘要
本发明公开了一种分词评价方法及装置,属于信息处理领域。所述方法包括从互联网中获取每个测试词语的测试语料,构建所述每个测试词语的测试语料集;以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理;将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对,根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性,对所述待评价的分词程序进行评价。所述装置包括构建模块、分词模块、比对模块和评价模块。本发明通过从互联网中获取测试词语的测试语料,构建测试语料集,并根据测试词语的分词结果与其测试语料集中的分词结果的一致性,进行分词评价,能够更好地评价面向互联网应用的分词性能。
文档编号G06F17/30GK102043791SQ20091018112
公开日2011年5月4日 申请日期2009年10月10日 优先权日2009年10月10日
发明者方高林, 郑全战 申请人:腾讯科技(深圳)有限公司