分词评价方法及装置的制作方法

文档序号：6581061阅读：221来源：国知局

专利名称：分词评价方法及装置的制作方法
技术领域：
本发明涉及信息处理领域，特别涉及一种分词评价方法及装置。
背景技术：
随着互联网的普遍应用，面向互联网进行搜索逐渐成为了人们获取信息的主要方式。分词技术作为搜索引擎中的一项重要的基础技术，它的好坏将直接影响搜索质量的好坏。为了提高分词的质量，人们设计出了各种各样的分词程序。如何对这些分词程序的分词性能进行评价，一直是一个比较困难的问题。现有技术采用的是根据分词的准确率和召回率进行分词评价的方式，为了计算分词的准确率和召回率，需要有事先标注的比较大规模的语料库，并在此基础上进行统计计算，最后根据计算结果对分词的好坏进行评价。在实现本发明的过程中，发明人发现现有技术至少存在以下缺点现有的分词评价方式需要有事先标注的语料库才能实现自动评价，而目前已有的比较大规模的语料库均需要人工进行标注。另外，由于现有语料库中的语料和目前互联网中涉及的网络语料具有一定的差异性，从而导致有些分词程序即使根据现有语料库计算出较高的准确率和召回率，但将其应用到面向互联网的搜索引擎中时，分词性能仍然很差。

发明内容
为了实现对分词性能的自动评价，并更加有效地评价面向互联网应用的分词性能，本发明实施例提供了一种分词评价方法及装置。所述技术方案如下—方面，提供了一种分词评价方法，所述方法包括从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。其中，所述从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集，具体包括将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到所述每个测试词语的搜索结果；在所述每个测试词语的搜索结果中提取有效的测试语料，构建所述每个测试词语的测试语料集。所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括统计每个测试语料集中的分词结果的个数，并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数；根据所述统计出的个数，对所述待评价的分词程序进行评价。或者，所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括在所有测试语料集中，统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数；根据所述统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。另一方面，提供了一种分词评价装置，所述装置包括构建模块，用于从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；分词模块，用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；比对模块，用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对；评价模块，用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。其中，所述构建模块，具体包括搜索单元，具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到所述每个测试词语的搜索结果；构建单元，具体用于在所述每个测试词语的搜索结果中提取有效的测试语料，构建所述每个测试词语的测试语料集。具体地，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，统计每个测试语料集中的分词结果的个数，并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数；根据所述统计出的个数，对所述待评价的分词程序进行评价。或者，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，在所有测试语料集中，统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数；根据所述统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。本发明实施例提供的技术方案的有益效果是通过从互联网中获取每个测试词语的测试语料，构建每个测试词语的测试语料集，并根据测试词语的分词结果与其测试语料集中的分词结果的一致性，对分词性能进行评价，不仅能够在无需人工参与的情况下实现自动评价，还能够更好地评价面向互联网应用的分词性能，使分词评价更具可靠性，适合应用于大规模的数据测试。

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图1是本发明实施例一提供的分词评价方法流程图；图2是本发明实施例二提供的分词评价方法流程图；图3是本发明实施例三提供的分词评价装置结构示意图；图4是本发明实施例三提供的分词评价装置中的构建模块结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。实施例一参见图1，本实施例提供了一种分词评价方法，该方法流程如下101 从互联网中获取每个测试词语的测试语料，构建每个测试词语的测试语料集；102 以待评价的分词程序对每个测试词语及其测试语料集进行分词处理；103:将每个测试词语的分词结果与其测试语料集中的分词结果进行比对，根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对待评价的分词程序进行评价。综上所述，本实施例提供的方法，通过从互联网中获取测试词语的测试语料，构建测试词语的测试语料集，并根据测试词语的分词结果与其测试语料集中的分词结果的一致性，进行分词评价，能够在无需人工参与的情况下，更好地评价面向互联网应用的分词性能，使分词评价更具可靠性，适合应用于大规模的数据测试。实施例二本实施例提供了一种分词评价方法，该方法针对各种各样的分词程序，提供了一种面向互联网应用的分词性能评价方法，参见图2，方法流程具体如下201 从互联网中获取每个测试词语的测试语料，构建每个测试词语的测试语料集；针对该步骤，为了使测试词语更具代表性，更能体现出分词性能，可以将网络中点击频率较高、比较热门的词语作为测试词语，还可以将古今中外的一些名人的人名作为测试词语，除此之外，还可以将一些具有代表性、确定性的词语作为测试词语，本实施例不对测试词语的内容及数量进行具体限定。具体地，为了缩小获取的测试语料与网络语料之间的差异性，提供一种面向互联网应用的分词评价方法，本实施例以面向互联网的搜索引擎为例，将每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到每个测试词语的搜索结果；并在每个测试词语的搜索结果中提取有效的测试语料，构建每个测试词语的测试语料集。对于每个测试词语，其搜索结果可能是成千上万的，搜索引擎一般会将最相关的、高质量的搜索结果显示在最前面，因此，为了提高获取测试语料的效率，提高获取的测试语料的质量，可以在显示靠前的多个搜索结果中提取有效的测试语料。
此处判断测试语料有效性的标准是以“。”、“ ？ ”、“ ！，，等代表完整语句的符号作为分隔符，且该测试语料中包含其对应的测试词语，而不是另一个词语的一部分。例如，以测试词语“王维”为例，将其放入搜索引擎中进行搜索时，搜索结果可能会出现“上海社保案核心人物王维工受贿千万获死缓”的语料，测试词语“王维”作为该语料中词语“王维工”的一部分，因此，该语料不具备有效性。优选地，再对提取的语料进行过滤，去除一些包含特殊字符的语料，同时去除上下文完全相同的语料，最终得到每个测试词语的测试语料集。202 以待评价的分词程序对每个测试词语及其测试语料集进行分词处理；其中，对每个测试词语的测试语料集进行分词处理，也就是对测试语料集中的每个测试语料进行分词处理，每个测试词语的测试语料集中包含一至多个测试语料。由于每种分词程序之间会存在不同程度的差异，即使是同一个测试语料或测试词语，在用不同的分词程序进行分词处理时，得到的分词结果也可能会不一样。即使是同一个测试词语，以相同的分词程序对其进行分词处理，和将其放入测试语料中再对其进行分词处理，得到的分词结果也可能不同，因此，一个测试语料集中可能存在多种分词结果。例如，对于测试词语“ABC”，对其进行分词处理时，得到的分词结果可能是“A”、 “^’、“(^“^”、“(^“^’、“肌”；“仙^’等多种分词结果中的任一种。而将该测试词语放入测试语料中，即对该测试词语的测试语料集进行分词处理时，有可能会得到“A”、“B”、“C”; “AB”、“C”;“A”、“BC”;“ABC”等多种分词结果，由此可见，对单独的测试词语进行分词处理，和将其放入测试语料中再对其进行分词处理时，得到的分词结果有可能是不一样的，一个测试语料集中也可能存在多种分词结果。203 将每个测试词语的分词结果与其测试语料集中的分词结果进行比对；针对该步骤，通过将每个测试词语的分词结果与其测试语料集中的分词结果进行比对，可得出每个测试词语的分词结果，和将其放入测试语料中的分词结果是否一样，如果一样，则认为该测试词语的分词结果，和将其放入测试语料中的分词结果一致。测试语料集中的分词结果与测试词语的分词结果一致的个数越多，则说明该测试词语的分词结果与其测试语料集中的分词结果的一致性越高。204:根据每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对该待评价的分词程序进行评价。具体地，统计每个测试语料集中的分词结果的个数，并统计每个测试语料集中的分词结果与每个测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，对待评价的分词程序进行评价。例如，将每个测试词语的分词结果与其测试语料集中的分词结果的一致性定义为 “-致性指标”，表示为
权利要求
1.一种分词评价方法，其特征在于，所述方法包括从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。
2.根据权利要求1所述的方法，其特征在于，所述从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集，具体包括将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到所述每个测试词语的搜索结果；在所述每个测试词语的搜索结果中提取有效的测试语料，构建所述每个测试词语的测试语料集。
3.根据权利要求1所述的方法，其特征在于，所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括统计每个测试语料集中的分词结果的个数，并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数；根据所述统计出的个数，对所述待评价的分词程序进行评价。
4.根据权利要求1所述的方法，其特征在于，所述根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价，具体包括在所有测试语料集中，统计测试语料集中的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。
5.一种分词评价装置，其特征在于，所述装置包括构建模块，用于从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；分词模块，用于以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；比对模块，用于将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对；评价模块，用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。
6.根据权利要求5所述的装置，其特征在于，所述构建模块，具体包括搜索单元，具体用于将所述每个测试词语作为搜索词放入面向互联网的搜索引擎中进行搜索，得到所述每个测试词语的搜索结果；构建单元，具体用于在所述每个测试词语的搜索结果中提取有效的测试语料，构建所述每个测试词语的测试语料集。
7.根据权利要求5所述的装置，其特征在于，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，统计每个测试语料集中的分词结果的个数，并统计所述每个测试语料集中的分词结果与所述每个测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，对所述待评价的分词程序进行评价。
8.根据权利要求5所述的装置，其特征在于，所述评价模块，具体用于在将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对之后，在所有测试语料集中，统计测试语料集的所有分词结果均与所述测试语料集对应的测试词语的分词结果一致的个数；根据统计出的个数，及所有测试词语的个数，对所述待评价的分词程序进行评价。
全文摘要
本发明公开了一种分词评价方法及装置，属于信息处理领域。所述方法包括从互联网中获取每个测试词语的测试语料，构建所述每个测试词语的测试语料集；以待评价的分词程序对所述每个测试词语及其测试语料集进行分词处理；将所述每个测试词语的分词结果与其测试语料集中的分词结果进行比对，根据所述每个测试词语的分词结果与其测试语料集中的分词结果的一致性，对所述待评价的分词程序进行评价。所述装置包括构建模块、分词模块、比对模块和评价模块。本发明通过从互联网中获取测试词语的测试语料，构建测试语料集，并根据测试词语的分词结果与其测试语料集中的分词结果的一致性，进行分词评价，能够更好地评价面向互联网应用的分词性能。
文档编号G06F17/30GK102043791SQ20091018112
公开日2011年5月4日申请日期2009年10月10日优先权日2009年10月10日
发明者方高林, 郑全战申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方高林;郑全战
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。