基于搜索的无词边界标记语言的分词方法以及装置的制作方法

文档序号:6574421阅读:138来源:国知局
专利名称:基于搜索的无词边界标记语言的分词方法以及装置的制作方法
技术领域
本发明涉及无词边界标记语言的分词技术,更具体地,本发明涉 及基于搜索的无词边界标记语言文本的分词方法和装置。
背景技术
与英文以及其它的西方语言不同,许多亚洲语言,例如中文、日 文、韩语以及泰语等语言没有用空格等词边界标记来划界。 一个句 子中会包括一串连续的字符,而在单词之间并没有定界符,也就是 分隔符。如何界定单词则依赖于所讨论的是否为音位单词、词汇单 词、语形学单词、依据造句法的单词、语义学单词或是心理学单词。 因此,在任何的基于单词的语言处理中,例如在文本转语音也即语音合成(TTS)、文档特征提取、文档自动摘要、文档自动分类和中 文文本检索中,将每一个句子分词成单词是首要的步骤。为了清除起见,本发明例如针对中文进行描述,但是应当理解的 是,本发明的范围并不受限于此。中文单词分词技术主要需要解决中文自然语言处理(NLP)中的 两个问题,即中文中的单词是什么以及计算机如何自动识别中文单 词。相应地,中文单词的分词主要涉及了两个研究问题,单词清晰 地分界以及未知单词的识别。而在目前大部分的系统中,这两个问 题被认为是独立的任务因此采用了层级或是连续的方式通过不同的 元件或是组件来完成。然而,由于中文单词的一些特殊语言特性, 使得中文单词分词主要的困难在于分词的结果根据不同的单词语言 学定义以及不同的工程需求而有所变化。关于这一点,并没有单一 的标准使得所有的语言学家和计算机应用都满意,也没有能够统一 接受的标准来清晰地确定每一种语境下的单词。例如,中文语言特另寸小组(SIGHAN ) 2005 竟赛(SIGHAN Workshop 2005. www.sighan.org/bakeoff2005/)中,虽然所有的组所报告的精确度达 到了百分之九十,但是训练语料库包含了约90,000句而测试数据集 只包含了约4,400句。此外,该结果需要基于四种分词方法(即AS, PKU, CityU和MSRA)进行单独的比较。这为期望用于训练多种类 型NLP系统的注标语料库的发展制造了问题,同时也对期望能够支 持多重用户应用的中文单词分词系统带来了挑战。目前中文单词分词的方法基本上可以归类为四种1 )基于字典 的方法;2)统计机器学习方法;3)基于转换的方法;4)合并方法。在基于字典的分词方法中,使用了预先定义的字典以及人工产生 的语法规则。在这种方法中根据字典对句子进行分词,同时应用语 法规则来进行改进。基于字典的分词方法的一种典型的技术称为最能够匹配最多字符的条目。可以看出,基于字典的分词方法的局限 性在于这种方法受限于字典的覆盖面并且其规则缺乏稳健的统计推此这种方法的准确性在新单词出现的时候会急剧降低。统计机器学.习方法是一种使用了概率或基于成本的评分机制而 不是字典来对文本进行分词的方法。目前所提出的统计机器学习方 法主要有以下几种l)MSRSeg方法,该方法包括两个部分, 一个 部分是基于线性混合模型结构的 一般分词器,该分词器对单词级的 中文语言处理的五个特征进行统一,该五个特征为词典单词处理、 语形学分析、数字串检测、命名实体识别以及新单词识别;另一个 部分是一组输出适配器,将一般分词器的输出适配为不同的特殊应 用标准;2)使用相邻字符的信息以接合N-gram和其相邻字符;3) 最大似然法;4)应用神经网络的方法;5)引入中文词汇分析器的 统一基于HHMM ( Hierarchical Hidden Markov Model,结构化的隐马尔可夫模型)的框架;6)从一句话中提取各种可用的特征以构建广 义的模型,并且接着基于这种模型得到各种概率模型;7)使用共有信息以及字符之间的t-评分差,这些共有信息以及字符之间的t-评分是自动从原始中文语料库中获得的;将有条件的随机字段用于分词 任务。由于统计机器学习方法一般基于字符序列共现的信息来进行 分析,因此这一类的方法一般要求大量的中文标注语料库用于模型 训练,而更重要的是其缺乏灵活性以适应于不同的分词标准。基于转换的方法最初使用在词性标注和解析中。这些方法的主导 思想是从训练语料库尽力学习 一组N-gram规则并且将它们应用到对 新文本的分词上。这种学习算法对语料库(相当于字典)与其未经 分词的配对进行比较从而寻找出规则。 一种基于转换的方法是在手 动注释的数据上训练标注从而自动地将标签分配给中文字符,而这 些标签指示了在一个单词中的字符的位置。经过标注的输出接着被 转换成为经分词的文本用以评估。另 一 种基于转换的方法是根据所 谓的LMR标注对中文单词进行分词的算法。该方法中的LMR标签 用最大熵马尔科夫模型来实现,接着使用基于转换的学习将在两个 相对的方向上对输入进行扫描的两个LMR标签的结果进行合并。还 有一种基于转换的方法是提出一种统计框架并且基于线性模型识别 特殊领域或是时间性很强的单词,接着由 一对一般分词器的输出进 行一序列转换的后处理器进行标准适配以实现单一 的单词分词系 统。由于基于转换的方法是从训练语料库中学习N-gram规则,因此, 这种方法仍然受限于训练语料库。合并方法是将现有的几种方法或是信息进行合并使用的一种方 法,例如,可以将字典和单词频率信息进行合并;也可以将最大熵 模型和基于转换的模型进行合并;可以训练若干支持向量机并且研 究动态加权的方法怎样进行分词任务;还可以将基于隐马尔科夫模 型的单词分词器和基于支持向量机的块识别器进行合并用以进行单 词分词。在文件"Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation" ( Li, M., Gao, J.F., Huang, C.N., and Li, J.F., Proceedings of the Second SIGHAN Workshop on Chinese Language Processing. Jul.2003, pp.1-7 )中提出了 一种无监督的训练方式来解决中文分词中的重叠模糊,该方式以未标注的中文 文本语料库训练朴素贝叶斯分类器集。在这些合并方法中有一种可以方便地进行用户订制的系统从而可以满足语形学派生词(MDW ) 的分词中各种用户定义的标准。在该系统中,所有的MDW都包含 单词树,在单词树上有对应于最大单词的根节点以及对应于最小单 词的叶节点。而在单词树上每一个非终端的节点与 一个决断参数相 关联,该分解参数决定了其子体将被显示为单一单词或是分离的单 词。从不同的对于单词树的切割可以获得不同的分词输出,而对于定。不难理解的是,由于合并方法仅仅是对上述的前几种方法的合 并使用,因此仍然会带有前述方法的局限性。从以上的描述可以看出,虽然在本领域提出了很多不同的方法,但是这些方法主要是基于字典或是统计学的方法,因此在理论语言 学和计算机语言学上面临很多问题,即灵活性差,在很大程度上依赖于字典的覆盖度或是受限于可以获得的训练数据语料库,对于识 别超出词汇(OOV )单词方面较弱以及所识别的OOV单词有可能在 语言学上不可信等,因此使得中文单词分词的性能并不令人满意。 另外,手工标记训练语料库是非常冗长乏味的任务,这也是为什么 很少有可用的训练语料库。发明内容本发明的目的是提供一种基于搜索的用于无词边界标记语言的 分词方法和装置,以更好地解决无词边界标记语言的分词问题,克 服现有技术的不足。本发明利用搜索引擎返回的搜索结果来进行单 词分词,以解决现有分词技术在灵活性、依赖于字典的覆盖度、可 以获得的训练数据语料库、处理新词汇等方面的局限。根据本发明的 一 方面提供了 一种基于搜索的用于无词边界标记 语言文本的分词方法,包括a.将包括至少一个片段的该文本的一 个片段提供给至少一个搜索引擎;b.通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;c.根据返回的搜索结果的至 少 一部分选取该 一个片段的分词方式。根据本发明的另一方面还提供了一种基于搜索的用于无词边界 标记语言文本的分词装置,包括至少一个搜索引擎,接收包括至 少一个片段的该文本的一个片段,该至少一个搜索引擎对该一个片 段在搜索网络中进行搜索,并返回搜索结果;分词结果生成装置, 根据该至少一个搜索引擎返回的搜索结果的至少一部分选取该一个 片段的分词方式。根据本发明的以上方面,可以得出本发明的以下优点与以前的基于字典的或统计学习方法不同,本发明利用搜索技术 来对例如中文的无词边界语言分词。因此,本发明不需要预先定义 的字典或大的训练语料库。本发明的优点之一是在于新词检测。在新词与日俱增的同时,例 如"非典"(SARS)本发明提供了一种非常容易的方式来识别OOV 词,因为互联网上的信息是动态的、更新很快的。由于前人提出的方法都要求一个词典的支持,不论此词典是用于 实时查询(如基于词典的方法),还是用于训练分词模型(如统计 学习方法等),这个词典都是有限的。而本方法的"词典"是基于互 联网的,所以是动态的、可实时更新的,因此对于新词的识别非常 简单有效,从而避免了前人方法中不可避免的OOV问题。如在(Wu, A. Customizable Segmentation of Morphologically Derived Words in Chinese. Computational Linguistics and Chinese Language Processing. Vol. 8, No. 1, Feb. 2003, pp. l-28)中所分析的, 不同的应用期望不同的分词单元,甚至以例如中文为母语者会对一 个给定的字符串是否为词而意见不同。如在(Sproat, R,, C. Shih, W. Gale and N. Chang, "A stochastic finite-state word-segmentation algorithm for Chinese". Computational Linguistics, 22(3), 1996, pp. 377_404)中所讲的,人的判断之间的一致率仅为76%。因此,如果能 够提供替代的分词单元,分词系统会更加有效。根据本发明,搜索引擎通常能够提供多种分词单元。例如,通过Yahoo!搜索查询"试了一试,,,返回了"试了","一试","试了一试"。 这个特点加上本发明中的分词单元评分步骤,使得本发明能够适应 各种标准。如前所述,手工标记训练语料库是非常冗长乏味的任务。而本发 明可以是完全无监督的。因为在本发明中,唯一可能需要训练过程 的步骤是评分功能。根据本发明,如果采用"术语频率"作为分词 单元评分标准,则不需要训练数据,这样能够使整个方案成为无监督的。由于本发明通过搜索引擎采用互联网上的大量文档来得到最初 的分词单元,而文档是由人类写就的,因而遵从自然语言的,本方 法相对于过去的方法而言,不再需要对文档进行自然语言分析就可 以直接得到正确的分词结果。


通过以下结合附图的说明,并且随着对本发明的更全面了解,本 发明的其它目的和效果将变得更加清楚和易于理解,其中图1表示根据本发明的基于搜索的用于无词边界标记语言的分 词系统的基本单元示意图;图2表示根据本发明基于搜索的用于无词边界标记的语言的分 词方法;图3示出了根据本发明一个实施方式的基于搜索的分词方法的 流程图;图4所示的是使用了公共搜索引擎Yahoo!的搜索结果; 图5表示根据本发明的一个示例的分词结果; 图6表示根据本发明的又一个示例的分词结果。
具体实施方式
以下对本发明的优选实施方式进行详细描述。图1表示根据本发明的基于搜索的用于无词边界标记语言文本的分词系统的基本单元示意图。图2表示根据本发明基于搜索的用 于无词边界标记的语言文本的分词方法。根据本发明,对一个无词 边界标记语言文本,例如日语、韩语、泰语或中文的文本甚至是消 除空格的英文或其它西语文本进行分词,首先在步骤S100将包括至 少 一个片段的该文本的 一个片段作为查询内容提供给至少 一个搜索 引擎l,可以例如以键盘输入的方式、手写输入、语音输入的方式、 直接对文本操作(例如选中一段文本进行操作)或任何可用的其它 方式等将查询内容提供给搜索引擎。该文本的片段可以由例如标点 或其它标记性的内容或符号来划分。在步骤S110通过搜索引擎l对 查询内容(片段)在搜索网络2,例如互联网,中进行搜索,并返回 的搜索结果。在步骤S120,分词结果生成装置3根据返回的搜索结 果选取所提交的片段的最优的分词方式。例如,首先将文本按照标点分词成一组句子单元。然后将每个句 子单元作为查询提交给搜索引擎。从搜索引擎返回的文本摘录中提 取所有的候选的短语,即"命中",称为候选分词单元。对于每个 候选分词单元可以计算一个分值。候选分词单元形成多个子集。每 个子集中的候选分词单元串联起来得到提交的查询,即形成一个"路 径"(即序列),以最佳的"路径,,作为提交的句子单元的分词结 果。下面根据图3和图4更具体地示例性地描述本发明。图3示出了 根据本发明一个实施方式的基于搜索的分词方法的流程图。如图3 所示,首先,在步骤SllOl,输入文档S,例如中文文档;接着,在 步骤S1102,使用标点对给定的文档S进行划分,将其划分为句单 元,这样就给出了图3中所示的W,其中/指示着在W中的第z'项。 本方法依次对各个项进行处理直到处理完化}中所有项;在步骤 S1103,将所划分的句单元,也就是,对于每一个^糾,将其提交给搜索引擎,搜索引擎通常会提供各种分词单元;接着,在步骤S1104, 根据搜索结果,收集由所有的搜索引擎返回的所有候选分词单元集H},其中/指的是奴}中的第/项,而y是分词单元的索引。如果我们使用如Yahoo!、 Google的公共搜索引擎,可以从返回的搜索结果的 HTML文件的源文件中提取候选分词单元,即提取返回的摘录中的 高亮的短语,例如图4中所示的红色字体的高亮短语。图4所示的 是使用了公共搜索引擎Yahoo!搜索"他高兴地说"的搜索结果。然 而如果有可用的自有搜索引擎时,可以利用索引表提供的信息,查 看术语在文档中的位置的相邻性来得到分词单元。可以理解的是, 本发明并不限于此,而是可以通过对公共或自有搜索引擎的搜索结 果所给出的所有高亮短语进行收集并且进行搜索结果的合并。事实 上,由于本发明是基于前面排名的文档来计算特征(例如,频率), 并且本地分词模型对搜索结果以及因此对候选分词单元产生影响, 所以在具有不同的本地分词模型的多种搜索引擎的基础上收集候选 分词单元会产生更为有益的分词性能。为更清楚地描述本发明,进一步说明如下。搜索引擎通常的工作 过程是这样的基于所提交的查询初步将其分词为一组术语,这些 术语是n-grams或者是基于该搜索引擎所采用的本地分词模型。接着 搜索引擎对所有包含了这些术语(也即命中)的一个或多个的文档 进行索引,根据这些命中而计算每一个文档的一个分值,对这些文 档进行排序,最终向用户输出这些文档中最靠前的一些文档(例如,可以是前1000篇文档)。根据排名策略, 一般来讲, 一篇文档中包 含越多的命中,其排名就越靠前。这样,很直观地,排名靠前的文档中所包含的命中建议了一些候 选分词单元,这些候选分词单元指示着在自然语言中字符是怎样彼 此相关联的。例如,如图4所示,从该搜索实例可以看出,对于"他 高兴地说,,这句话,得到了 "他高兴地","高兴","他说,,等等。此 外, 一个术语的分布(例如,频率)指示着其普遍性,也就是特定 字符彼此相关联的可能性有多大。仍然参考图4,可以看出,"他高 兴地,,出现了三次而"高兴,,出现了四次。如果术语出现的频率用作衡 量候选分词单元的一个标准时,则"高兴"将比"他高兴地"更为优选,因为前者出现的频率高于后者。另一方面,搜索引擎所采用的N-gram 模型或是本地分词模型本身可能并不是有效果的。在本发明方法中, 所收集的候选分词单元是所检索的文档摘录中的高亮短语。而由于 Web文档是由人类写就的,因此是遵从自然语言的。即使搜索引擎 的本地分词并不正确,其也会由这些文档进行修正,换言之,由人 类说话的方式进行修正。例如给出的一个极端的例子,假设一个搜 索引擎将分隔开每一个字符,也即没有采用N-gram模型或是本地分 词模型,这时搜索引擎将每一个单gram用作一个术语(即,每一个 术语中仅包含一个字符)来对文档进行索引,这样在所检索到的文 档中,这些术语就彼此相邻。在图4的例子中,表示的实例是"他 高兴地说"的Yahoo!搜索的结果。红色的高亮部分给出了分词单元 (例如,"他高兴地"、"说,,、"高兴,,等)。似乎"他高兴地" 被搜索引擎识别为n-gram。然而,通过查看html文件的源文件,可 以看到该搜索引擎只索引该n-gram的各部分。源文件如下<1>>他 〈/bxb〉高兴〈/bxb〉地〈/b〉。引用在〈bx/b〉中的短语给出了搜索引 擎的初始分词。从这个例子可以看到,候选分词单元不受搜索引擎 的本地分词模型的影响。接着,优选地可以从{^}过滤掉无效的分词单元。所说的这种无 效分词单元例如有两种类型, 一 种是并没有出现在查询句子中的分 词单元,也就是说,所查询的句子并没有包含恰好匹配这个分词单 元的一部分字符序列;另一种也就是所谓的单字,这种分词方法就 是将每个字看作一个词,从严格的意义上来说,这种分词并不能算 作一种分词方法。大部分这种单字符术语都是停用词。接着针对查询句子的重构对候选分词单元过滤后所剩下的分词 单元进行评分,并且最有可能给出查询句子的分词单元对应着最佳 的分词。在步骤S1105,对所收集的所有候选分词单元进行评分。在此步 骤可以使用各种可用的评分方法。在以下的描述中,示例性地描述 了两种评分方法,即基于频率的方法和基于SVM (支持向量机器)方法。在本实施例中,作为一种评分方法采用了基于频率的方法进行评分,最简单的方式是基于搜索结果将每一个w;全部术语的出现频率 用作分值。所谓的全部术语的出现频率如下面等式(1)所示,H柳 (1)s,,(w;)=m柳其中Ww》表示^的术语频率分值.W'是通过A检索到的文档数量.巧 》是 <在第k个文档摘录(如果是公共搜索引擎)中的次数.等式(i)为一的出现次数与对应于该查询、的所有分词单元何} 出现的总次数的比值。而这种方法,基本上对应着最大似然(Maximum likelihood )标准。关于统计学习理论,此标准使得当数 据集足够大时(按照大数定律)经验风险最小(在本实施例中使用 作为一种非线性拟合办法的最大似然法的优势在于使用这种方法估 计的参数将会使得对数似然值最大或者负的对数似然值最小)。另一种评分方法是基于SVM(支持向量机器)方法。当数据集 不是足够大时,我们寻求最小化结构风险,而基于SVM(支持向量 机器)方法正是一种试图最小化数据集结构风险的算法。可以尝试 不同的核函数,RBF核函数、S核函数、线性和多项式核函数。可 以选择SVM分类器或SVM回归模型来对分词单元评分。然而,由 于训练SVM回归模型要求提供数值评分给每个训练数据点,通常很 难确定评分策略。容易的方式是利用SVM分类器作为评分模型,并 且使用Platt提出的S函数将输出映射为概率(Platt, J" Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Large Margin Classifiers, Smola, A., Bartlett, P., Scholkopf, B., Schuu腿ns, D. (eds.), MIT Press, 1999)。在本发明的实 施中,利用SVM分类器对每个分词单元评分。为了训练SVM分类器,首先应该将每个数据点(即候选分词单元)表示为一个特征向量。对每个分词单元提取例如以下三类特征之一或其组合,或其它特征1. LEN: LEN特征定义为一个分词单元中字的数量。更长的分 词单元优选于短的分词单元,因为它们在语音合成、语音识别应用 等中表示了更好的语义单元。2. AVGOCCU: "AVGOCCU"定义为平均出现率,即一个分 词单元出现的次数,优选地是在"有效"分词单元集合,即滤除无 效分词单元后的分词单元集合中出现的次数,除以搜索引擎返回的 结果中的文档数量。更高的AVGOCCU值表示更好的分词单元。3. DF: "DF"定义为文挡频率,即对于一个分词单元,多少个 搜索结果包含它。DF越大,该分词单元越好。在SVM方法中,还可以采用其它的特征作为分词单元的特征。接着,在步骤S1106,根据在步骤S1105得到的评分结果从候选 分词单元中选择最佳候选分词单元子集。本发明中可以采用不同的 方法来选择最佳候选分词单元子集。示例性地,本实施例根据重构 查询句子的术语来找最高排名路径。一个示例的路径寻找方法是动态规划。在此, 一个隐含的限制是 w,;s,,即候选分词单元子集重构的最终路径应该与查询句子相同。 此限制便于生成w,"W…、这是通过给定"来限制^'的选择,显然在字符串s,中 '的开始字符应该是紧跟w;的结束字符的字符。以下等式(2)给出了排名函数的一个例子。该等式将分词单元的最优子集w'定义为给出具有最高路径评分的序列的分词单元子集。w' -argmaxSOvO-argmaxlSSOv)), w, (2)其中,附是由基于频率的方法或基于SVM的方法给出的评分; n是最优子集中包含的分词单元的数量。还可以尝试其它有效的路径寻找标准,例如贪心搜索等。 最后,在步骤S1107,对最佳分词单元子集进行输出,作为查询的句子单元的分词方式。以上描述全面详细地体现了本发明的特点和优点。以下两个实例进一步说明了本发明的两个突出的优点1)由于前人提出的方法都要求一个词典的支持,不论此词典是 用于实时查询(如基于词典的方法),还是用于训练分词模型(如 统计学习方法等),这个词典都是有限的。而本方法的"词典"是动 态的,可实时更新的,因此对于新词的识别非常简单有效,从而避 免了前人方法中不可避免的OOV问题。图5中显示了本发明的方法 对于"胡锦涛说八荣八耻很重要,,的分词结果及其与IBM Full-parser (IBM当前的采用基于词典方法的分词工具)结果的对比。"八荣 八耻"是一个新词,但由于基于词典方法的局限性,这个词在IBM Full-parser的词典中不存在,所以IBM Full-parser将其分成四个独立的单字词"八,,"荣""八""耻";然而,由于本方法采用动态、 实时更新的文档集(如互联网),因此能正确识别该新词"八荣八 耻,,。2 )由于通过搜索引擎采用互联网上的大量文档来得到最初的分 词单元,而文档是由人类写就的,因而遵从自然语言的,本方法相 对于过去的方法而言,不再需要对文档进行自然语言分析就可以直 接得到正确的分词结果。图6给出的实例有效地说明了这一点。图 中显示的是本方法对实例句"有职称的和尚未有职称的"的分词结 果及其与IBM Full-parser结果的比较。本例中"和尚未有"是一个 歧义单元,它可能表示"和尚,,"未有",也可能表示"和""尚 未,,"有,,。但是,由于实例句中给出了上下文信息"有职称的", 而和尚是无所谓职称的,所以该上下文信息实际限定了正确的分词 方法应该为后一种"和,,"尚未,,"有,,。由图6可见,本方法很 好的体现了这一点。相反的,由于IBM Full-parser采用基于词典的 最大匹配方法,而"和尚"存在于其词典中,因此它给出了前者错 误的分词方法。当然,本领域的技术人员应当理解,本发明的方法可以编码为存 储在计算机可读存储介质上的程序,计算机执行该程序以实现本发 明的方法。因此,本发明也覆盖根据本发明的方法编码的计算机程 序产品,以及存储该计算机程序的计算机可读存储介质。应当注意,为了使本发明更容易理解,上面的描述省略了对于本 领域的技术人员来说是公知的、并且对于本发明的实现可能是必需 的更具体的一些技术细节。提供本发明的说明书的目的是为了说明和描述,而不是用来穷举 或将本发明限制为所公开的形式。对本领域的普通技术人员而言, 许多修改和变更都是显而易见的。例如,可以对各种无词边界语言进行处理、采用各种查询输入方 式、采用一种或多种搜索引擎、对来自不同搜索引擎的搜索结果进 行静态或动态加权、采用其它的候选分词单元评分方法、采用其它 的候选分词单元子集排名方法等等。因此,选择并描述实施方式是为了更好地解释本发明的原理及其 实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的 前提下,所有修改和变更均落入由权利要求所限定的本发明的保护 范围之内。
权利要求
1. 一种基于搜索的用于无词边界标记语言文本的分词方法,包括a.将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;b.通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;c.根据返回的搜索结果的至少一部分选取该一个片段的分词方式。
2. 根据权利要求l的方法,所述返回的搜索结果的至少一部分 是排名靠前的部分。
3. 根据权利要求l的方法,在步骤c中,从所述返回的搜索结 果的至少一部分中提取该一个片段的所有出现的候选分词单元,对 提取的候选分词单元进行评分,根据该评分,对提取的候选分词单 元的子集排名,所述每个子集中的候选分词单元按顺序形成该一个 片段,选取排名最高子集作为该一个片段的分词方式。
4. 根据权利要求,3的方法,从提取的候选分词单元中滤.除无效 的候选分词单元,该无效的候选分词单元是单字符和未出现在该一 个片段中的分词单元之一。
5. 根据权利要求3的方法,对被评分的候选分词单元的评分方 式是基于频率的方式,在所述搜索结果的一部分中,统计被评分的 候选分词单元出现次数与所有候选分词单元出现的总次数的比值, 作为被评分的候选分词单元的分值。
6. 根据权利要求3的方法,对被评分的候选分词单元的评分方 式是基于支持向量机SVM的方式,利用SVM分类器或SVM回归 模型对每个候选分词单元评分,为训练SVM分类器或SVM回归模型,将作为数据点的候选分词单元表示为一个特征向量。
7. 根据权利要求6的方法,对每个候选分词单元提取的特征包括以下特征之一或其组合候选分词单元中字的数量;平均出现率, 即候选分词单元出现的次数,除以搜索引擎返回的结果中的文档数 量;文挡频率,即对于候选分词单元,多少个搜索结果包含它。
8. 根据权利要求5或6的方法,将其中候选分词单元的平均分 值最高的候选分词单元子集作为该一个片段的选取的分词方式。
9. 根据权利要求3的方法,在返回的搜索结果中提取的候选分 词单元是提取返回的摘录中的高亮短语。
10. 根据权利要求3的方法,当该搜索引擎为自有搜索引擎时, 利用索引表提供的信息,查看术语在文档中的位置的相邻性来得到 分词单元。
11. 一种基于搜索的用于无词边界标记语言文本的分词装置, 包括至少一个搜索引擎,接收包括至少一个片段的该文本的一个片 段,该至少一个搜索引擎对该一个片段在搜索网络中进行搜索,并 返回搜索结果;分词结果生成装置,根据该至少一个搜索引擎返回的搜索结果 的至少 一部分选取该 一个片段的分词方式。
12. 根据权利要求ll的装置,所述至少一个搜索引擎返回的搜 索结果的至少一部分是排名靠前的部分。
13. 根据权利要求ll的装置,该分词结果生成装置从所述返回 的搜索结果的至少一部分中提取该一个片段的所有出现的候选分词 单元,对提取的候选分词单元进行评分,根据该评分,对提取的候 选分词单元的子集排名,所述每个子集中的候选分词单元按顺序形 成该一个片段,选取排名最高子集作为该一个片段的分词方式。
14. 根据权利要求13的装置,该分词结果生成装置从提取的候 选分词单元中滤除无效的候选分词单元,该无效的候选分词单元是单字符和未出现在该一个片段中的分词单元之一。
15. 根据权利要求13的装置,该分词结果生成装置对被评分的 候选分词单元的评分方式是基于频率的方式,在所述搜索结果的一部分中,统计被评分的候选分词单元出现次数与所有候选分词单元 出现的总次数的比值,作为被评分的候选分词单元的分值。
16. 根据权利要求13的装置,该分词结果生成装置对被评分的 候选分词单元的评分方式是基于支持向量机SVM的方式,该分词结 果生成装置利用SVM分类器或SVM回归模型对每个候选分词单元 评分,为训练SVM分类器或SVM回归模型,将作为数据点的候选 分词单元表示为一个特征向量。
17. 根据权利要求16的装置,对每个候选分词单元提取的特征 包括以下特征之一或其组合候选分词单元中字的数量;平均出现 率,即候选分词单元出现的次数,除以搜索引擎返回的结果中的文 档数量;文挡频率,即对于候选分词单元,多少个搜索结果包含它。
18. 根据权利要求15或16的装置,该分词结果生成装置将其 中候选分词单元的平均分值最高的候选分词单元子集作为该一个片 段的选取的分词方式。
19. 根据权利要求13的装置,该分词结果生成装置在返回的搜 索结果中提取候选分词单元是提取返回的摘录中的高亮短语。
20. 根据权利要求13的装置,当该搜索引擎为自有搜索引擎时, .该分词结果生成装置利用索引表提供的信息,查看术语在文档中的位置的相邻性来得到分词单元。
全文摘要
本发明提供了一种基于搜索的用于无词边界标记语言文本的分词方法和装置。根据本发明,将包括至少一个片段的该文本的一个片段提供给至少一个搜索引擎;通过该至少一个搜索引擎对该一个片段进行搜索,并返回搜索结果;根据返回的搜索结果的至少一部分选取该一个片段的分词方式。本发明更好地解决了无词边界标记语言的分词问题,克服了现有技术在灵活性、依赖于字典的覆盖度、可以获得的训练数据语料库、处理新词汇等方面的局限。
文档编号G06F17/30GK101261623SQ200710086030
公开日2008年9月10日 申请日期2007年3月7日 优先权日2007年3月7日
发明者文 刘, 王欣靖, 勇 秦 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1