处理文档中的搭配错误的制作方法

文档序号:6568084阅读:241来源:国知局
专利名称:处理文档中的搭配错误的制作方法
处理文档中的搭配错误站旦 冃足以下讨论仅提供了一般背景信息,不能用于帮助确定所要求保护的主题的范围。 随着全球经济的日益增长,和因特网的快速发展,全世界的人正在不断熟悉用 非母语的语言进行写作。不幸的是,对一些拥有显著不同的文化和写作风格的社会 而言,能够用某些非母语进行写作常常成为障碍。当用非母语(例如英语)进行写作时, 非母语说话者(例如,讲汉语、日语、韩语或其它非英语语言的人)通常会犯语言使用 错误。这些类型的错误可以包括语法错误和例如动词-宾语、形容词-名词、副词-动 词等搭配的不当使用。许多人具有用恰当的语法以非母语进行写作的能力,但他们仍然可能犯两个单词之间的搭配错误。还有其他人会同时犯语法错误和其它错误例如两个单词间的搭 配错误。尽管拼写检查和语法检查程序可用来纠正语法错误,但尤其鉴于两个单词 之间的搭配错误语法可能是正确,因此难以检测和/或纠正这些错误。因此,语法检 查器一般几乎无法对检查与单词间搭配有关的错误提供帮助。在以下讨论中用英语 作为非母语的例子,但这些问题在其它语界中同样存在。例如,考虑以下包含使得句子即使语法上正确也不是道地的英语的搭配错误的句子。.1.Open the light(开灯).2. Everybody hates the crowded traffic on weekends(人人者卩讨厌周末拥宇齐的交通).3. This is a check of USS500(这是一张500美元的支票).4.1 congratulate you for your success(我对你的成功表示祝贺).这些句子的道地的英语版本应该是1 .Turn on the light(开灯).2. Everybody hates the heavy traffic on weekends(人人都讨厌周末拥挤的交通).3. This is a check for USS500(这是一张500美元的支票).4.1 congratulate you on your seccess(我对你的成功表示祝贺). 考虑汉语用户的情况,作为非英语母语说话者所面临的障碍的例子。在文化、背景和思考习惯方面,中国人常常会造出合乎语法却不自然的英语句子。例如,中 国人往往将中文中的主语直接翻译成英语中的主语,对宾语和动词也同样。当用英 语写作时,中国人常会遇到决定动词和介词、形容词和名词、动词和名词等之间搭 配的困难。而且,在特殊的领域像商业领域,还需要特殊的写作技巧和风格。非母语说话者出于阅读(一种解码过程)的目的主要会使用通用字典,但这些字典 无法提供对写作(一种编码过程)的足够支持。它们仅提供单个单词的解释,并且它们 通常不会提供解释相关短语和搭配的足够信息。而且,即使字典中提供了一些信息, 要从字典中获得这类信息仍然很难。另一方面,目前广泛采用的语法检査工具对检 查易犯的语法错误具有有限的能力,但不能检测搭配错误。概述提供本概述以便以简化的形式介绍一些将在以下详细描述中进一步描述的概 念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮 助确定所要求保护主题的范围。访问一句子,并给予该句子生成至少一查询。可以例如使用web搜索引擎将至 少一查询与文档集合内的文本进行比较。可以基于对至少一查询和文档集合内的文本的比较来检测和/或纠正句子中的搭配错误。附图简述图l是一般计算环境的框图。图2是用于检测和纠正搭配错误的系统的流程图。 图3是用于检测和纠正搭配错误的方法的流程图。图4是查询生成模块的框图。图5是检测搭配错误的方法的流程图。图6是提出候选搭配纠正的方法的流程图。详细描述

图1说明了可在其上实现本发明的合适的计算系统环境100的例子。所述计算 系统环境100仅仅是合适的计算环境的一个例子,而并不打算对本发明的使用范围 或功能提出任何限制。也不应该将所述计算环境100解释为对示范性操作环境100 中所说明的任何元件或元件的组合有依赖或需求。本发明可用于众多其他通用或专用的计算系统环境或配置。可能适用于本发明 的公知计算系统、环境和/或配置的例子包括,但不限于个人计算机、服务器计算 机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消 费者电子产品、网络PC、小型计算机、大型计算机、电话系统、包括上述任何系统 或装置等的分布式计算环境。可以在诸如程序模块等由计算机执行的计算机可执行指令的上下文中描述本发 明。 一般,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对 象、组件、数据结构等。还可以在由通过通信网络链接的远程处理设备执行任务的 分布式计算环境中实现本发明。在分布式计算环境中,程序模块可以位于本地和远 程计算机存储介质包括存储器存储设备中。程序和模块执行的任务在附图的协助下 在以下描述。本领域技术人员可以将描述和附图实现为处理器可执行指令,其可以 被编写在任何形式的计算机可读介质上。参阅图l,用于实现本发明的示例性系统包括一计算机iio形式的通用计算设备。计算机110的组件可包括,但不限于处理单元120、系统存储器130和将各种系统组件包括系统存储器耦合到处理单元120的系统总线121。所述系统总线121可以是多种类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线和 利用任何各种总线结构的局部总线。为了举例而非限制,此类体现结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协 会(VESA)局部总线和周边元件扩展接口(PCI)总线也称为夹层(Mezzanine)总线。计算机110通常包括各种计算机可读介质。计算机可读介质可以是任何可以被 计算机110访问的可用介质,包括易失性和非易失性介质、可移动和不可移动介质。 为了举例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现信息存储的易失性和非易失性、可移动和不可移 动介质,这些信息诸如计算机可读指令、数据结构、程序模块或其它数据。计算机 存储介质包括但不限于RAM、 ROM、 EEPROM、闪存或其它存储技术、CD-ROM、 数字通用盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储器或其它磁性存储设 备,或任何其它可用于存储所需信息且可由计算机110访问的介质。通信介质通常 在诸如载波或其它传输机制的已调制数据信号中体现为计算机可读指令、数据结构、 程序模块或其它数据,且包括任何信息传递介质。术语"已调制数据信号"指以编 码信号中的信息的方式设置或改变其特征集中的一种或多种特征的信号。为了举例 而非限制,通信介质包括有线介质例如有线网络或直接线连接,和无线介质例如声学、RF、红外线和其它无线介质。任何上述组合也应该包括在计算机可读介质的范 围内。所述系统存储器130包括易失性和非易失性存储器形式的计算机存储介质,例 如只读存储器(ROM)13和随机存取存储器(RAM)132。包含例如在启动时有助于在 计算机110内各元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常 存储于ROM 131中。RAM 132通常包含可以被处理单元120立即访问和/或当前正 进行操作的数据和/或程序模块。为了举例而非限制,图1说明了操作系统134、应 用程序135、其它程序模块136和程序数据137。所述计算机110还可以包括其它可移动/不可移动、易失性/非易失性的计算机存 储介质。仅为了举例,图1说明了一向不可移动、非易失性磁性介质读取的硬盘驱 动器141, 一向可移动、非易失性磁盘152读取的磁盘驱动器151,和一向可移动、 非易失性光盘156例如CD ROM或其它光介质读取的光盘驱动器155。可用于示例 性操作环境的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限 于盒式磁带、闪存卡、数字通用盘、数字录像带、固态RAM、固态ROM等。所 述硬盘驱动器141通常通过不可移动存储器接口例如接口 140连到系统总线121,所 述磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口例如接口 150连到 系统总线121。以上所述并在图1示出的驱动器和与它们相关联的计算机存储介质,为计算机 110提供了针对计算机可读指令、数据结构、程序模块和其它数据的存储。图1中, 例如硬盘驱动器141显示为存储操作系统144、应用程序145、其它程序模块146和 程序数据147。应该注意这些组件可以与操作系统134、应用程序135、其它程序模 块136和程序数据137相同或不同。在这里给予操作系统144、应用程序145、其它 程序模块M6和程序数据147不同的标号,以说明至少它们是不同的拷贝。用户可以通过输入设备例如键盘162、话筒163和定点设备161 (例如鼠标、跟 踪球或触垫)来输入命令和信息。其它输入设备(未显示)可以包括操纵杆、游戏手柄、 圆盘式卫星电视天线、扫描仪等。这些和其它输入设备通常通过耦合至系统总线的 用户输入接口 160连到处理单元120,也可以通过其它接口和总线结构例如并行端口、 游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也通过接口 例如视频接口 190连到系统总线121。除了监视器以外,计算机还可以包括其它外围 输出设备例如扬声器197和打印机196,它们可以通过外围输出接口 190连接。所述计算机110可以通过逻辑连接到一台或多台远程计算机,例如远程计算机180上而在网络环境中运行。所述远程计算机180可以是个人计算机、手提计算机、服务器、路由器、网络PC、对等设备或其它通用网络节点,通常包括许多或所有与 计算机110有关的上述元件。图1所述的逻辑连接包括局域网(LAN)ni和广域网 (WAN)173,也可以包括其它网络。这类网络环境在办公室、企业范围的计算机网络、 内联网和因特网中很普遍。当用于LAN网络环境时,所述计算机110通过网络接口或适配器170连到LAN 171。当用于WAN网络环境时,所述计算机IIO通常包括一调制解调器172或其它 通过WAN 173 (例如互联网)建立通信的手段。可内置或外置的调制解调器172可 以通过用户输入接口 160或其它适当机制连到系统总线121。在网络环境中,相对于 计算机110描述的程序模块或其部分可以存储在远程存储设备上。为了举例而非限 制,图1说明了驻留在远程计算机180上的远程应用程序185。应该理解,所示网络 连接是示例性的,还可以采用其它在计算机间建立通信连接的手段。图2是用于检测和纠正文本中搭配错误的系统200的流程图。搭配错误有许多 类型。在系统200的一个方面中,检测4种类型的搭配错误。搭配错误类型包括-1. 动词-名词(VN,例如4earn/acquireknowledge(学习/获取知识)),2. 介词-名词(PN,例如+on/in the morning(早上)),3. 形容词-名词(AN,例如+social/socialistcountry(社会/社会主义国家)),和4. 动词-副词(VA,例如situations change "argely/greatly(情况大大改变))。 预处理模块202处理文本以提供词性标记和文本的语法分析。可以使用众多不同类型的语法分析程序来处理文本。以下是一条例句I have recognized this person for years(我己经认iz口、这个人好多年了).预处理模块202对这个句子进行标记并将句子分成如下各块[NP 1/PRP][VP have/VBP recognized/VBN][NP this/DT person/NN][ (PP for/IN][NPyears. </s>麵S]査询生成模块204利用处理过的文本构造査询。 一个示例中,对以上标识的每 类搭配错误类型生成4组查询。例如,搭配错误类型可以是动词-名词、介词-名词、 形容词-名词和动词-副词。生成的査询可以包括句子全文以及去除助词后的句子减少 后部分。针对上述句子的示例减少后查询可以包括"have recognized this person(已 经认识这个人)"、"have recognized(已经认识)"、"this person(这个人)"和"recognized person(认识人)"。将所述査询提交给搜索模块206。 一实施例中,所述搜索模块可以是基于网络web的搜索引擎,例如MSN搜索(search.msn.com)、谷歌(Google(www.google.eom)) 和/或雅虎(Yah00/ (www.yahoo.com))。由于web包含大量的文本,对检测搭配错误 而言它可能是廉价的资源。错误检测模块208将查询生成模块204生成的查询与搜 索模块206所获得的结果进行比较。错误纠正模块210提供了针对错误检测模块208 所标识的错误的候选纠正。图3是可以在图2所示系统200中实现的方法220的流程图。步骤222中,访 问一条句子。所述句子可能包含已经被输入进文字处理程序中的文本,文字处理程 序例如有华盛顿州雷蒙德市的微软公司提供的Microsoft Word 。步骤224中,将所 述句子语法分析成块,并标识句子中的词性。然后,基于步骤226中的语法分析生 成查询。步骤228中,将所述查询提交到搜索引擎,例如MSN搜索、谷歌和/或雅 虎。在步骤230通过将査询与来自搜索引擎的结果进行比较来检测句子中的搭配错 误。在检测错误后,在步骤232中,向用户提供针对搭配错误的备选的分级候选。图4是图2的查询生成模块204的框图。査询生成模块204接受经过语法分析 的句子240,例如从预处理模块202处接收的经过语法分析的句子。基于经语法分析 的句子240,查询生成模块204生成句子查询242,块查询244和单词查询246。给 定以上标识的可能的搭配错误类型,如下检测一检查卓河(即可能引起搭配错误的单 词)VN型中的动词、PN型中的介词、AN型中的形容词和VA型中的副词。取决 于类型,查询生成模块204生成如下不同的多组査询1. 句子查询242:原始句子和减少后的句子(通过去除为每一类型预先定义的助 词),被称为S-查询。2. 査询242:句子中相应的块对,被称为C-查询,和3. 单词查询246:句子中相应的中心词对,被称为W-查询。如下提供句子"I have recognized this person for years"的VN型检测的示例查询, 其中 指两个邻近单词可以是相互毗连或间隔1个单词。 S-查询["I have recognized this person for years"] S-查询["have recognized this person"〗 C-査询["have recognized" "this person"] W-查询["recognized" "person"] 用于生成每类查询的示例规则如下。 VN: S-査询、 一个C-查询V N的和一个W-查询Vh Nh[Nh表示相应的名词 块的中心词]。 PN:—个PN的C-查询,包含介词; AN: —个AN的C-查询,包含AN对;和 VA:包含VA对的C-查询和包含VA中心词的W-查询。图5是检测句子中的错误的方法250的流程图。在步骤251中,将由查询生成 模块204生成的查询提交给搜索模块206。将由搜索模块206获得的搜索结果与查询 进行比较。 一示例中,所述结果包括利用网络搜索引擎检索到的文档的文本概述。 步骤252中,将来自查询生成模块204的S-查询242与来自搜索模块的结果进行比 较。然后,在步骤254中,作出是否有一个或多个S-査询与搜索模块结果相匹配的 判断。如果一个或多个S-查询与搜索模块结果相匹配,即在步骤256中确定不存在 搭配错误。然而,如果匹配不存在,方法250继续至步骤258,其中将C-查询244与搜索 模块结果进行比较。在步骤260中,确定是否有一个或多个C-查询与搜索模块结果 严格匹配,以及该比较的得分是否高于阈值。 一示例中,通过将C-查询块在搜索结 果中出现的次数除以C-查询中单词在搜索结果中共同出现的次数来计算得分。如果 得分高于阈值,则在步骤256中确定不存在搭配错误。如果得分低于阈值,则方法250继续至步骤262,其中将W-查询与搜索引擎数 据进行比较。步骤264判断W-查询和搜索引擎数据间是否存在严格匹配,和该比较 的得分是否高于阈值。如果得分高于阈值,则在步骤256中确定不存在搭配错误。 比较得分可以与C-查询比较得分类似。因此,可以通过将W-査询在搜索结果中出现 的次数除以W-査询中的单词对共同出现的总次数来计算W-査询比较得分。如果得 分低于阈值,方法250继续至步骤266,其中告知用户可能存在搭配错误。 图6是向用户提出可能的纠正后搭配的方法270的流程图。步骤272中,生成一査 询模板。所述查询模板是基于被标识为错误的单词而生成的(即,上述正在检查的单 词包括由图5中的方法250所确定的搭配错误)。查询模板是从用"+ "替换引起搭 配错误的正在检査的单词后的所输入的句子导出的。上述句子中,"recognized"被标 识为正在检查的单词,因此基于该单词而开发査询模板。例如,针对VN检测的句 子"I have recognized this person for years"的查询模板如下,其中+表示任何单词。S-QT: [ "I have + this person for years"]S-QT: [ "I have + this person "]S-QT: [ "have + this person for years"]S-QT: [ "I have + this person"]C-QT: [ "+ this person for years"〗 C-QT: [ "+ this person"] 生成查询模板的示例规则可以如下。
VN: S-QT、 C-QT (其中动词用+代替)。
PN: S-QT、 C-QT (其中介词用+代替)。
AN: S-QT、 C-QT (其中形容词用+代替);禾口 VA: S-QT、 C-QT (其中副词用+代替)。步骤274中,将查询模板提交到搜索模块,该模块在本文中是搜索引擎。步骤 276中,检索来自搜索引擎结果的串。所述串可以包含带有周围上下文单词的文本概 述。将与查询模板匹配串标识为串候选,其中+的位置可以是任何一个单词。在步 骤278中去除不含有搭配的候选(根据搭配类型,这由替换+的单词和串中的另一个 单词形成)。留下的候选根据基于与串候选匹配的查询模板的相应权重的得分进行分 级。例如,查询模板的权重可以基于查询模板中的单词数。通过对所有含有该候选 的概述的权重进行求和而计算每个候选的得分。检索候选的査询模板(QTs)的得分可 以如下表达得分(候选)二EQTs权重(QT)然后在步骤280中,将候选分级列表呈现给用户。例如,可以使用弹出菜单来 呈现所述分级列表。用户可以从列表中选择一个选项来纠正搭配错误。尽管已经用在结构特征和/或方法动作专用的语言对主题进行了描述,但应该理 解,所附权利要求书所定义的主题并不必限于上述特定特征或动作。相反,上述特 定特征和动作被公开为实施权利要求书的示例形式。
权利要求
1.一种处理文档中信息的方法,包括访问所述文档中文本的句子;基于所述句子生成至少一查询;将所述至少一查询与文档集合内的文本进行比较;和基于所述对至少一查询和文档集合内文本的比较来检测搭配错误。
2. 如权利要求1所述的方法,其特征在于,还包括对所述句子进行语法分析来 标识其中包含的词性,且基于所标识的词性生成所述至少一査询。
3. 如权利要求1所述的方法,其特征在于,还包括对所检测出的搭配错误提出 备选的候选。
4. 如权利要求3所述的方法,其特征在于,还包括对候选进行分级。
5. 如权利要求1所述的方法,其特征在于,所述搭配错误的类型至少包括动词-名词、介词-名词、形容词-名词和动词-副词的至少其中之一。
6. 如权利要求1所述的方法,其特征在于,还包括基于文本的句子生成包括所述句子的句子查询,生成包括所述文本句子的块的块查询和以及生成包括所述文本句子的中心词对的单词查询。
7.一种处理信息的方法,包括访问包含造成搭配错误的单词的句子; 生成至少一个包含句子各部分而不带有所述单词的查询; 将所述至少一个査询提交到搜索模块以获得搜索结果;和 基于搜索结果为所述句子中的所述单词标识至少一候选替换单词。
8. 如权利要求7所述的方法,其特征在于,还包括标识候选替换单词的列表和 对所述列表进行分级。
9. 如权利要求7所述的方法,其特征在于,所述搜索模块是一基于网络的搜索 引擎。
10. 如权利要求9所述的方法,其特征在于,所述基于网络的搜索引擎包括MSN 搜索、谷歌和雅虎的至少其中之一。
11. 如权利要求7所述的方法,其特征在于,所述生成至少一查询包括生成一包 括不带有所述单词的所述句子的句子查询。
12. 如权利要求7所述的方法,其特征在于,所述生成至少一查询包括生成一包 括不带有所述单词的所述句子各块的块查询。
13. 如权利要求7所述的方法,其特征在于,所述生成至少一查询包括生成一包 括不带有所述单词的所述句子中心词对的单词查询。
14. 如权利要求7所述的方法,其特征在于,生成产生至少一査询包括生成一基 于所述句子、所述句子的各块和所述句子的中心词对的查询模板。
15. —种处理文档中信息的方法,包括 访问句子;对句子进行语法分析来标识其中包含的词性; 基于所标识的词性生成多个查询; 将所述多个查询提交到搜索模块来获得搜索结果; 将所述多个查询和搜索结果进行比较;和 基于所述比较和所标识的词性来检测所述句子中的搭配错误。
16. 如权利要求15所述的方法,其特征在于,所述多个查询包括含有句子的句 子查询、含有句子块的块查询和含有句子中心词对的单词査询。
17. 如权利要求15所述的方法,其特征在于,所述对句子进行语法分析包括标 识动词-名词对、介词-名词对、形容词-名词对和动词-副词对的至少其中之一。
全文摘要
访问一句子,并基于该句子生成至少一查询。可以例如使用网络搜索引擎将至少一查询与文档集合内的文本进行比较。可以基于该至少一查询和文档集合内的文本的比较来检测和/或纠正句子中的搭配错误。
文档编号G06F15/00GK101218573SQ200680024878
公开日2008年7月9日 申请日期2006年6月30日 优先权日2005年7月8日
发明者H-W·洪, J·高, M·周 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1