专利名称:使用权利要求分析排序知识产权文档的方法和系统的制作方法
技术领域:
本发明大体上涉及自然语言处理、信息检索并且更具体地涉及确定文档内的术语的相关性。本发明涉及术语或文档的其他方面的统计加权以确定所述术语或方面与该文档、尤其是与该文档的内容如何相关或对其如何重要。此外,本发明涉及供与法务、企业及其他专业领域相关的服务传递使用的过程、软件和系统。本发明涉及这样的系统,其向诸如与专业服务相关的服务的订户的用户提供搜索功能、处理搜索术语并且跨文档数据库应用搜索语法,以及显示响应于所述搜索功能和处理而生成的搜索结果。
背景技术:
随着印刷机、排版、打字机、计算机实现的字处理和海量数据存储装置的出现,由人类生成的信息的量已经显著地并且以日益加速的步伐上升。结果,对收集和存储、识别、追踪、分类和编目以检索和发布这种不断增长的海量信息有持续且不断增长的需要。对例如书籍和其他文字作品的信息进行编目和分类的一种传统形式是杜威十进制系统。在专利领域中,仅在美国就已经公告了上百万的专利。每个专利被公告为具有一组权利要求,其限定了由美国授权并且由专利权人拥有的产权。除了公告的专利之外,目前可得到的用于搜索和查看的已公开专利申请的数量也在不断增长。每个已公开的专利申请同样地包含对该发明的一个或多个权利要求。美国专利局使用基于主题的分类系统按本领域的技术中心、分类和子分类放置所提交的专利申请以更高效地处理专利权利要求的搜索及授权或者驳回。此外,一组国际专利分类号进一步按主题对专利和申请进行分类。历史上,被指派来审查专利申请的审查员将查阅“鞋(shoes) ”,即与特定子分类相关联并且包含基于由先前的发明人所公开和要求权利的主题而被分在一组的专利集合的盒子。在电子搜索之前,审查员将手动查阅所述鞋以努力找到现有技术,这是非常乏味、耗时并且低效的。电子数据库有效地将专利文档放置在电子“鞋”中以供搜索。在许多领域和行业中,例如包括金融和法律领域以及技术领域,存在内容和增强体验提供商,诸如汤森路透公司(The Thomson Reuters Corporation)。这样的提供商识另O、收集、分析和处理供生成内容使用的关键数据,所述内容诸如为法律相关的报告、文章等等,供专业人员以及例如律师等在相应行业中所涉及的其他人员消费。各个领域和行业中的提供商不断寻找产品和服务来提供给订户、客户及其他顾客,并且寻找使他们的公司在竞争中与众不同的方法。这样的提供努力创建和提供增强工具,包括搜索和排序工具,以使客户能够更高效和有效地处理信息并且做出知情的决定。例如,随着跨例如已公告的专利、已公开的专利申请的数据库等大量数据和文档进行搜索的技术和复杂方法的进步,专业人员及其他用户在做出专业和商业决定时越来越多地依赖于数学模型和算法。例如用于跨专利文档的大型数据库应用搜索术语的现有方法由于他们常常不充分地集中在所关心的关键信息上以产生一组集中的并且良好排序的文档来最接近地匹配所表达的搜索术语和数据,而具有相当大的改进空间。尽管这样的基于计算机的系统具有缺点,但较之于手动搜索、识别、过滤和分组IP文档而言已有明显进步,手动搜索、识别、过滤和分组IP文档过于花费时间、成本高、效率低并且不一致。搜索引擎被用于响应用户定义的查询或搜索术语来检索文档。为此,搜索引擎可对术语出现在一个文档中的频率与那些术语出现在数据库或数据库网络内的其他文档中的频率进行比较。这有助于搜索引擎确定文档内不同术语各自的“重要性”,并且由此确定与给定查询最匹配的文档。用于将出现在一个文档中的术语与文档集合比较的一种方法被称为术语频率-反文档频率(TFIDF)。在这个方法中,术语总数与主题文档内的所有术语相比较的百分率被赋值(作为分子),并且除以术语在其中出现的文档在文集中的百分比的对数(作为分母)。更具体地,TFIDF将权重赋值为用于评估词语对文档集合或文集中的一个文档的覆盖(tile)重要性的统计测量。覆盖词语的相对“重要性”与覆盖次数或这样的词语出现在文档中的“频率”成比例地增加。将重要性与该词语出现在包括文集的文档中的频率相抵消或比较。TFIDF被表达为log(N/n(q)),其中q是查询术语,N是集合中的文档的数量,而N(q)是包含q的文档的数量。TFIDF及这种加权方案的变型通常被诸如谷歌 的搜索引擎在给定用户查询的情况下用作评分和排序文档的相关性的方法。一般地,对于包括在用户查询中的每个术语而言,可基于对与每个术语相关联的分数求和而就相关性对文档排序。可基于相关性及其他确定因素将响应于用户查询的文档排序并且呈现给用户。
发明内容
本发明提供了用于重排序专利文档检索系统中的搜索结果的方法和系统,其中查询文本全部或部分地来源于专利权利要求,所述专利权利要求可来自于现有的专利。该重排序基于候选专利的一个或多个特征,诸如与所述权利要求的文本相似度、国际专利分类号或其他分类关联性或重叠以及候选者的内部引用结构。本发明的一个特征提供了基于自动生成的训练数据来训练的重排序器,由此避免了昂贵且花费时间的专家评注步骤。在实现中,可自动地或半自动地,即以某种程度的人工干预来执行本发明的概念。发明人、专利审查员、代理人和律师需要可靠的专利检索系统来例如调查现有技术、研究专利权利要求的有效性或者为诉讼做准备。专利检索更为特殊和专业化并且例如在下列方面不同于一般的网络搜索1)查询文本-专利检索中的查询经常是权利要求,其具有某种固定结构并且可能非常长,而典型的基于网络的搜索查询是非常短的,包括很少的术语;2)专利文档-专利通常具有标准结构,其包括诸如名称、作者、申请日、IPC(国际专利分类号(IPC))、引用、摘要、技术概要和权利要求等字段,而网络文档可能具有各种格式和内容;以及3)搜索目的-专利检索的主要目的是找到与被搜索专利相关的现有专利,例如可使指定的专利或专利申请的权利要求无效的现有专利,而网络搜索的目标为找到相关的文档或回答用户问题。考虑到这些区别,与典型的基于网络的搜索引擎和系统相关联的信息检索算法不是很好地适用于为专利检索工作。现有方法以不同方式修改基线信息检索算法。一些方法修改术语加权策略,例如使用TF(术语频率)来代替TF-IDF(术语频率-反文档频率)(H. Mase和M. Iwayama.2007.日立的Ntcir-6专利检索实验· NTCIR-6研讨会纪要,第403-406页);一些方法研究统计语言模型中的平滑效果(J. Kim、Y. H. Lee, S. H. Na和J. H. Lee. 2007. ntcir-6英文专利检索子任务中的浦项科技大学.NTCIR-6研讨会纪要,第393-395页);一些方法使用查询扩展策略(Y. H. Tseng、C. Y. Tsai和D. W. Huang. 2007.使用不同专利代理对美国专利商标局专利文档的无效搜索.NTCIR-6研讨会纪要,第390-392页;H. Tanioka和K. Yamamoto. 2007.使用查询扩展和强调的通路检索系统.ΛΤΓΤΤΡΥ研讨会纪要,第428-432页;H. Nanba. 2007.使用自动构造的词库的查询扩展.NTCIR-6研讨会纪要,第414-419页;Mase和Iwayama,2007);并且一些方法运用诸如专利的引用和IPC的特定字段(Atsushi Fujii. 2007.通过引用分析增强专利检索.第30届ACM信息检索研究和发展(SIGIR)国际年会纪要,第793-794页;Μ. Aono. 2007.为专利检索运用基于类别的lsi. NTCIR-6研讨会纪要,第373-376页)。可被采用的另外的方法可使用潜在语义索引(LSI)或其他潜在语义分析。这些方法或者需要进行大量计算或者显示较之于基线的有限改进。本发明提供了用于确定、检索和呈现与基于专利权利 求的查询最相关的一组专利的方法。本发明既能被用于对现有技术的调查也能被用于对现有或预期的权利要求的有效性的确定。在一个实施例中,本发明使用基于基线文本的检索系统来得到初始的候选专利池,进而基于例如来源于所述候选专利的权利要求文本、名称、摘要、前序、IPC中的一个或多个以及它们的内部引用结构的若干特征来重排序所述初始的候选专利池。本发明的另一特征是用于训练重排序分类器的训练数据的自动生成。在过去,已针对专利检索提出了不同的检索方法。Kim等人(Kim等人,2007)使用带有Jelinek-Mercer平滑的基线语言模型来进行专利检索。基于他们的结果,平滑是否有助于检索性能是不确定的。Fujii (Fujii,2007)结合两个搜索,一个搜索基于使用OkapiBM25 (S. Robertson>S. ffalker>S. Jones、M.M. Hancock-Beaulieu和M. Gatford. 1994.Okapi at trec-3.第三届文本检索大会纪要,第109-126页)的文本检索,而另一个搜索基于引用,其中基于来自于文本检索的前N个文档的引用来计算引用得分。这两个得分的乘积被用于最终排序。两阶段专利检索方法由Mase 等人提出(H. Mase、T. Matsubayashi、Y. Ogawa>Μ.Iwayama和T. Oshio. 2005.考虑权利要求结构的两阶段专利检索方法的提议.ACM亚洲语言信息处理学报(TALIP),4 (2) : 190-206)。在阶段一,使用标准信息检索方法,其中将专利的整个文本用作检索对象。在阶段二,仅将权利要求文本用于重排序来自于第一阶段的前N个专利,其中相关性得分基于使用不同加权策略的一组选择性的权利要求术语。最终的相关性得分是来自这两个阶段的得分的线性组合。在另一篇论文中(Mase和Iwayama,2007),Mase等人比较若干检索方法,其中所述方法使用不同的术语加权策略、查询扩展策略和文档过滤策略。这些方法显示了较之于基线方法的改进,但由于对整个专利文本和术语选择的使用而导致需要进行大量计算。查询扩展是改进专利检索的另一种尝试。Tseng等人(Tseng等人,2007)使用选自初始检索中的前6个文档的一些关键术语来扩展权利要求查询。Nanba(Nanba,2007)使用下义词、缩写词、同义词和有关术语来扩展查询。A0n0(A0n0,2007)针对专利检索提出了基于类别的潜在语义索引(LSI)方法。具体而言,他们的算法首先基于IPC(国际专利分类)将整个专利集合分类成各类别,随后对每个类别反复地应用LSI。并且在给定查询权利要求的情况下,与其最相似的类别中的前50个专利作为无效候选被返回。与现有方法相比,除其他优点以外,本发明提供了下列优点1)通过机器学习来自动学习排序模型,已知系统试探性地结合来自于多个源的不同排序结果;2)自动生成训练数据,即使没有消除昂贵且花费时间的人工相关性判断步骤,也极大地减少了这样的步骤;以及3)有效并且可高效计算的特征组。在一种实现中,本发明提供了以毫秒级的速度显著地改进基线搜索的算法。在一个备选实施例中,本发明提供了一种用于处理与专利权利要求术语相关的用户查询以生成响应于所述查询的一组专利文档的基于计算机的系统,所述系统包括搜索引擎,其由计算机执行并且适于接收查询以及基于所述查询搜索包含在至少一个数据库中的专利文档的权利要求,并且适于产生第一组候选专利文档;以及重排序模块,其包括可由所述计算机执行的代码并且适于至少部分地基于与所述专利相关联的一组特征来重排序所述第一组候选专利文档以及生成第二组经排序的专利文档,所述重排序模块适于基于先前执行的学习过程对所述一组特征进行加权。在一个备选方案中,所述重排序可至少部分地基于包括与要求权利的发明的主题相关的至少一个分类特征的一组特征。另外,重排序模块还可适于为所述第一组候选专利文档中的每个专利生成与所述一组特征相关联的一组特征得分,所述重排序模块适于至少部分地基于所述一组特征得分重排序来生成所述第二组经排序的专利文档。此外,所述重排序模型还可适于为所述第一组候选专利文档中的每个专利生成至少部分地来源于一组特征得分的总得分,所述重排序模块适于至少部分地基于与所述第一组候选专利文档中的每个专利相关联的总得分重排序来生成所 述第二组经排序的专利文档。所述一组特征可包括来自包括下列各项的集合的一个或多个专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-C(rank-C),其表示所述第一组候选专利中的专利的任何权利要求的最低排位;sim(c,
c),其表示所述查询与所述第一组候选专利中的专利的权利要求之间的最高相似度得分;sim(c, cs),其表示所述查询与所述第一组候选专利中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示所述查询与所述第一组候选专利中的专利的名称之间的相似度得分;sim(c,摘要),其表示所述查询与所述第一组候选专利中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示所述查询的关键概念与所述第一组专利中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表不所述查询的关键概念与所述第一组专利中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示所述查询的关键概念与所述第一组专利中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组专利中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利的IPC分类号之间重叠的IPC分类号的数量;以及直接引用(direct-Cite),其表示所述一组初始高排位专利文档中引用所述第一组专利文档中的专利或被所述第一组专利文档中的专利引用的专利的数量。此外,所述一组特征得分可被归一化并且可包括IPC-重叠,所述IPC-重叠表示所述第一组专利文档中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述重排序模块还适于计算IPC-重叠,其包括适于定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级的代码,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。给定专利文档的IPC-重叠可以是该专利的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分,并且在专利具有低IPC-重叠得分的情况下,其可以被分配相对低的相关性得分。可基于先前执行的学习过程来配置所述重排序模块,其包括自动生成的训练数据,所述自动生成的训练数据被处理以建立将被分配给所述一组特征中的各个特征的相关性权重。所述学习模块可收集训练数据并且至少部分地基于所收集的训练数据为所述一组特征分配相关性权重。所述搜索引擎可包括适于产生所述第一组候选专利文档的基于基线文本的检索系统。所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述搜索引擎处理以对包括在所述第一组候选专利文档中的专利进行划界(delimit)或加权。所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述重排序模块处理以对所述一组特征进行划界或加权。在第二实施例中,本发明提供了用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括接收包括表示专利权利要求搜索的术语的查询;使用搜索引擎从数据库中检索第一组专利文档,所述第一组专利文档中的每一个包括响应于所述查询的一个或多个权利要求;基于一组专利特征重排序所述第一组专利文档以生成一组经重排序的专利文档;以及为显示而从所述一组经重排序的专利文档生成响应于所述查询的权利要求的有序列表。在还有第三实施例中,本发明提供了一种用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括接收包括表示专利权利要求搜索的术语的查询;使用 搜索引擎从数据库中检索一组专利权利要求,所述一组专利权利要求中的每一个响应于所述查询;排序具有来自所述一组专利权利要求的一个或多个权利要求的一组专利文档;使用一组专利特征重排序所述一组专利文档以生成一组经重排序的专利文档;以及为显示从所述一组经重排序的专利文档生成响应于所述查询的专利权利要求的有序列表。在还有另一实施例中,本发明提供了在其上存储有将由机器执行以进行操作的指令的机器可读介质,所述指令包括用于下列操作的指令呈现包括用于接收查询输入的输入框的图形用户界面屏幕;接收与专利权利要求术语相关的查询;针对与在包括专利文档的数据库中所表示的专利文档相关联的权利要求处理所述查询以生成响应于所述查询的一组候选专利文档;至少部分地基于一组专利特征重排序所述一组候选专利文档并且生成第二组经排序的专利文档;以及为查看而显示与所述一组经排序的专利文档相关联的图形用户界面屏幕。
为了便于全面理解本发明,现在对附图进行参考,在附图中用相同的标号引用相同的元素。这些图不应被解释为限制本发明,而是旨在作为示例并且用于参考。图I是示出用于实现本发明的示例性的基于计算机的系统的示意 图2是示出实现本发明的示例性方法的搜索流程图的第一部分;
图3是示出实现本发明的示例性方法的搜索流程图的第二部分;以及 图4是示出本发明的实现的流程 图5是用于实现本发明的基于处理器的系统的硬件配置的示意 图6是示出具有用于输入在处理本发明时所用的查询数据的一组域的示例性用户界面屏幕的屏幕截 图7是示出结合本发明的用于输入搜索数据并且启动搜索的示例性用户界面屏幕的屏幕的第一部分;
图8是示出结合本发明的用于输入搜索数据并且启动搜索的示例性用户界面屏幕的屏幕的第二部分;以及
图9是示出通过处理本发明所得到的搜索结果屏幕的屏幕截图。
具体实施例方式现在将参照如附图所示的示例性实施例来更详细地描述本发明。虽然此处参照示例性实施例来描述本发明,但应理解的是,本发明不限于这样的示例性实施例。具有本领域的普通技术并且可以理解此处的示教的那些人员将认识到另外的实现、变型和实施例以及本发明所适用的其他应用,这在此处被充分预计为包含在此处所公开和要求权利的本发明的范围之内,并且就此而言,本发明可具有显著的实用性。本发明提供了用于专利文档搜索和检索的系统。在一个示例性实施例中,在给定权利要求文本cq作为查询的情况下,本发明返回包含相似权利要求的专利文档并且基于相关性得分对它们进行排序。所述系统适用于其中cq来自现有的专利文档,例如专利或专利申请,或者并不是现有已公告或待定的权利要求的应用。在一个示例性实施例中,本发明包括三个步骤1)基于《7的权利要求文本从权利要求的全域中检索一组权利要求;2)重排序其权利要求在步骤I中被返回的专利;3)返回来自经重排序的专利的最佳匹配的权利要求的有序列表。下面将在示例性实施例的上下文中更详细地描述这个过程。“专利文档”如该术语在说明书中被使用的那样意指美国和非美国的专利以及已公开或披露的专利申请,并且还意指全部或部分地来源于这样的文档的文档。例如,美国专利包括下列字段、特征或术语,其可以是独立定义的可搜索字段摘要;申请日;申请序列号;申请类型;专利权人所在城市;专利权人所在国家;专利权人姓名;专利权人所在州;助理审查员;代理人或代理机构;权利要求;说明/说明书;外国优先权;外国参考文献;政府利益;国际分类或IPC ;发明人所在城市;发明人所在国家;发明人姓名;发明人所在州;公告日;其他参考文献;母案信息;专利号;专利类型;PCT信息;主审查员;再公告数据;名称;相关的美国申请数据;当前的美国分类;以及被引用信息。其他体系可使用包括专利文档的相似的或另外的字段。本发明允许用户构造查询以包括与权利要求相关的文本作为主要的或唯一的搜索术语。用户也可构造这样的查询,即除了权利要求文本查询术语之外,还包括另外的查询术语来特别地限制或增强诸如上文所列的那些的其他术语的重要性。以这种方式,用户可例如基于权利要求文本进行搜索并且将响应的一组专利文档缩窄至与特定的专利权人、发明人、IPC或其他分类、日期范围、公告日等相关的那些专利文档。以这种方式,由用于处理所述查询的搜索引擎产生的一组候选专利文档可以被减少或特别指出以适应用户的特定搜索需要或目标。在备选方式中,系统可以被配置为允许用户输入和配置系统,使得重排序模块对诸如上文所列的那些的特定专利相关字段进行划界或加权,或者在重排序过程中对与专利相关字段相关联的特征进行划界或加权。根据本发明的一种实现,对于第一步骤,即对一组初始权利要求或一组初始候选专利文档的检索,使用无监督的基于学习的检索(ULR)算法,例如基于WIN搜索(Turtle,1994)的算法。由于权利要求文本通常较长并且具有特定于域的性质,像WIN那样被设计用于一般信息检索的搜索引擎作为用于将最相关的权利要求或专利文档识别和返回为排在最前面的候选者的手段不是很有效,由此使重排序成为必须。在这个示例中,仅在查询中使用权利要求文本。然而,如在别处所描述的那样,另外的术语或步骤可被用于获得一组初、始候选权利要求或专利文档。接着,重排序步骤包括对初始组中的每个专利的若干数值特征的计算,这将在下文中更详细地被解释。在一个实施例中,基于支持向量机(SVM)的排序器,例如(T. Joachims. 2002b.使用点击链接型数据优化搜索引擎.ACM知识发现和数据挖掘(KDD)大会纪要,第133-142页)可被用于重排序候选专利文档。另外,可基于自动生成的数据、训练数据来训练排序模型,将在下文中详细解释训练数据的生成。下面的讨论提供了对本发明的示例性实施例的特征提取方面的更详细的描述。在给定查询权利要求的情况下,例如WIN搜索引擎的搜索引擎被用于搜索搜索空间中的专利的所有单独的权利要求。在这个示例中,产生排在最前面的一组结果的专利,例如前100个中的专利被看作为候选池。对于候选池中的每个专利pi,计算一组特征。下面的示例描述用于计算的十个特征。这些特征充分利用了专利的不同字段,诸如名称、摘要、IPC、参考文献和权利要求。这些特征可包括下列示例性字段中的一些或全部专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示第一组候选专利中的专利的任何权利要求的最低排位;sim(c, c),其表示查询与第一组候选专利中的专利的权利要求之间的最高相似度得分;sim(c, cs),其表示查询与第一组候选专利中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示查询与第一组候选专利中 的专利的名称之间的相似度得分;sim(c,摘要),其表示查询与第一组候选专利中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示查询的关键概念与第一组专利中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表不查询的关键概念与第一组专利中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示查询的关键概念与第一组专利中的专利的摘要之间的相似度得分;IPC-重叠,其表示第一组专利中的专利的IPC分类号与第一组专利中的一组初始高排位专利的IPC分类号之间重复的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用第一组专利文档中的专利或被第一组专利文档中的专利引用的专利的数量。例如,排位-C是&5ri,其中ri是的任何权利要求在初始的WIN搜索中的最低排位。由于初始搜索不考虑单独的权利要求,因此可具有出现在排在最前面的一组结果中的若干权利要求。实施例可使用那些权利要求之中的最低排位来为计算特征。就Sim(c, c)而言,这个特征是的权利要求与《7之间的最高相似度得分。这个特征根据由WIN搜索引擎提供的相似度得分将排位特征向上增大。可通过除以这个特征对于特定查询的最高得分而对该特征进行归一化。接着是sim(c, cs),其表示cq与pi的所有权利要求之间的相似度得分。同样地,可通过最高得分对这个特征进行归一化。接着是sim(c,名称),其表示《7与的名称之间的相似度得分,其如上文所述那样被归一化。接着是sim(c,摘要),其表示与pi的摘要之间的相似度得分,其如上文所述那样被归一化。接着是sim(关键概念,关键概念),其表不eg的关键概念与/72的关键概念之间的经归一化的相似度得分。通常,独立权利要求的起始句包含诸如下列各项的词语包含、由…组成、包括、在于(in that)、听到等等。这些词语以及像它们那样的词语被称为标识符。标识符之前的词语通常指出权利要求的主题,其可被称为“关键概念”。专利的关键概念被定义为专利的第一权利要求的关键概念。另一个术语是s im (关键概念,名称),其表不eg的关键概念与的名称之间的经归一化的相似度得分。另一个术语是sim(关键概念,摘要),其表示cq的关键概念与的摘要之间的经归一化的相似度得分。另一个术语是IPC-重叠。IPC-重叠特征基于的IPC与源专利组的IPC之间重叠的IPC的数量,所述源专利组例如可被定义为候选池中的前十个专利。为了计算IPC-重叠,优选的是首先定义两个IPC之间的重叠得分。在一个示例性的实例中,可基于结构将每个IPC分为三个级。例如,像J61X/009=02那样的IPC具有三个级A6IK (级l)、A61K-009(级2)以及洲Lf/009却2 (级3)。两个IPC之间的单级重叠给出例如为0.3的预定义得分。两个IPC的重叠得分是来自于三个级的得分的总和。例如J6LT/009=02与J61X/009=10之间的重叠得分是0. 6,这是因为它们在级I和级2重叠。可将的IPC重叠定义为的IPC与所有源专利的所有IPC之间的平均重叠得分。这个特征基于下述假设即源专利中的大部分所共有的IPC将反映查询权利要求的主题。因而,如果专利具有低IPC-重叠得分,则其不大可能是相关专利。 将要讨论的下一个特征是直接引用,其与IPC-重叠的相似,这是因为直接引用表示引用或被引用的源专利的数量,用源专利的总数对其进行归一化。本发明的这个优选实施例的下一个方面是自动生成训练数据。重排序器算法自动学习诸如上文所描述的那些的特征的重要性,以充分利用这些特征。在优选实施例中,训练数据被使用。可通过结果的人工评注来收集训练数据,但这是耗时且昂贵的过程。代替地,本发明包括自动生成训练数据的方法。第一步是被选择为一组目标专利的第一权利要求的查询的自动生成。通过WIN搜索引擎来运行这些查询以得到一组候选专利并且如上文所描述的那样计算这些候选专利的特征。可将训练“标签”分配给这些特征向量。标签的生成依赖于知道查询权利要求从其中被选择的专利。所分配的国际专利分类号(IPC)和被引用的专利包含关于特定专利的丰富信息。优选实施例定义下列规则来判断候选专利与目标专利/target的相关性。首先,如果的WC与ptarget的IPC匹配,并且引用或被tercet引用,那么与/target相关,并且被分配为A级。第二,如果的IPC与ptarget的IPC匹配,但既没有被/target引用也没有引用那么Ik为P与有些相关,并且被分配为C级。第三,如果的IPC与的IPC不匹配,并且既没有被引用也没有引用那么判断与ptarget不相关,并且被分配为F级。在一种方式中,如果各IPC在第二级相同,则它们可以被定义为匹配。自动分配A级、C级和F级的过程不是无错的,但其显示了相对的相关性。只要具有更高等级的专利更有可能与目标专利相关,那么自动生成的训练数据就将令人满意地训练重排序模型。基于世界知识产权组织,IPC(国际专利分类号)被分为八个部。在下面的实验性示例中,IPC的A部部分中的所有专利被用作整个搜索空间,其包括大约五十万个专利。对于每个专利而言,名称、IPC、摘要和权利要求是已知的。重要的是注意到本发明不需要使用专利的全文。在本实例中,从五十万个专利之中,随机选出10,000个专利来生成训练和测试数据。具体而言,在这个示例中,对于每个专利,第一权利要求被用于生成其候选专利并且使用下文所详细讨论的规则来自动为它们分配A/C/F级。没有产生任何A级的查询专利被放弃。在这个示例性测试中,查询中的79个被分离并且被用于测试,而剩余的查询被用于训练。数据组被平衡以具有大约相同数量的A级、C级和F级,但对C级和F级进行二次采样。总体来说,大约5,000个专利被选择作为目标,产生大约40,000个标记的特征向量。具有多项式(度=2)核的SVM-Iight (T. Joachims. 2002a.使用支持向量机学习分类文本.学位论文.Kluwer)被用在这个示例中以训练排序模型。对79个测试查询权利要求进行重排序。对于这些测试查询,前5个搜索结果被发送给专利专家来分配A级、C级和F级,其中A意指非常相关,C意指有些相关,而F意指不相关。进而将该人工评级与下面自动生成的计算机评级比较。就计算机评级与人工评级的相似度而言,表I显示了对于大约600个候选专利在给定人工评级的情况下的计算机评级的条件概率。表I显示了当专家将专利判断为非常相关(人工评级为A)时,计算机评级很少为F ;并且当专利被判断为不相关(人工评级为F)时,计算机评级很少为A。当专利被判断为有些相关(C)时,计算机评级很可能也为C。这表明计算机评级在区分非常相关、相关和不相关的专利时是可靠的。
权利要求
1.一种用于处理与专利权利要求术语相关的用户查询以生成响应于所述查询的一组专利文档的基于计算机的系统,所述系统包括 搜索引擎,其由计算机执行并且适于接收查询以及基于所述查询搜索包含在至少一个数据库中的专利文档的权利要求,并且适于产生第一组候选专利文档;以及 重排序模块,其包括可由所述计算机执行的代码并且适于至少部分地基于一组专利特征来重排序所述第一组候选专利文档以及生成第二组经排序的专利文档,所述重排序模块适于基于先前执行的学习过程对所述一组特征进行加权。
2.根据权利要求I所述的系统,其中所述重排序模块还适于为所述第一组候选专利文档中的每一个生成与所述一组专利特征相关联的一组特征得分,所述重排序模块适于至少部分地基于所述一组特征得分重排序来生成所述第二组经排序的专利文档。
3.根据权利要求2所述的系统,其中所述重排序模型还适于为所述第一组候选专利文档中的每一个生成至少部分地来源于一组特征得分的总得分,所述重排序模块适于至少部分地基于与所述第一组候选专利文档中的每个专利相关联的总得分重排序来生成所述第二组经排序的专利文档。
4.根据权利要求2所述的系统,其中所述一组特征得分中的一个或多个被归一化。
5.根据权利要求I所述的系统,其中所述一组专利特征包括来自包括下列各项的集合的一个或多个专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-C,其表示所述第一组候选专利中的专利的任何权利要求的最低排位;sim(c, c),其表示所述查询与所述第一组候选专利中的专利的权利要求之间的最高相似度得分;sim(c,cs),其表示所述查询与所述第一组候选专利中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示所述查询与所述第一组候选专利中的专利的名称之间的相似度得分;sim(c,摘要),其表示所述查询与所述第一组候选专利中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示所述查询的关键概念与所述第一组专利中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表示所述查询的关键概念与所述第一组专利中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示所述查询的关键概念与所述第一组专利中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组专利中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利的IPC分类号之间重叠的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用所述第一组专利文档中的专利或被所述第一组专利文档中的专利引用的专利的数量。
6.根据权利要求I所述的系统,其中所述一组专利特征包括IPC-重叠,其表示所述第一组专利文档中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述重排序模块还适于计算IPC-重叠,其包括适于定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级的代码,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。
7.根据权利要求6所述的系统,其中给定专利文档的IPC-重叠是该专利文档的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分。
8.根据权利要求7所述的系统,其中专利文档的IPC-重叠得分与其相关性得分直接相关。
9.根据权利要求I所述的系统,其中基于先前执行的学习过程所配置的所述重排序模块包括自动生成的训练数据,所述自动生成的训练数据被处理以建立将被分配给所述一组专利特征中的各个特征的相关性权重。
10.根据权利要求9所述的系统,其中所述学习模块收集训练数据并且至少部分地基于所收集的训练数据为所述一组专利特征分配相关性权重。
11.根据权利要求I所述的系统,其中所述搜索引擎包括适于产生所述第一组候选专利文档的基于基线文本的检索系统。
12.根据权利要求I所述的系统,其中所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述搜索引擎处理以对包括在所述第一组候选专利文档中的专利进行划界或加权。
13.根据权利要求I所述的系统,其中所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述重排序模块处理以对所述一组专利特征进行划界或加权。
14.一种用于接收和处理搜索查询并且向用户呈现搜索结果的方法,所述方法包括 a)接收包括表示专利权利要求搜索的术语的查询; b)使用搜索引擎从数据库中检索第一组专利信息,所述第一组专利信息中的每一个包括响应于所述查询的一个或多个权利要求; c)基于一组专利特征重排序所述第一组专利信息以生成一组经重排序的专利信息;以及 d)为显示而生成来源于所述一组经重排序的专利信息的响应于所述查询的一组有序信息。
15.根据权利要求14所述的方法,其中所述第一组专利信息包括专利文档。
16.根据权利要求14所述的方法,其中为显示而生成的所述一组有序信息包括响应于所述查询的专利权利要求。
17.根据权利要求14所述的方法,其中为显示而生成的所述一组有序信息包括到专利文档的链接。
18.根据权利要求14所述的方法,其还包括收集训练数据并且至少部分地基于所收集的训练数据为所述一组专利特征分配相关性权重。
19.根据权利要求14所述的方法,其还包括为所述第一组专利信息中的每一个生成与所述一组专利特征相关联的一组特征得分,并且至少部分地基于所述一组特征得分重排序来生成所述一组经重排序的专利信息。
20.根据权利要求19所述的方法,其还包括对所述一组特征得分中的一个或多个进行归一化。
21.根据权利要求14所述的方法,其中所述一组专利特征包括来自包括下列各项的集合的一个或多个专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示所述第一组候选专利中的专利的任何权利要求的最低排位;sim(c, c),其表示所述查询与所述第一组候选专利中的专利的权利要求之间的最高相似度得分;sim(c,cs),其表示所述查询与所述第一组候选专利中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示所述查询与所述第一组候选专利中的专利的名称之间的相似度得分;sim(c,摘要),其表示所述查询与所述第一组候选专利中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示所述查询的关键概念与所述第一组专利中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表示所述查询的关键概念与所述第一组专利中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示所述查询的关键概念与所述第一组专利中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组专利中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利的IPC分类号之间重叠的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用所述第一组专利文档中的专利或被所述第一组专利文档中的专利引用的专利的数量。
22.根据权利要求14所述的方法,其中所述一组专利特征包括IPC-重叠,其表示所述第一组专利文档中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述重排序模块还适于计算IPC-重叠,其包括适于定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级的代码,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。
23.根据权利要求22所述的方法,其中给定专利文档的IPC-重叠是该专利文档的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分。
24.根据权利要求23所述的方法,其中专利文档的IPC-重叠得分与其相关性得分直接相关。
25.根据权利要求14所述的方法,其中所述查询可包括多个独立定义的查询术语。
26.一种在其上存储有将由机器执行以进行操作的指令的机器可读介质,所述指令包括用于下列操作的指令 呈现包括用于接收查询输入的输入框的图形用户界面屏幕; 接收与专利权利要求术语相关的查询; 针对与在包括专利文档的数据库中所表示的专利文档相关联的权利要求来处理所述查询以生成响应于所述查询的一组候选专利文档; 至少部分地基于一组专利特征重排序所述一组候选专利文档并且生成第二组经排序的专利文档;以及 为查看而显示与所述一组经排序的专利文档相关联的图形用户界面屏幕。
27.一种用于处理与专利权利要求术语相关的用户查询以生成响应于所述查询的一组专利文档的基于计算机的系统,所述系统包括 搜索引擎,其由计算机执行并且适于接收查询以及基于所述查询搜索包含在至少一个数据库中的专利文档的权利要求,并且适于产生第一组候选专利文档;以及 重排序模块,其包括可由所述计算机执行的代码并且适于至少部分地基于一组专利特征来重排序所述第一组候选专利文档以及生成第二组经排序的专利文档,所述重排序模块适于基于包括与所述权利要求的主题相关的至少一个分类特征的一组特征对所述一组特征进行加权。
28.根据权利要求27所述的系统,其中所述重排序模块还适于为所述第一组候选专利文档中的每一个生成与所述一组专利特征相关联的一组特征得分,所述重排序模块适于至少部分地基于所述一组特征得分重排序来生成所述第二组经排序的专利文档。
29.根据权利要求28所述的系统,其中所述重排序模型还适于为所述第一组候选专利文档中的每一个生成至少部分来源于一组特征得分的总得分,所述重排序模块适于至少部分地基于与所述第一组候选专利文档中的每个专利相关联的总得分重排序来生成所述第二组经排序的专利文档。
30.根据权利要求28所述的系统,其中所述一组特征得分中的一个或多个被归一化。
31.根据权利要求27所述的系统,其中所述一组专利特征包括来自包括下列各项的集合的一个或多个专利的字段;专利名称;专利摘要;专利IPC分类号;专利参考文献;专利权利要求;排位-c,其表示所述第一组候选专利中的专利的任何权利要求的最低排位;sim(c, c),其表示所述查询与所述第一组候选专利中的专利的权利要求之间的最高相似度得分;sim(c,cs),其表示所述查询与所述第一组候选专利中的专利的所有权利要求之间的相似度得分;sim(c,名称),其表示所述查询与所述第一组候选专利中的专利的名称之间的相似度得分;sim(c,摘要),其表示所述查询与所述第一组候选专利中的专利的摘要之间的相似度得分;sim(关键概念,关键概念),其表示所述查询的关键概念与所述第一组专利中的专利的关键概念之间的相似度得分;sim(关键概念,名称),其表示所述查询的关键概念与所述第一组专利中的专利的名称之间的相似度得分;sim(关键概念,摘要),其表示所述查询的关键概念与所述第一组专利中的专利的摘要之间的相似度得分;IPC-重叠,其表示所述第一组专利中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利的IPC分类号之间重叠的IPC分类号的数量;以及直接引用,其表示所述一组初始高排位专利文档中引用所述第一组专利文档中的专利或被所述第一组专利文档中的专利引用的专利的数量。
32.根据权利要求27所述的系统,其中所述一组专利特征包括IPC-重叠,其表示所述第一组专利文档中的专利的IPC分类号与所述第一组专利中的一组初始高排位专利文档的IPC分类号之间重叠的IPC分类号的数量,所述重排序模块还适于计算IPC-重叠,其包括适于定义两个IPC分类号之间的重叠得分、基于IPC分类号结构将每个IPC分类号分为多个级的代码,并且其中两个IPC分类号之间的第一级重叠产生第一得分并且两个IPC分类号之间的第二级重叠产生第二得分。
33.根据权利要求32所述的系统,其中给定专利文档的IPC-重叠是该专利文档的IPC分类号与所述一组初始高排位专利文档的所有IPC分类号之间的平均重叠得分。
34.根据权利要求33所述的系统,其中专利文档的IPC-重叠得分与其相关性得分直接相关。
35.根据权利要求27所述的系统,其中基于先前执行的学习过程所配置的所述重排序模块包括自动生成的训练数据,所述自动生成的训练数据被处理以建立将被分配给所述一组专利特征中的各个特征的相关性权重。
36.根据权利要求35所述的系统,其中所述学习模块收集训练数据并且至少部分地基于所收集的训练数据为所述一组专利特征分配相关性权重。
37.根据权利要求27所述的系统,其中所述搜索引擎包括适于产生所述第一组候选专利文档的基于基线文本的检索系统。
38.根据权利要求27所述的系统,其中所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述搜索引擎处理以对包括在所述第一组候选专利文档中的专利进行划界或加权。
39.根据权利要求27所述的系统,其中所述查询可包括多个独立定义的查询术语,所述独立定义的查询术语中的一个或多个被所述重排序模块处理以对所述一组专利特征进行划界或加权。
全文摘要
本发明提供了一种用于在专利检索系统中重排序搜索结果的方法和系统,其中查询文本全部或部分地来源于专利权利要求,所述专利权利要求可来自于现有的专利或预期的权利要求。所述重排序基于候选专利的若干特征,诸如与所述权利要求的文本相似度、国际专利分类号或其他分类或主题关联性或重叠以及候选者的内部引用结构。一个备选方面提供了基于自动生成的训练数据来训练的重排序器,由此避免了昂贵且花费时间的专家评注步骤。
文档编号G06F7/00GK102792262SQ201180008432
公开日2012年11月21日 申请日期2011年2月1日 优先权日2010年2月3日
发明者A.瓦奇赫, G.奎克, S.维拉马查内尼, W.廖 申请人:汤姆森路透社全球资源公司