基于领域本体和模板逻辑的多语种问答接口快速构成方法
【专利摘要】基于领域本体和模板逻辑的多语种问答接口快速构成方法,包括:(1)多语种的领域本体结构的构建;(2)基于领域本体的一阶模板逻辑系统的建立;(3)基于领域本体与模板逻辑的多语种问句模板结构的设计;(4)面向领域的问句模板库的建立;(5)用户问句预处理与问句模板匹配;(6)用户问句的语义获取与多语种互译方法。本发明通过领域本体与模板逻辑可更加精确地表达问句模板的语义,结合模板运算符提高了问句模板的表达能力,使其更具代表性,可减少模板库的规模,并且多语种本体类似一个多语种的语义词典,易于实现跨语种信息查询。按照该方法可快速构成各类面向领域的智能信息检索与自动问答系统的多语种人机交互接口。
【专利说明】基于领域本体和模板逻辑的多语种问答接口快速构成方法
【技术领域】
[0001] 本发明属于计算机的人工智能领域,是一种基于知识与逻辑的问句处理方法,具 体是基于领域本体和模板逻辑的多语种问答接口快速构成方法,可以应用于面向领域、多 语种的智能信息检索与自动问答系统中。
【背景技术】
[0002] 随着互联网技术的飞速发展,使网络信息成指数的增长,为了从这些海量信息中 快速、准确的获得需要的信息,传统的搜索引擎已不能满足用户的需求,智能信息检索与自 动问答系统因其能够准确、直接地回答用户问题,正逐渐成为研究的重点和热点,然而由 于用户问句的多样性与随意性,造成准确获取用户问句的语义与预期非常困难,因此目前 自动问答与智能信息检索答案的准确率还不高。另一方面,在全球一体化的背景下,人们不 仅仅依赖于母语检索信息,更希望实现跨语种的信息查询,在不同语种的信息库中获取各 种数据信息,然而跨语种的问句自动翻译目前仍然是自然语言处理领域中的一个难题。
[0003] 问句处理与理解是智能信息检索与自动问答系统中的第一个执行阶段,它的目标 是让计算机理解用户的问句,获取用户的提问意图,为后面的信息检索提供依据。问句的理 解一般包含词法分析、句法分析和语义分析,目前,语义分析是自然语言处理的瓶颈。在面 向领域的信息检索与问答系统中,用户的查询具有很多相似性,例如在基于本体的知识库 中,很多都是对概念或实体的属性进行查询,还有对概念之间的关系以及属性之间的关系, 可以把这些问句抽取成基于领域本体的、具有代表性、封装有语义信息的问句模板,从而有 效地避免复杂的词法分析、句法分析和语义分析。因此,研究基于领域本体和问句模板的问 句理解方法具有十分重要的意义。
[0004] 目前基于领域本体和问句模板的问句理解方法,普遍直接采用所规定的本体元素 符号实现问句模板的公式化,例如,直接规定以C开头的符号表不概念,以R开头的符号表 示关系等,由于没有采用逻辑系统,问句模板的语义不够精确,其表达能力不够强,模板匹 配算法也较复杂,本发明所提出的基于领域本体的一阶模板逻辑系统可有效地克服这些不 足。
【发明内容】
[0005] 针对词法分析、句法分析和语义分析是自然语言处理的瓶颈,以及传统问句模板 方法中的语义不精确、表达能力弱与模板库庞大等弱点,本发明提供一种基于领域本体和 模板逻辑的多语种问答接口快速构成方法。本发明通过多语种的领域本体实现领域知识的 形式化与共享;通过基于领域本体的模板逻辑提高问句模板的语义精度,实现基于逻辑表 达式的跨语种的问句语义表示;通过模板运算符有效地提高问句模板的表达能力,实现简 单、准确的模板匹配算法,从而快速构成多语种的用户问答接口。
[0006] 基于领域本体和模板逻辑的多语种问答接口快速构成方法,包括:
[0007] (1)多语种的领域本体结构的构建;
[0008] (2)基于领域本体的一阶模板逻辑系统的建立;
[0009] (3)基于领域本体与模板逻辑的多语种问句模板结构的设计;
[0010] (4)面向领域的多语种问句模板库的建立;
[0011] (5)用户问句预处理与问句模板匹配;
[0012] (6)用户问句的语义获取与多语种互译方法。
[0013] 知识库是问答系统的重要组成部分,它是实现语义层次上的信息查询的基础。基 于本体的领域知识库,有利于知识的组织、管理、维护与共享,以及实现语义查询与推理。多 语本体是采用多种不同的语言来描述本体知识,它与多语种的语义词典相类似,可作为跨 语言信息查询的一个重要工具。良好的本体知识结构不仅能够将领域知识的结构与关系完 整地体现出来,同时还可为问句处理与问句模板的匹配提供强大的支持,因此构建合理的 本体结构至关重要。
[0014] 本发明在步骤(1)将领域本体形式化为一个七元组:
[0015] 0 = {C,A,R,HC,I,X,SY}
[0016] C表示与某个领域相关的所有概念的集合,该集合界定了用户提问的主题范围;
[0017] ACXDT是概念的数据属性的集合,表示概念的内涵,用于界定问答系统中概念 与个体的特征范围;
[0018] RCXC表示概念之间的二元关系集合,反映某个领域中的概念之间所建立的联 系,用于界定问答系统中概念之间的联系范围,分为基本关系和领域关系,即:
[0019]R= {基本关系,领域关系}
[0020] 基本关系:所有领域所共有的概念之间的关系,
[0021] 领域关系:描述某个领域所特有的概念之间的关系;
[0022] HCCXC是领域概念的分类层次结构,反映了某个领域的概念之间的上、下位关 系,可为问答系统中与概念分类相关的提问提供答案推理支持;
[0023]I代表实例集合,表示某个领域所有概念的具体实体,可为问答系统中与领域对象 相关的提问提供答案查询支持;
[0024]X代表公理集合,是某个领域的逻辑形式的永真断言,可为问答系统中与领域理论 相关的提问提供答案推理支持;
[0025]SY代表同义词集合,本发明要求在领域本体的设计过程中,为是每一个本体元素, 包括本体的概念、实例、属性与关系,给出其所有不同形态与不同时态的同义词,可为问答 系统中的用户问句处理与问句模板的匹配提供支持。
[0026] 为精确、跨语种地表达问句模板的语义,本发明为问句模板的定义设计了一套模 板逻辑系统。步骤(2)所述的逻辑系统是一个以领域本体元素为运算对象,对问句模板进 行语义标注与语义解释的一种特殊的一阶逻辑,本发明将应用于问答接口中的模板逻辑系 统TSL(TempletLogicsSystem)定义成如下的三元组:
[0027]TLS::=(〈谓词集合〉,〈运算符〉,〈标注符>)
[0028] 谓词:用于声明、识别与判定问句模板中的本体元素。分为一元和二元二种类型。 谓词集合在实际应用中,可以根据需要动态扩展。谓词还可在模板结构中作为变量的类型 符使用,例如,〈Cl:Conc印t>,表示变量Cl的类型为一个本体概念,其中谓词Conc印t作为 一个本体概念的类型符使用。
[0029] 运算符:用于提高模板逻辑的表达能力。本发明通过引入运算符,进一步提高模板 逻辑的表达能力,分为单目、双目与三目三种类型的运算符。
[0030] 标注符:用于分隔与界定模板中的各类元素。
[0031] 在模板逻辑系统中,谓词集合是根据具体领域的特点动态扩展的。
[0032]在步骤(3):
[0033] 所述问句模板由问句结构模板、语义模板以及对应的答案模式组成,其BNF定义 为:
[0034]〈问句模板 >::=(〈多语种问句结构>,{〈同义结构>},〈本体特征 >,〈问句语 义〉,〈答案语义>);
[0035]其中:
[0036] 问句结构:代表问句模板的表层形态,定义如下:
[0037]〈问句结构>::=({〈本体元素>},{〈特征元素>},{〈其他元素>});
[0038] 同义结构:与问句模板具有相同语义的问句结构,一个问句模板可以包含多个同 义结构;
[0039] 本体特征:反映问句模板与领域本体之间的映射关系,由问句结构中所包含的本 体元素所构成,为问句模板的分类与搜索提供关键词;
[0040] 问句语义:由一个"? "运算所引导,表示问句所要求解的用户预期;
[0041] 答案语义:通过条件运算符(?:)给出分支结构的答案语义,用于组织返回给用 户的答案;
[0042] 本体元素:指出现在用户问句中的领域本体元素,包括本体的概念、实例、属性与 关系,在问句结构模板中,本体元素用尖括号分隔与标注;
[0043] 特征元素:指在问句结构中,除本体元素之外,其他影响问句语义的句子成份,在 问句结构模板中,特征元素用尖括号"〈>"或方括号" □"分隔与标注;
[0044] 其他元素:指在问句结构中,不影响问句语义的句子成份,直接使用标点或空格进 行分隔。
[0045] 进一步,本体元素通过模板逻辑中的谓词进行符号化,一个问句结构模板至少包 含一个本体兀素。
[0046] 更进一步,问句语义是跨语种的,所有语义都是通过本体变量的逻辑表达式来表 /Jn〇
[0047] 本发明所给出的基于领域本体与模板逻辑的问句模板结构是面向领域的,即在具 体应用中,不同领域的自动问答系统中所采用的问句模板是各不相同的,因此要按照本发 明所给出的问句模板结构与问句模板库的建立流程,根据不同领域问答系统的特点,分别 为其建立相应的问句模板库。
[0048] 本发明步骤(4)所述的基于领域本体与模板逻辑的问句模板库的建立包括:
[0049] 1)收集多语种用户问句,形成本领域的多语种用户问句集合;
[0050] 2)根据用户的提问对象,将问句集合中的用户问句进行分类;
[0051] 3)使用多语种领域本体与模板逻辑对每一类用户问句,按照问句模板结构定义进 行模板化,形成一个与问句集合相对应的初始问句模板库;
[0052] 4)在问答系统中试用初始问句模板库,发现处理错误或不能处理的用户问句;
[0053] 5)逐个分析错误处理用户问句的原因,并根据分析结果修改相应的问句模板结 构;
[0054] 6)逐个分析不能处理用户问句的原因,并根据分析结果修改现有问句模板结构或 在模板库中增加一个新的问句模板;
[0055] 7)重复上述4)、5)、6)三个步骤,直到用户对多语种问句处理的满意度达到90% 以上。
[0056] 本发明的问答接口的功能是通过基于领域本体和模板逻辑的问句模板,获取用户 问句的语义与预期,为系统的信息检索与答案抽取提供依据。本发明的问答接口的工作流 程分为问句预处理与问句模板匹配二个过程。在步骤(4),问句预处理包括:首先进行单字 或单词获取,然后进行词性标注,之后根据相应的规则进行本体元素与特征元素的标注;
[0057] 其中,用户问句本体元素的标注流程、规则与格式如下:
[0058] 1)概念标注:将问句中的名词逐个与领域本体中的概念同义词进行匹配,若有与 其相同的概念,则将该名词标注为概念,标注格式为:〈概念名:Conc印t>,其中,Conc^ptS 模块逻辑系统中的谓词,在此处作为本体概念的类型符使用;
[0059] 2)实例标注:将问句中概念标注后剩余的名词与专用名词短语逐个与领域本体 中的实例同义词进行匹配,若有与其相同的实例,则将该名词标注为实例,标注格式为:〈 实例名:Instance>,其中,Instance为模块逻辑系统中的谓词,在此处作为本体实例的类 型符使用;
[0060] 3)属性标注:将问句中剩余的名词逐个与领域本体中的属性同义词进行匹配,若 有与其相同的属性,则根据该属性的类型将名词标注为相应的属性类别,标注格式为:〈属 性名:属性类别〉,其中,"属性类别"为模块逻辑系统中的谓词,在此处作为本体属性的类型 符使用;
[0061] 4)关系标注:将问句中的动词或带介词的动词短语以及剩余的名词逐个与领域 本体中的关系同义词进行匹配,若有与其相同的关系,则将该动词或名词标注为关系,标注 格式为:〈关系名:Relation〉,其中,Relation为模块逻辑系统中的谓词,在此处作为关系 的类型符使用;
[0062] 5)概念集合标注:将问句中多个由连词或标点连接的多个概念名组合成概念集 合,标注格式为:〈{概念集合} :ConceptSet>,其中,Conc印tSet为模块逻辑系统中的谓词, 在此处作为本体概念集合的类型符使用;
[0063] 用户问句特征元素的标注流程与规则如下:
[0064] 1)将进行本体元素标注之后的问句中动词标注成特征元素,标注格式为:〈动词 名〉;
[0065] 2)将本体概念元素或本体实例元素后面的名词标注成一个特征元素;
[0066] 3)将通过助词"的"或介词"of"与本体概念元素或本体实例元素相连的名词标注 成一个特征元素,同时将连接词"的"或"Of"标注成一个特征元素;
[0067] 4)将疑问词标注成一个特征元素;
[0068] 5)将本体概念元素与本体属性元素之间的助词"的"或介词"of"标注成一个特征 元素;
[0069]6)将本体概念元素前面的介词标注成一个特征元素。
[0070] 特别地,对西文问句不需要分词,可以通过空格分隔符直接获得单词;并且,句中 的单字或单词的获取与词性标注需要在本体同义词库与多语种语言词典的共同支持下进 行。
[0071]本发明在步骤(5),问句模板匹配包括:按用户问句的本体特征搜索模板库、句模 相似度计算、选择相似度最高且大于阈值的模板为匹配目标;
[0072] 所述句模相似度计算是指用户问句与问句模板的相似度计算,包括:
[0073] 1)将问句模板结构,按从左到右的顺序生成一个由本体元素与特征元素构成的语 义元素组,其中,多个连续的同类元素用" I "分隔组成一个语义元素;
[0074] 2)为用户问句生成一个与问句模板相对应的语义元素组,其中,如对应位置无同 类元素的用0表示;
[0075] 3)从问句模板的语义元素组中,按从左到右的顺序依次取出由"〈>"分隔的必 选元素,与用户问句语义元素组对应位置的元素进行比对;其中,对于本体元素,只比较由 谓词表示的本体类型符是否相同,而特征元素则比较对应的单词或短语是否相同;对于由 " I "连接的多个连续的同类元素,采用单个模板元素逐一与多个问句元素进行比较;若有相 同的,将比中后的二个元素分别从其所在的元素组合中删除,再进行下一个元素的比较;
[0076]4)重复3),直到问句模板的语义元素组中所有必选元素全部比对完毕,或用户问 句语义元素组为空;
[0077] 5)分别统计模板语义元素组中与用户问句语义元素组对应位置相同的必选本体 元素与特征元素的个数,并按下式计算句模相似度:
[0078]其中,0(user, temp)表示用户问句与问句模板(句模)的语义元素组中必选本体 元素相同的个数,No表示模板语义元素组中必选本体元素的个数,而F(User,temp)表示 句模语义元素组中必选特征元素相同的个数,Nf表示模板语义元素组中必选特征元素的个 数,a为本体元素相似度在句模相似度中的权重,卩为特征元素相似度在句模相似度中的 权重,〇〈 3〈a〈l 且 3 + a =1。
[0079] 最后,在步骤(6),包括:
[0080] 1)使用用户问句中的本体元素常量替换其匹配模板中的所有本体元素变量;
[0081] 2)返回匹配模板中的问句语义模板作为用户问句的问句语义;
[0082] 3)返回匹配模板中的答案语义模板作为用户问句的答案语义;
[0083] 4)使用用户问句中的本体元素常量的多语种同义词替换其匹配模板中的所有多 语种本体元素变量,同时返回匹配模板中多语种的问句结构作为用户问句的多语种互译结 果。
[0084] 本发明通过领域本体与模板逻辑可以更加精确地表达问句模板的语义,同时结合 模板运算符提高了问句模板的表达能力,使得问句模板更具代表性,从而可减少模板库的 规模。本发明采用多语本体作为知识库,其知识库结构完整,有利于知识的组织、管理、维护 以及实现语义查询与推理,并且多语种本体类似于一个多语种的语义词典,易于实现跨语 种信息查询。按照本发明的方法可快速构成各类面向领域的智能信息检索与自动问答系统 的多语种人机交互接口。
[0085] 本发明的优点总结如下:
[0086] 1、不依赖于句法分析,在很大程度上简化了语义分析处理的流程;
[0087] 2、问句模板的语义表达精确,模板表达能力强,可以通过条件运算符给出分支结 构的答案语义;
[0088] 3、模板匹配算法简单、准确,可以消除句法分析带来的部分歧义,操作方便,反应 时间短;
[0089] 4、问句语义采用基于本体变量的逻辑表达式来表示,可实现多语种问句的互译。
【专利附图】
【附图说明】
[0090] 图1本体概念层次结构示意图。
[0091] 图2多语种问答接口的工作流程图。
【具体实施方式】
[0092] 作为本发明的一种【具体实施方式】,一种基于领域本体和模板逻辑的多语种问答接 口快速构成方法,包括:一个多语种的领域本体的结构;一个基于领域本体的一阶模板逻 辑系统,包括模板谓词与模板运算符;一个基于领域本体与模板逻辑的多语种问句模板结 构;一套面向领域的多语种问句模板库的建立流程;一套多语种用户问句处理与问句模板 匹配的流程、相关规则与相关算法。具体的技术方案如下。
[0093] 1.多语种的领域本体结构
[0094] 知识库是问答系统的重要组成部分,它是实现语义层次上的信息查询的基础。基 于本体的领域知识库,有利于知识的组织、管理、维护与共享,以及实现语义查询与推理。多 语本体是采用多种不同的语言来描述本体知识,它与多语种的语义词典相类似,可作为跨 语言信息查询的一个重要工具。良好的本体知识结构不仅能够将领域知识的结构与关系完 整地体现出来,同时还可为问句处理与问句模板的匹配提供强大的支持,因此构建合理的 本体结构至关重要。
[0095] 本发明将应用于智能信息检索与自动问答系统中的领域本体形式化为一个七元 组:
[0096] 0 = {C,A,R,HC,I,X,SY}
[0097] 下面以中文和英文语种为例,以《计算机基础知识》学科领域本体为例,说明本发 明所设计的应用于智能问答系统中的领域本体的各种元素的定义与作用。
[0098] (I)C表示与某个领域相关的所有概念的集合,该集合界定了用户提问的主题范 围。例如:
[0099]C={软件系统Isoftwaresystem,软件Isoftware,程序Iprogram,文档 |document,数据 |data,指令 |command,应用软件IApplicationsoftware,系统软件!systemsoftware,文件系统Ifilesystem,操作系统!operatingsystem,语言处理程序 Ilanguageprocessing,月艮务性程序IServiceprogram,高级语言Ihigh-levellanguage, 汇编语言!Assemblylanguage,机器语言!Machinelanguage,二进制!binary,十进制 Idecimalize,八进制Ioctal,十六进制Ihexadecimal,硬件系统!hardwaresystem,硬件 Ihardware,运算器IALU,控制器Icontroller,.......}。
[0100] (2)ACXDT是概念的数据属性的集合(DT是一个数据类型集合),表示概念的内 涵,用于界定问答系统中概念与个体的特征范围。例如:
[0101] 操作系统(AC) = {名称 |Name,版本!Version,功能 |Function,厂商 Vendor, ......}文件(AC) = {名称 |Name,类型 |Type,大小 |Size,建立日期 |Created Date, ......}CPU(AC) = {型号IType,主频IFrequency,功能Ifunction, ......}
[0102] 光盘(AC) = {容量ICapacity,厂商IManufacturer,类型IType, ......}
[0103] 显示器(AC) = {特征IFeature,型号IType,分辨率Iresolution, ......}。
[0104] (3)RCxC表示概念之间的二元关系集合,反映某个领域中的概念之间所建立的 联系,用于界定问答系统中概念之间的联系范围,分为基本关系和领域关系,即:
[0105] R= {基本关系,领域关系}
[0106] 1)基本关系:所有领域所共有的概念之间的关系,例如:
[0107]Rb= {父子IhasSubtype,整体-部分IhasPart,成员IhasMember,属于 IhasProperty,功會泛IhasFunction,基于 |base0n,前驱IisPrecursor,后继IisDescender, 对立IoppositeOf,描述IdescribedBy,实例IexampleOf,等价IsameAs,......}
[0108] 例如:整体-部分(计算机,显示器):表示显示器是计算机的一部分。
[0109] 2)领域关系:描述某个领域所特有的概念之间的关系,例如:
[0110] Rs={存储Istore,编码Icode,执行Iexecute,支持Isupport,显示Idispaly, 连接ILink,编译成ICompiled,缩写Iacronym,输入Iinput,输出Ioutput,......}。
[0111] (4)HCCXC是领域概念的分类层次结构,反映了某个领域的概念之间的上、下位 关系,可为问答系统中与概念分类相关的提问提供答案推理支持。部分概念层次结构如图 1所示。
[0112] (5)1代表实例集合,表示某个领域所有概念的具体实体,可为问答系统中与领域 对象相关的提问提供答案查询支持。例如:
[0113]操作系统(IC) = {Linus,WindowsXP,Windows8,Unix,Android}
[0114]CPU(IC) = {酷睿i7,酷睿i5,酷睿i3,APUA10,APUA8,APUA6,APUA4}
[0115] 显卡(IC) = {华硕GTX760系列,华硕GTX980系列,华硕GTX650系列,蓝宝AMD FireProW9100,蓝宝石ATIFireProV4800}。
[0116] (6)X代表公理集合,是某个领域的逻辑形式的永真断言,可为问答系统中与领域 理论相关的提问提供答案推理支持。例如:
[0117] 软件=程序U文档
[0118] 输出设备=外部设备n3输出.数据 [0119]显示器E输出设备n3显示.数据
[0120] 内存3存储?AccessedBy.中央处理器。
[0121] (7)SY代表同义词集合,本发明要求在领域本体的设计过程中,为是每一个本体元 素,包括本体的概念、实例、属性与关系,给出其所有不同形态与不同时态的同义词,可为问 答系统中的用户问句处理与问句模板的匹配提供支持。例如:
[0122] SY= ({计算机,电脑,智能计算机},{内部存储器,内存,主存},{外部存储器, 夕卜存,辅助存fi者器},{hasDefinition,hasDescription,hasExplanation,definition,explan ation,description},......)。
[0123] 2.模板逻辑系统
[0124] 为精确、跨语种地表达问句模板的语义,本发明为问句模板的定义设计了一套 模板逻辑系统。该逻辑系统是一个以领域本体元素为运算对象,对问句模板进行语义 标注与语义解释的一种特殊的一阶逻辑,本发明将应用于问答接口中的模板逻辑系统 TSL(TempletLogicsSystem)定义成如下的三元组:
[0125]TLS::=(〈谓词集合〉,〈运算符〉,〈标注符>)
[0126] (1)谓词:用于声明、识别与判定问句模板中的本体元素,分为一元和二元二种类 型,如表1、表2所示。本发明只给出了所有领域所共同需要的核心谓词集合,该集合在实际 应用中,可根据具体领域的特点动态扩展谓词除可出现在语义逻辑表达中外,还可在模板 结构中作为变量的类型符使用,例如,〈Cl:Conc印t>,表示变量Cl的类型为一个本体概念, 其中谓词Concept作为一个本体概念的类型符使用。
[0127] 表1一兀模板谓词
【权利要求】
1. 基于领域本体和模板逻辑的多语种问答接口快速构成方法,其特征在于:包括: (1) 多语种的领域本体结构的构建; (2) 基于领域本体的一阶模板逻辑系统的建立; (3) 基于领域本体与模板逻辑的多语种问句模板结构的设计; (4) 面向领域的多语种问句模板库的建立; (5) 用户问句预处理与问句模板匹配; (6) 用户问句的语义获取与多语种互译方法。
2. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(1)将领域本体形 式化为一个七元组: O = {C,A, R,HC,I,X,SY} C表示与某个领域相关的所有概念的集合,该集合界定了用户提问的主题范围; Ag C X DT是概念的数据属性的集合,表示概念的内涵,用于界定问答系统中概念 与个体的特征范围; Re C X C表示概念之间的二元关系集合,反映某个领域中的概念之间所建立的联 系,用于界定问答系统中概念之间的联系范围,分为基本关系和领域关系,即: R= {基本关系,领域关系} 基本关系:所有领域所共有的概念之间的关系, 领域关系:描述某个领域所特有的概念之间的关系; HC G C X C是领域概念的分类层次结构,反映了某个领域的概念之间的上、下位关 系,可为问答系统中与概念分类相关的提问提供答案推理支持; I代表实例集合,表示某个领域所有概念的具体实体,可为问答系统中与领域对象相关 的提问提供答案查询支持; X代表公理集合,是某个领域的逻辑形式的永真断言,可为问答系统中与领域理论相关 的提问提供答案推理支持; SY代表同义词集合,本发明要求在领域本体的设计过程中,为是每一个本体元素,包括 本体的概念、实例、属性与关系,给出其所有不同形态与不同时态的同义词,可为问答系统 中的用户问句处理与问句模板的匹配提供支持。
3. 根据权利要求1所述的接口快速构成方法,其特征在于:步骤(2)所述的模板逻辑 系统TLS是一个以领域本体元素为运算对象,对问句模板进行语义标注与语义解释的一种 特殊的一阶逻辑,定义成如下的三元组: TLS::=(〈谓词集合〉,〈运算符〉,〈标注符>) 谓词:用于声明、识别与判定问句模板中的本体元素; 运算符:用于提高模板逻辑的表达能力; 标注符:用于分隔与界定模板中的各类元素; 在模板逻辑系统中,谓词集合是根据具体领域的特点动态扩展的。
4. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(3): 所述多语种问句模板由问句结构模板、语义模板以及对应的答案模式组成,其BNF定 义为: 〈问句模板 :=(〈多语种问句结构>,{〈同义结构>},〈本体特征 >,〈问句语义〉, 〈答案语义>); 其中:问句结构:代表问句模板的表层形态,定义如下: 〈问句结构>::=({〈本体元素〉},{〈特征元素〉},{〈其他元素>}); 同义结构:与问句模板具有相同语义的问句结构,一个问句模板可以包含多个同义结 构; 本体特征:反映问句模板与领域本体之间的映射关系,由问句结构中所包含的本体元 素所构成,为问句模板的分类与搜索提供关键词; 问句语义:由一个"? "运算所引导,表示问句所要求解的用户预期; 答案语义:通过条件运算符(?:)给出分支结构的答案语义,用于组织返回给用户的 答案; 本体元素:指出现在用户问句中的领域本体元素,包括本体的概念、实例、属性与关系, 在问句结构模板中,本体元素用尖括号分隔与标注; 特征元素:指在问句结构中,除本体元素之外,其他影响问句语义的句子成份,在问句 结构模板中,特征元素用尖括号"〈>"或方括号" □"分隔与标注; 其他元素:指在问句结构中,不影响问句语义的句子成份,直接使用标点或空格进行分 隔。
5. 根据权利要求4所述的接口快速构成方法,其特征在于:本体元素通过模板逻辑中 的谓词进行符号化,一个问句结构模板至少包含一个本体元素; 问句语义是跨语种的,所有语义都是通过本体变量的逻辑表达式来表示。
6. 根据权利要求1所述的接口快速构成方法,其特征在于:步骤(4)包括: 1) 收集多语种用户问句,形成本领域的多语种用户问句集合; 2) 根据用户的提问对象,将问句集合中的用户问句进行分类; 3) 使用多语种领域本体与模板逻辑对每一类用户问句,按照多语种问句模板结构定义 进行模板化,形成一个与问句集合相对应的初始问句模板库; 4) 在问答系统中试用初始问句模板库,发现处理错误或不能处理的用户问句; 5) 逐个分析错误处理用户问句的原因,并根据分析结果修改相应的问句模板结构; 6) 逐个分析不能处理用户问句的原因,并根据分析结果修改现有问句模板结构或在模 板库中增加一个新的问句模板; 7) 重复上述4)、5)、6)三个步骤,直到用户对多语种问句处理的满意度达到90%以上。
7. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(5),问句预处理包 括:首先进行语种的识别、单字或单词获取,然后进行词性标注,之后根据相应的规则进行 本体元素与特征元素的标注; 其中,用户问句本体元素的标注流程、规则与格式如下: 1) 概念标注:将问句中的名词逐个与领域本体中的概念同义词进行匹配,若有与其相 同的概念,则将该名词标注为概念,标注格式为:〈概念名:Conc印t>,其中,Conc印t为模块 逻辑系统中的谓词,在此处作为本体概念的类型符使用; 2) 实例标注:将问句中概念标注后剩余的名词与专用名词短语逐个与领域本体中的 实例同义词进行匹配,若有与其相同的实例,则将该名词标注为实例,标注格式为:〈实例 名:InstanCe>,其中,Instance为模块逻辑系统中的谓词,在此处作为本体实例的类型符 使用; 3) 属性标注:将问句中剩余的名词逐个与领域本体中的属性同义词进行匹配,若有 与其相同的属性,则根据该属性的类型将名词标注为相应的属性类别,标注格式为:〈属性 名:属性类别〉,其中,"属性类别"为模块逻辑系统中的谓词,在此处作为本体属性的类型符 使用; 4) 关系标注:将问句中的动词或带介词的动词短语以及剩余的名词逐个与领域本体 中的关系同义词进行匹配,若有与其相同的关系,则将该动词或名词标注为关系,标注格式 为:〈关系名:Relation〉,其中,Relation为模块逻辑系统中的谓词,在此处作为关系的类 型符使用; 5) 概念集合标注:将问句中多个由连词或标点连接的多个概念名组合成概念集合,标 注格式为:〈{概念集合} :ConceptSet>,其中,ConceptSet为模块逻辑系统中的谓词,在此 处作为本体概念集合的类型符使用; 用户问句特征元素的标注流程与规则如下: 1) 将进行本体元素标注之后的问句中动词标注成特征元素,标注格式为:〈动词名〉; 2) 将本体概念元素或本体实例元素后面的名词标注成一个特征元素; 3) 将通过助词"的"或介词"of"与本体概念元素或本体实例元素相连的名词标注成一 个特征元素,同时将连接词"的"或"of"标注成一个特征元素; 4) 将疑问词标注成一个特征元素; 5) 将本体概念元素与本体属性元素之间的助词"的"或介词"of"标注成一个特征元 素; 6) 将本体概念元素前面的介词标注成一个特征元素。
8. 根据权利要求7述的接口快速构成方法,其特征在于:对西文问句不需要分词,可以 通过空格分隔符直接获得单词;并且,句中的单字或单词的获取与词性标注需要在本体同 义词库与多语种语言词典的共同支持下进行。
9. 根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(5),问句模板匹配 包括:按用户问句的本体特征搜索模板库、句模相似度计算、选择相似度最高且大于阈值的 模板为匹配目标; 所述句模相似度计算是指用户问句与问句模板的相似度计算,包括: 1) 将问句模板结构,按从左到右的顺序生成一个由本体元素与特征元素构成的语义元 素组,其中,多个连续的同类元素用" I "分隔组成一个语义元素; 2) 为用户问句生成一个与问句模板相对应的语义元素组,其中,如对应位置无同类元 素的用〇表示; 3) 从问句模板的语义元素组中,按从左到右的顺序依次取出由"〈>"分隔的必选元素, 与用户问句语义元素组对应位置的元素进行比对;其中,对于本体元素,只比较由谓词表示 的本体类型符是否相同,而特征元素则比较对应的单词或短语是否相同;对于由" I "连接 的多个连续的同类元素,采用单个模板元素逐一与多个问句元素进行比较;若有相同的,将 比中后的二个元素分别从其所在的元素组合中删除,再进行下一个元素的比较; 4) 重复3),直到问句模板的语义元素组中所有必选元素全部比对完毕,或用户问句语 义元素组为空; 5) 分别统计模板语义元素组中与用户问句语义元素组对应位置相同的必选本体元素 与特征元素的个数,并按下式计算句模相似度:
其中,O(user,temp)表示用户问句与问句模板(句模)的语义元素组中必选本体元素 相同的个数,No表示模板语义元素组中必选本体元素的个数,而F(User,temp)表示句模语 义元素组中必选特征元素相同的个数,Nf表示模板语义元素组中必选特征元素的个数,a 为本体元素相似度在句模相似度中的权重,3为特征元素相似度在句模相似度中的权重, 0〈3〈a〈l 且旦 + a =1。
10.根据权利要求1所述的接口快速构成方法,其特征在于:在步骤(6),包括: 1) 使用用户问句中的本体元素常量替换其匹配模板中的所有本体元素变量; 2) 返回匹配模板中的问句语义模板作为用户问句的问句语义; 3) 返回匹配模板中的答案语义模板作为用户问句的答案语义; 4) 使用用户问句中的本体元素常量的多语种同义词替换其匹配模板中的所有多语种 本体元素变量,同时返回匹配模板中多语种的问句结构作为用户问句的多语种互译结果。
【文档编号】G06F17/27GK104361127SQ201410735376
【公开日】2015年2月18日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】朱新华, 毛俊青, 陈宏朝, 袁鼎荣 申请人:广西师范大学