技术合同判定方法、装置、计算机设备和存储介质与流程

文档序号:19681841发布日期:2020-01-14 17:28阅读:145来源:国知局
技术合同判定方法、装置、计算机设备和存储介质与流程

本发明涉及文本处理技术领域,特别是涉及一种技术合同判定方法、装置、计算机设备和存储介质。



背景技术:

技术合同是一类特殊合同,对技术合同的认定都要依赖于审核人员进行,技术人员根据特定要求来进行判定。近年来,随着信息技术与智能技术的发展,可以通过已有的模型对文本进行智能化分析,为提高判定效率和准确率,以及减少认为判定的成本,需要一种通过模型对技术合同进行自动判定,并给出初步判定结果的方案,这类特定要求的技术合同的智能判定具有现实意义。



技术实现要素:

鉴于以上所述现有技术的缺点,本申请的目的在于提供一种技术合同判定方法、装置、计算机设备和存储介质,以解决现有技术中的问题。

为实现上述目的及其他相关目的,本申请提供一种技术合同判定方法,所述方法包括:对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;将所述词向量模型输入预设判定模型进行分析以得到判定结果。

于本申请的一实施例中,所述方法包括:在获取所述技术合同前,若所述技术合同为非结构化,则通过光学字符识别技术处理以获得结构化的所述技术合同。

于本申请的一实施例中,所述对所获取的技术合同进行初步分词及排列以组成有序词集,包括:所述技术合同以单词和特定词组进行初步分词并建立基础词集;将所述基础词集中各基础词按一定要求排序以得到所述有序词集。

于本申请的一实施例中,所述特定词汇包括:名词、名词短语、动名词、及动名词短语中任意一种或多种组合。

于本申请的一实施例中,所述词关联模型依据词条、关联词、关联/关联属性的格式建立。

于本申请的一实施例中,所述判定模型为基于lstm神经网络构成的文本匹配模型。

于本申请的一实施例中,所述判定结果包括:定量判定结果与定性判定结果。其中,所述判定结果内容包括:合同类型、合规性、契合度、不确定度、存在问题类目、具体问题条款、及意见反馈中任意一种或多种组合。

为实现上述目的及其他相关目的,本申请提供一种技术合同判定装置,所述装置包括:预处理模块,用于对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;判定处理模块,用于将所述词向量模型输入预设判定模型进行分析以得到判定结果。

为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。

为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。

综上所述,本申请的一种技术合同判定方法、装置、计算机设备和存储介质,通过对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;将所述词向量模型输入预设判定模型进行分析以得到判定结果。

具有以下有益效果:

能够对技术合同的要求结合紧密;有针对性对技术合同进行分析处理以及技术合同的判定,可以辅助人工判定,从而节省了人工判定技术合同的成本。

附图说明

图1显示为本申请于一实施例中的技术合同判定方法的流程示意图。

图2显示为本申请于一实施例中的技术合同判定装置的模块示意图。

图3显示为本申请于一实施例中的计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。

为了明确说明本申请,省略与说明无关的部件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。

在通篇说明书中,当说某部件与另一部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。

当说某部件在另一部件“之上”时,这可以是直接在另一部件之上,但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时,其之间不伴随其它部件。

虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“a、b或c”或者“a、b和/或c”意味着“以下任一个:a;b;c;a和b;a和c;b和c;a、b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。

表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。

通常企业的技术合同会涉及到相关技术成果,而技术合同的签订更是该技术成果转化的直接体现,因此,有些技术合同在被政府或组织单位认定后还能获取一定资助或免税等福利或政策。

但通常技术合同的认定,因技术合同相较于其它合同专业度更高,内容更多,技术成果转化的合规性等因素,因此,往往需要对技术合同进行判定的人员不仅具备一定法律知识,还需具备相应的技术经验。

本发明的目的是提供一种技术合同判定方法、装置、计算机设备和存储介质,以采用智能化技术认定是否属于技术合同,以及判定技术合同是否满足特定要求。

本申请所涉及的技术合同主要包括:技术开发合同、技术转让合同、技术咨询合同和技术服务合同这4大类。

如图1所示,展示为本申请一实施例中的技术合同判定方法的流程示意图。如图所示,所述方法包括:

步骤s101:对所获取的技术合同进行初步分词及排列以组成有序词集。

于本申请一实施例中,所述方法包括:在获取所述技术合同前,若所述技术合同为非结构化,则通过光学字符识别技术处理以获得结构化的所述技术合同。

于本实施例中,本申请提供了利用技术合同进行词处理方法,这里主要是针对已经结构化的技术合同,对于非结构化技术合同,还需要进行光学字符识别处理来获得结构化的技术合同。

所述光学字符识别技术(opticalcharacterrecognition,ocr),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。一个ocr识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。

于本申请一实施例中,所述步骤s101具体包括:

a、所述技术合同以单词和特定词组进行初步分词并建立基础词集。

于本实施例中,对所述技术合同按单词,如名词或动名词等,以及特定词组的方式进行初步的分词。所述基础词集中的基础词多为单个名词、具体限定名词等,以得到一系列完整的名称。

因技术合同专业词汇较多,相较于领域的文本内容,技术合同中的名词以及动名词较多,而口语用语、动词、形容词、副词、连词及介词等较少,因此,技术合同可以通过单词和特定词组进行初步分词,达到较好的分词效果。

举例来说,如“合同标的”、“合同报价”、“单位名称”、“甲方”、“乙方”、“参数”等技术合同中常见名称。

b、将所述基础词集中各基础词按一定要求排序以得到所述有序词集。

于本实施中,将分词结果按一定要求排列,以形成各基础词之间具有顺序的有序词集。

举例来说,归属于一句话中的各基础词,或一整段话中的各基础词,通过他们的排序能够分析各基础词之间的逻辑关系及关联关系。

步骤s102:针对所述有序词集中的特定词汇进行抽取以建立词关联模型。

本申请所述关系是指技术合同中两个“基础词”在语义(语用)层面上的关联。

于本申请一实施例中,所述特定词汇包括但不限于:名词、名词短语、动名词、及动名词短语中任意一种或多种组合。

例如,可以按出现频率进行抽取,如“甲方”、“乙方”,以获知与“甲方”或“乙方”关联的内容,再或者,可以根据技术合同中比较关键专用词,如“费用”、“期限”、“所有权”等特定词汇进行抽取,以获知关键信息的内容,以此可通过特定词汇前后的基础词与该特定词汇建立关联。

于本申请一实施例中,所述词关联模型依据词条、关联词、关联/关联属性的格式建立。

具体来说,在找到特定词汇后,按一定格式建立词关联模型,如<词条关联词关联>或<词条关联词关联属性>。

具体来说,所述关联可以分为:显示关系、隐式关系、半显示关系等。

所述关联属性可以分为:时序关系(同步关系或异步关系)、因果关系(直接因果关系、间接因果关系或目的关系)、条件关系(直接条件关系或形式条件关系(假设关系))、比较关系(直接对比关系、间接对比关系(转折关系)、让步关系)、扩展关系(细化关系、泛化关系、递进关系)、并列关系(平行关系、选择关系)、承接关系等。

举例来说,“因标的额过大,故分期进行支付”,可得到如<标的额分期因果关系>的形式建立词关联模型。

步骤s103:根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型。

于本申请中,本申请所述方法步骤s101~s103所进行的工作,皆为将技术合同的文本信息转换为判定模型(神经网络模型)的输入所需的格式的工作。其中,所述词向量模型即为判定模型(神经网络模型)所需的输入格式。

具体来说,标注中主要包括以下任务:

1)相邻复句,这是标注的主要任务,技术合同中的所有相邻复句都需要标注某一关系类型,包括跨段相邻的复句。

例如,段1:s1、s2、s3、s4。段2:s5、s6、s7。

需要标注出:s1-s2、s2-s3、s3-s4、s4-s5、s5-s6、s6-s7。

2)不相邻复句,某些(并非所有)不相邻的复句间存在篇章关系,需要标注识别。

3)句群信息,句群是指在语义上有逻辑关系,语法上有密切联系,结构上有衔接连贯的若干句子的组合。可以由同一个段落的若干句组成,也可以由多段的若干句组成。

4)句群涉及关系,由于句群也可以作为元素,参与构成篇章关系,需要标注识别。

5)分句间关系,多个分局间(分句成分间)可以存在篇章关系,需要标注识别。

6)分局内关系,分局内部通常包含多个短语或成分,各个成分间可以存在篇章关系,需要标注人员识别。

于本实施例中,主要通过根据词性先后关系,也即逻辑关系,对所述词关联模型进行多维关系标注,即对各所述词关联模型并非仅进行一次关系标注,最终以形成词向量模型。

步骤s104:将所述词向量模型输入预设判定模型进行分析以得到判定结果。

于本申请一实施例中,所述判定模型为基于lstm神经网络构成的文本匹配模型。

本申请所述的文本匹配模型为基于现有lstm神经网络构建而成,其主要用于文本匹配。

举例来说,专利申请号为cn201910008683.8的文献中提供了一种文本匹配方法,其中所述方法包括:获取根据所述目标文本进行初步匹配得到的多个候选语句;将所述目标文本与每个所述候选语句输入卷积神经网络cnn与gru神经网络构成的文本匹配模型,得到每个所述候选语句与所述目标文本的语义相似度。

该公开专利通过目标文本与每个所述候选语句输入卷积神经网络cnn与gru神经网络构成的文本匹配模型,得到每个所述候选语句与所述目标文本的语义相似度,以实现文本匹配。

再举例来说,专利申请号为cn201910277438.7的文献中提供了一种文本处理方法,其中所述方法包括:将所述目标文本划分为多个目标单位字符,并将每个目标单位字符转换为目标单位字符向量;基于第一循环神经网络模型中的编码层,将多个目标单位字符向量进行双向循环编码,得到正向编码矩阵和反向编码矩阵;将所述正向编码矩阵和所述反向编码矩阵拼接为隐藏状态矩阵;基于所述第一循环神经网络中的条件随机场,对所述隐藏状态矩阵进行序列标注,确定所述每个目标单位字符分别对应的词性标签;根据所述每个目标单位字符分别对应的词性标签,确定所述目标关键词。其中,所述将所述目标关键词映射为图谱标注实体字符串,包括:将所述目标关键词划分为多个关键单位字符,并将每个关键单位字符转换为关键单位字符向量;基于第二循环神经网络模型中的编码层,将多个关键单位字符向量进行编码,得到所述目标关键词的上下文向量;基于所述第二循环神经网络模型中的解码层,将所述上下文向量进行解码,得到所述上下文向量的隐藏状态向量;识别所述隐藏状态向量,得到与所述隐藏状态向量对应的字符序列,并将所述字符序列确定为所述图谱标注实体字符串。

于本申请一实施例中,本申请所述基于现有lstm神经网络的判定模型,预先通过输入大量的技术合同,经过人工标引,输出有人为设定的判定结果训练,通过有步骤s101-s103处理得到的词向量模型输入所述判定模型,并通过与所述技术合同数据的文本匹配,以得到相应的判定结果。

于本申请一实施例中,所述判定结果包括:定量判定结果与定性判定结果。其中,所述判定结果内容包括:合同类型、合规性、契合度、不确定度、存在问题类目、具体问题条款、及意见反馈中任意一种或多种组合。

简单来说,所述输出结果主要用于体现如:技术合同属于哪个类型,是否满足要求,以及存在违规或不规范的合同条款等。

其中,契合度主要针对技术合同分类,根据科学技术研究、开发活动的特点以及当事人的权利义务内容,将技术合同分为技术开发合同、技术转让合同、技术咨询合同和技术服务合同这4大类。

于本申请中,所述步骤s103得到的所述词关联模型。还可根据所述判定模型的要求将各所述特定词汇进行修正。

如图2所示,展示为本申请于一实施例中的技术合同判定装置的模块示意图。如图所示,所述装置200包括:

预处理模块201,用于对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;

判定处理模块202,用于将所述词向量模型输入预设判定模型进行分析以得到判定结果。

需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。

还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,判定处理模块202可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上判定处理模块202的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(applicationspecificintegratedcircuit,简称asic),或,一个或多个微处理器(digitalsignalprocessor,简称dsp),或,一个或者多个现场可编程门阵列(fieldprogrammablegatearray,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessingunit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。

如图3所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备300包括:存储器301、及处理器302;所述存储器301用于存储计算机指令;所述处理器302运行计算机指令实现如图1所述的方法。

在一些实施例中,所述计算机设备300中的所述存储器301的数量均可以是一或多个,所述处理器302的数量均可以是一或多个,所述通信器303的数量均可以是一或多个,而图3中均以一个为例。

于本申请一实施例中,所述计算机设备300中的处理器302会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器301中,并由处理器302来运行存储在存储器301中的应用程序,从而实现如图1所述的方法。

所述存储器301可以包括随机存取存储器(randomaccessmemory,简称ram),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。所述存储器301存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。

所述处理器302可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现场可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在一些具体的应用中,所述计算机设备300的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图3中将各种总线都成为总线系统。

于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。

所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述系统及各单元功能的实施例;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述,本申请提供的一种技术合同判定方法、装置、计算机设备和存储介质,通过对所获取的技术合同进行初步分词及排列以组成有序词集;针对所述有序词集中的特定词汇进行抽取以建立词关联模型;根据词性先后关系对所述词关联模型进行多维关系标注以形成词向量模型;将所述词向量模型输入预设判定模型进行分析以得到判定结果。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1