基于面向机载领域的元素描述模板的关联集合抽取方法

文档序号:29065153发布日期:2022-03-01 18:21阅读:75来源:国知局
基于面向机载领域的元素描述模板的关联集合抽取方法

1.本发明涉及一种基于面向机载领域的需求元素描述模型的抽取方法,应用于客观信息的语义表达领域,属于一种描述机载领域的需求元素的技术。


背景技术:

2.对国际主流机载系统研制单位以及国内最具代表性的机载系统研制单位的适航审定活动中,针对民用机载领域自然语言的需求描述常常通过结合当前正在开展的审定国内外型号的方式对需求和设计数据的评审工作以及对机载系统自然语言需求描述的具体形式进行了分析,从而能够理清民用机载领域自然语言需求描述的普遍特征。
3.通过分析发现,在机载领域内的需求描述方式中所采用的语法结构和句式相比人类日常交流所采用的自然语言相比,机载领域内需求描述的语法结构和语法句式的范围和变化明显较少,但是通过对机载自然语言需求中语法句式的变化和语法结构的组合形式进行分析仍然存在分析自然语言需求时无法通过设备解决一些复杂问题的缺陷,分析自然语言需求时仍需要人为理解,这就增大了劳动成本,不利于机械化。


技术实现要素:

4.为解决上述问题,提供一种基于面向机载领域的元素描述模板的关联集合抽取方法,本发明采用了如下技术方案。
5.本发明提供了一种基于面向机载领域的元素描述模板的关联集合抽取方法,其特征在于,包括:步骤1,基于条件随机场对需求语句进行实体识别并提取出包含操作对象、操作属性、条件对象以及条件属性的实体;步骤2,将实体替代为中性化字符并将需求语句中孤立的be动词替代为is equal to,从而得到替代语句并记录被替代的实体以及该实体的位置;步骤3,将元素描述模板结合实体以及该实体的位置把替代语句拆分成需求主句以及条件从句;步骤4,基于语法分析技术分别对需求主句以及条件从句进行元素识别从而分别识别出需求主句以及条件从句中的多个需求元素以及各个需求元素之间的需求关系;步骤5,通过np短语还原将需求元素还原为实体;步骤6,将实体以及对应的需求关系作为关联集合储存在数据集。
6.发明作用与效果
7.根据本发明的一种基于面向机载领域的元素描述模板的关联集合抽取方法,首先基于条件随机场对需求语句进行实体识别并提取出包含操作对象、操作属性、条件对象以及条件属性的实体,然后将实体替代为中性化字符并将需求语句中孤立的be动词替代为is equal to,从而得到替代语句并记录被替代的实体以及该实体的位置,将元素描述模板结合实体以及该实体的位置把替代语句拆分成需求主句以及条件从句,再基于语法分析技术分别对需求主句以及条件从句进行元素识别从而分别识别出需求主句以及条件从句中的多个需求元素以及各个需求元素之间的需求关系,最后通过np短语还原将需求元素还原为实体并将实体以及对应的需求关系作为关联集合储存在数据集。
receiver within four seconds of the reception of aviation system configuration when fail/safe configuration required is true.
45.定义9.元素关系《【条件关键字】+【条件属性】》【组合】
46.典型范例:after restarted and tested,the test signal switch test failure status shall be considered as"failed".
47.定义10.元素关系【条件关键字】+【条件对象】+【条件判定】
48.典型范例:the change in counter domain shall be considered to be monotonic if the value decreases due to the counter roll-over.
49.定义11.元素关系《【条件关键字】+【条件对象】+【条件判定】+【条件属性】》【组合】
50.典型范例:when ethernet interface configuration required is true and status of package#1response is true,then the package has been successfully sent and ethernet interface configuration required shall be reset to false.
51.定义12.元素关系【条件关键字】+【条件对象】+【条件判定】+【条件属性】+【条件限定】
52.典型范例:if error_detecting_functionality works properly twice passes two tests then error_detecting_status shall indicate available.
53.定义13.元素关系《【条件关键字】+【条件对象】+【条件判定】+【条件属性】+【条件限定】》【组合】
54.典型范例:when a429_in_status has been received within 100ms of transmission of a429_out_status and the data contents of a429_in_status agree with the data contents of a429_out_status,then status of package#1response shall indicate true.
55.定义14.元素关系条件关键字的另类表达at the end of
56.典型范例:at the end of the switch test,the select failure status shall be considered as not failed when the conditions causing the failure are absent.
57.定义15.元素关系中条件关键字的另类表达where
58.典型范例:the memory location where the processor begins execution after a interrupt event shall contain the initialization components.
59.定义16.元素关系中主句多限定for..until..
60.典型范例:if aviation system/processing platform failed is true,the reset process shall be repeated for every 30seconds until the aviation system/processing platform failed does not indicates true.
61.根据上述方法,通过将输入的需求语言通过条件随机场以及be动词替换的方法进行处理得到更加精确的机载领域数据集。
62.接下来,针对本发明所提供的基于面向机载领域的元素描述模板的关联集合抽取方法分别进行了仅根据条件随机场模型提取需求元素的实验1,结合条件随机场与语法分析提取需求元素的实验2以及采用be动词替代以及条件随机场识别辅助语法分析的实验3,通过这些实验来验证本发明能够提升了在无人监督的情况下机载领域的需求语句元素提
取的准确率。
63.在实验1中,仅根据条件随机场对自然语言需求中的全部实体进行命名实体识别的过程作为条件随机场命名实体模型。
64.本实施例所输入的需求语句源于definition需求集,将definition需求集中的需求语句按照元素描述模板进行人工标注并将带有标注的需求集拆分成训练集和测试集,将训练集输入到stanford ner工具中来训练需求条件随机场命名实体模型并将训练完成的条件随机场命名实体模型对测试集中的需求语句进行元素识别,将识别出的需求元素与测试集中人工标注的实体进行对比来分析其准确性;将definition需求集中包含变量和属性的定义信息的元素替代训练集中的标注信息并重新训练条件随机场命名实体模型,将重新训练得到的条件随机场命名实体模型对测试集中的需求进行元素识别,将再次识别的结果与训练集中人工标注的实体元素进行对比并分析其准确性。
65.图2是本发明实施例中基于面向机载领域的元素描述模板的关联集合抽取方法的实验1结果图。
66.如图2所示,图2显示了基于条件随机场进行命名实体识别的精确率、召回率和f1的数值。
67.其中,p表示基于条件随机场进行命名实体识别的精确率,r表示基于条件随机场进行命名实体识别的召回率,tp为准确命中的命名实体的个数,fp为未命中的命名实体的个数,fn为错误命中的命名实体个数。
68.如图2所示,由人工标注的测试集共计45个需求语句,通过结合条件随机场与语法分析提取需求元的方法共准确识别出42个,未能识别3个。此外,还有9个“条件判定”类元素未能被识别;与其他元素类别类似,这些需求语句中所有元素类别中,总计所有元素类别的平均识别准确率为84.12%,平均召回率为56.00%,平均f1值为67.24%。
69.针对实验结果识别错误的元素案例进行的分析中,由于“条件属性”和“操作属性”以及“条件对象”和“操作对象”在语句中上下文条件较为接近,与此同时所采用的训练样本相对较少,因此测试样本中的部分属性和对象区分度相较其他元素略低。在真实工程案例背景下,对名词性质的元素基本能提取大部分的需求元素。个别元素类别的准确性一般,还不能达到自动化需求检查的需要。可见,实验1所采用的仅仅通过条件随机场方法无法准确提取出自然语言需求中的全部元素,条件随机场方法应该和语法分析方法结合使用,因此进行了实验2。
70.在实验2中,结合条件随机场与语法分析提取需求元素的过程作为条件随机场语法分析命名实体模型。
71.图3是本发明实施例中基于面向机载领域的元素描述模板的关联集合抽取方法的实验2中分别对训练集和测试集标注结果图。
72.如图3所示,由相同的专家对需求集合4,5,6进行人工标注,并与实验1中的2b,3b集合一起组成测试集;使用按照条件随机场语法分析命名实体模型在vs.net环境中实现的实验程序对测试集合2b,3b,4,5,6中的需求逐条进行元素提取并将算法识别的元素与原2b,3b,4,5,6集合中人工标注的结果进行对比,在确定单纯语法分析方法元素提取的准确性后继续使用实验1中通过人工标注训练集训练形成的条件随机场ner模型对需求集合2b,3b,4,5,6进行元素识别,将识别出的元素中“对象”和“属性”类的名词性短语进行预处理替
换,按照条件随机场语法分析命名实体模型在vs.net环境中实现的实验程序提取需求集合2b,3b,4,5,6中的元素并对预处理替换的名词短语元素进行还原并得到需求元素识别结果,最后将该需求元素识别的结果与人工标注的结果进行比较,分析准确性。
73.通过采用definition数据的信息替代部分人工标注,并且使用“对象属性”类元素统一标识,在相同测试集合的情况下,应用条件随机场进行命名实体识别的效果如图4所示。
74.图4是本发明实施例中基于面向机载领域的元素描述模板的关联集合抽取方法的实验2中训练条件随机场时的需求元素提取效果。
75.如图4所示,采用definition数据部分替代标注数据来训练的情况相较于实验1中对“对象属性”类实体的训练结果,本实验中的训练结果有小幅度下降但也能识别大多数的实体。因此,使用definition需求集中的数据进行训练作为一种无需人工监督的方法依然可行。这使得后期将该方法运用到更广的范围内提供了可能。同时,由于通常的需求definition需求集所包含的信息不足以区分“对象”和“属性”,也难以分辨上下文环境,使得提取结果对后期元素模型的构建带来不便,因此在实验2的基础上添加了be动词替换的步骤并进行了实验3。
76.在实验3中,在条件随机场语法分析命名实体模型的基础上采用be动词替代预处理方法的过程作为be动词替代条件随机场语言分析的命名实体模型。
77.在实验3的基础上对测试需求集合中的名词性短语进行预处理替换;采用be动词替换预处理方法对测试需求集合中的be动词进行替换;条件随机场语言分析算法程序对集合2b,3b,4,5,6的各个需求条目进行语法分析和元素提取,并对名词性短语替换和be动词短语预处理进行还原;将上述需求元素识别的结果与人工标注的结果进行比较,分析准确性。
78.图5是本发明实施例中基于面向机载领域的元素描述模板的关联集合抽取方法的实验3中不应用条件随机场ner仅使用语法分析的情况下需求元素的提取结果图。
79.图6是本发明实施例中基于面向机载领域的元素描述模板的关联集合抽取方法的实验3使用条件随机场ner的情况下语法分析需求元素提取结果图。
80.如图5以及图6所示,在使用条件随机场ner进行名词短语替换前后使用语法分析的情况下“操作属性”准确率由79.88%提高到了84.51%,其他类别也均有过明显提高,整体准确性从90.80%提高到了94.37%,召回率从85.21%提高到了89.05%。此外,针对“条件关联”、“条件判定”以及“操作”这些非名词性元素,其准确性也普遍提高了2~7个百分点。
81.根据图5以及图6的实验结果不难得到采用条件随机场识别方法辅助语法分析不但提高了“对象”和“属性”类元素的提取准确度,而且由于采用了名词短语替换方法避免了多种词性的“对象”和“属性”对语法分析的干扰,简化了需求描述的语法关系,对其他元素提取也起到了很好提高作用。
82.通过上述实验可知,基于面向机载领域的元素描述模板的关联集合抽取方法能在实际工程项目中提取需求元素的同时,结合条件随机场ner方法的元素识别和预处理以及be动词替换等方法排除了单纯依靠语法分析方法难以克服的部分不足,进一步提高了需求元素提取的有效性。本实施例所提供的方法通过对需求语句进行元素提取,避免了对整个
自然语言需求条目的语义进行更深的语法和语义分析从而实现对自然语言需求的部分结构化,并且为在元素级别建立需求追溯以及进一步基于元素关系的需求符合性检测提供了基础。
83.实施例作用与效果
84.根据本实施例提供的一种基于面向机载领域的元素描述模板的关联集合抽取方法,首先基于条件随机场对需求语句进行实体识别并提取出包含操作对象、操作属性、条件对象以及条件属性的实体,然后将实体替代为中性化字符并将需求语句中孤立的be动词替代为is equal to,从而得到替代语句并记录被替代的实体以及该实体的位置,将元素描述模板结合实体以及该实体的位置把替代语句拆分成需求主句以及条件从句,再基于语法分析技术分别对需求主句以及条件从句进行元素识别从而分别识别出需求主句以及条件从句中的多个需求元素以及各个需求元素之间的需求关系,最后通过np短语还原将需求元素还原为实体并将实体以及对应的需求关系作为关联集合储存在数据集。
85.因此本发明提供的一种基于面向机载领域的元素描述模板的关联集合抽取方法考虑到需求语句中关于民用机载领域的专业术语短语中的特殊词性单词对语法的影响,通过对识别出的“对象”和“属性”类元素进行“中性化”替换的方法、条件从句剪枝以及be动词替代的方法使得在对于需求语句分析的时候避免影响模型进行分析。在使用无意义的字符串来替代民用机载领域专业术语中整个元素的“中性化”替代的基础上,利用nlp的语法分析技术来实现针对民用机载领域出现的专业词汇以及专业词汇中各个元素关系的分析能够更好地实现自然语言需求元素的提取。本发明提供的一种基于面向机载领域的需求元素描述模型的抽取方法对于机载领域的需求语句元素分析具有显著的效果,提升了在无人监督的情况下元素提取的准确率,对于实现机载领域的元素提取自动化具有较好的效果,通过本发明提取得到的数据集对于以后机载领域的元素提取提供了可以为之使用的对口机载专业领域的数据集。
86.上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1