一种基于预训练模型的伦理行为抽取方法

文档序号:29798027发布日期:2022-04-23 19:21阅读:118来源:国知局
一种基于预训练模型的伦理行为抽取方法

1.本发明涉及人工智能伦理技术领域,尤其涉及一种基于预训练模型的伦理行为抽取方法。


背景技术:

2.随着科技水平的不断发展,人工智能技术已经广泛应用到无人驾驶、智能家居、医疗护理等诸多领域。在为生活带来巨大便利的同时,如何保证这些自主智能机器能够做出合乎伦理的行为变得愈发重要。伴随着人们对技术的依赖程度越来越深,以及伦理问题不断出现,人工智能伦理也在不断的受到学术界和工业界的重视。
3.为了使技术更好的为人类服务,自主系统需要理解人类用户发出的指令,并具备对指令中行为的识别、理解及判别的能力,才能在现实世界中安全部署部署:识别用户指令中的每一个行为,理解特定环境的伦理道德规范,理解行为背后的社会、文化和伦理含义,判别该行为是否符合伦理道德、是否应该去执行。
4.目前伦理行为判别的方法都使用文本分类等自然语言处理技术来检测场景中包含的伦理场景或行为的整体伦理极性。但是,上述方法有一定的局限性:他们只考虑句子的整体极性或只考虑句子中包含的行为在句子层面是否合乎道德,而识别多种行为及其道德极性更具挑战性。


技术实现要素:

5.本发明的目的在于提供一种基于预训练模型的伦理行为抽取方法,旨在识别并抽取出文本中所有的行为,为伦理理解及判别任务提供更细粒度的特征,解决中文语境下单词边界和组成成分的不确定性。
6.为实现上述目的,本发明提供了一种基于预训练模型的伦理行为抽取方法,包括下列步骤:
7.构建数据集;
8.任务数据预处理,映射到索引;
9.为词向量嵌入常识知识,生成文本的特征向量序列;
10.编码标注出所述文本特征向量序列中的行为;
11.训练获得所需的伦理行为判别模型;
12.实现模型预测模块。
13.其中,构建数据集的过程,包括下列步骤:
14.使用爬虫工具爬取数据源;
15.滤出社会新闻;
16.约束筛选所述社会新闻;
17.对筛选出的数据标注处理;
18.比例划分数据集。
19.其中,任务数据预处理的过程,包括下列步骤:
20.加入特殊标识符;
21.对每个句子按字进行分词;
22.去停用词;
23.转换序列,获得本地词汇表;
24.构建字典,将词映射到索引。
25.其中,在为词向量嵌入常识知识,生成文本的特征向量序列的过程中,利用构建好的数据集,再结合语言模型中特征抽取、特征选择等技术构建伦理行为判别模型,用使用信息实体的增强语言表示对输入文本进行编码,抽取和编码知识信息,将知识模型中的实体表征整合到语义模型的底层中,结合大规模无监督语料库和知识图谱进行预训练,生成文本的特征向量序列。
26.其中,利用具有双向transformer结构的中文预训练语言模型ernie对输入文本进行编码。
27.其中,所述中文预训练语言模型ernie包括文本编码器和知识编码器,所述文本编码器从输入的文本中捕捉词汇和语义信息,所述知识编码器将知识图谱中的知识信息融合到输出的词向量中。
28.其中,编码标注出所述文本特征向量序列中的行为,具体为把文本特征向量序列送入至crf模型进行解码,通过crf模型的计算得到的预测标签序列,最后,使用维特比算法进行解码,标注出所述文本特征向量序列中的行为。
29.本发明提供了一种基于预训练模型的伦理行为抽取方法,首先以涵盖伦理道德和人类行为的社会新闻为数据源,构建社会新闻数据集,并使用众包方法对数据集进行标注,再利用具有双向transformer结构的中文预训练语言模型ernie,经过微调的模型编码了实体知识信息,从大量的社会新闻数据中准确的抽取伦理行为,此外预训练模型在标记数据稀缺时准确提取数据的重要特征,能够提高任务的整体性能,解决了中文语境下单词边界和组成成分的不确定性。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
31.图1是本发明的一种基于预训练模型的伦理行为抽取方法的流程示意图。
32.图2是本发明的数据集构建步骤流程图。
33.图3是本发明的任务数据预处理步骤流程图。
34.图4是本发明的ernie模型中文本编码器架构。
35.图5是本发明的ernie模型中知识编码器架构
36.图6是本发明的行为抽取模型框架示意图。
具体实施方式
37.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
38.请参阅图1,本发明提出了一种基于预训练模型的伦理行为抽取方法,包括下列步骤:
39.s1:构建数据集;
40.s2:任务数据预处理,映射到索引;
41.s3:为词向量嵌入常识知识,生成文本的特征向量序列;
42.s4:编码标注出所述文本特征向量序列中的行为;
43.s5:训练获得所需的伦理行为判别模型;
44.s6:实现模型预测模块。
45.构建数据集的过程,包括下列步骤:
46.s21:使用爬虫工具爬取数据源;
47.s22:滤出社会新闻;
48.s23:约束筛选所述社会新闻;
49.s24:对筛选出的数据标注处理;
50.s25:比例划分数据集。
51.任务数据预处理的过程,包括下列步骤:
52.s31:加入特殊标识符;
53.s32:对每个句子按字进行分词;
54.s33:去停用词;
55.s34:转换序列,获得本地词汇表;
56.s35:构建字典,将词映射到索引。
57.在为词向量嵌入常识知识,生成文本的特征向量序列的过程中,利用构建好的数据集,再结合语言模型中特征抽取、特征选择等技术构建伦理行为判别模型,用使用信息实体的增强语言表示对输入文本进行编码,抽取和编码知识信息,将知识模型中的实体表征整合到语义模型的底层中,结合大规模无监督语料库和知识图谱进行预训练,生成文本的特征向量序列。
58.利用具有双向transformer结构的中文预训练语言模型ernie对输入文本进行编码。
59.所述中文预训练语言模型ernie包括文本编码器和知识编码器,所述文本编码器从输入的文本中捕捉词汇和语义信息,所述知识编码器将知识图谱中的知识信息融合到输出的词向量中。
60.编码标注出所述文本特征向量序列中的行为,具体为把文本特征向量序列送入至crf模型进行解码,通过crf模型的计算得到的预测标签序列。最后,使用维特比算法进行解码,标注出所述文本特征向量序列中的行为。。
61.进一步地,本发明结合具体实施例,并附参照图,做进一步详细阐述:
62.如图2所示,数据集的构建具体步骤如下:
63.步骤1:使用爬虫工具爬取数据源
64.本发明针对中文语境中的伦理场景进行建模,为了构建生活中的多种伦理场景,选择用自然语言描述的社会新闻作为数据源。社会新闻包括日常社会事件和伦理问题,可以全面覆盖人类行为和隐含的伦理规范。此外,社会新闻还具有以下特点:
65.a)社会新闻使用简洁的文字向公众传达重要信息。
66.b)社会新闻具有公开性、真实性、准确性和广泛性的特点。
67.c)新浪微博上的社会新闻很容易获得。使它非常适合本发明的任务。
68.具体来说,选择了新浪微博中的社会新闻(《人民日报》)作为数据源,手动创建一个关于中文语境下伦理行为抽取任务的数据集。抓取的新闻时间跨度为2012年至2021年,收集了《人民日报》时间跨度内的所有新闻。
69.步骤2:使用thuctc工具包过滤出社会新闻
70.使用清华大学发布的thuctc工具包(中文文本分类工具包,能够快速高效地实现用户自定义的文本分类任务)过滤出社会新闻。
71.步骤3:数据处理
72.此外,在数据收集和处理过程中,本发明实施了以下约束:a)删除不包含特定行为的社交新闻。b)删除描述模棱两可的道德困境的例子。c)使用“男子”或“女子”来代替此人的姓名,以保护个人隐私。
73.通过对原始数据集执行上述三个约束,剩余的2764条新闻文本用于构建所需的数据集。
74.步骤4:数据标注
75.为了确保数据集的准确性和可靠性,每个句子都由五名研究生进行注释。使用投票方法确保注释的一致性和准确性,并在遇到道德困境时丢弃样本。
76.注释者被要求标记所有单词或多词行为词。例如,新闻“一男子插队买药救病人”应被标记为{“插队”、”买药”、”救病人”})。如上例所示,行为词在中文语境中大多是多词短语,注释者容易对行为的确切边界产生分歧。在这种情况下,要求注释者进行如下标记:a)将完整的动词短语(包括动宾短语、动补短语和并发短语)标记为单个行为词;b)省略用于修饰动词短语的动名词和补语。
77.步骤5:数据集加工处理
78.最后,将数据集加工处理并转换为行为抽取和极性判别训练所需的数据集,行为抽取数据集按照6:2:2的比例划分,数据集的统计情况如下表所示:
[0079] 训练集验证集测试集总计行为抽取16585535532764
[0080]
任务数据预处理的具体步骤,如图3所示:
[0081]
步骤1:加入特殊标识符
[0082]
首先,为了使用预训练模型ernie,为每个句子加入特殊的字符标识,对每个句子,在句首加入“[cls]”,在句尾加入“[sep]”,其中,“[cls]”是用于区别下游任务的伪标记,“[sep]”是分隔符标记;
[0083]
步骤2:分词,对每个句子按字进行分词;
[0084]
步骤3:去停用词
[0085]
进行类似于自然语言处理中的去停用词操作,将本地词表与ernie词汇表进行对比,将超出ernie词汇表的字符替换为“[unk]”;
[0086]
步骤4:转换为序列,转换为一个字的序列,然后去掉重复的词可以得到本地词汇表c;
[0087]
步骤5:对任务所需的数据文本进行数据预处理,得到本地词汇表c。最后,为了方便模型处理,将字符串转换为数字,先构建一个字典v(vocabulary),然后将每个词映射到一个唯一的索引(index)编号;
[0088]
进一步地,本发明的ernie模型中文本和知识编码器架构如图4、5所示。结合示意图说明具体步骤:
[0089]
基于语言模型ernie与输入文本进行交互,生成文本的词向量表示。ernie抽取和编码知识信息,将知识模型中的实体表征整合到语义模型的底层中,结合大规模无监督语料库和知识图谱进行预训练。
[0090]
本发明中嵌入常识知识由两个模块组成:1)文本编码器(t-encoder),从输入的文本中捕捉词汇和语义信息;2)知识编码器(k-encoder),将知识图谱中的知识信息融合到输出的词向量中。
[0091]
文本编码器是由多头注意力机制和前馈神经网络组成的多层双向transformer编码单元。给定一条新闻文本,令为句子中第i个字符所对应的k维词向量,通过式(2)计算每个字符的词级特征和语义特征:
[0092]
{w1,...,wn}=t-encoder({x1,...,xn})
ꢀꢀꢀ
(1)
[0093]
其中{h1,

,hn}表示具有语义特征的词嵌入输出,n为文本长度。
[0094]
多头注意力机制(multi-headattention)是文本编码器的核心组成单元。注意力机制具有并行提取关键信息的重要特征,在自然语言处理任务中广泛应用。注意力机制计算方法如下:
[0095][0096]
其中,分别用向量q,k,v查询和键-值对。首先,将q和k进行点积运算得到权重,为了防止点乘结果过大,使用向量k的维度dk进行缩放;其次,使用softmax函数对权重进行归一化;最后,将权重与相应的键值v加权求和得到目标的attention。自注意力机制是注意力机制的改进,为了捕获句子的内部相关性,减少了对外部信息的依赖。在自注意力机制中,q=k=v。
[0097]
多头注意力机制利用多个查询对,并行地从输入信息中选取多组信息,可以提取多重语义的含义。多头注意力机制将数据投影到h(注意力机制头数)个子空间中,考虑了多个子空间中的向量相似度。其中每个单头注意力hi的计算公式如式(4)所示:
[0098]hi
=att(qw
iq
,kw
ik
,vw
iv
),
ꢀꢀꢀ
(3)
[0099]
其中w
iq
,w
ik
,w
iv
为q,k,v的权重矩阵。
[0100]
多头注意力机制利用多个查询对,并行地从输入信息中选取多组信息,可以提取多重语义的含义。多头注意力机制将数据投影到h(注意力机制头数)个子空间中,考虑了多个子空间中的向量相似度。其中每个单头注意力hi的计算公式如式(4)所示:
[0101]
mh-att(q,k,v)=concat(h1,h2,...,hh)w0,
ꢀꢀꢀ
(4)
[0102]
其中,w0是附加权重矩阵,用于将拼接后的矩阵维度压缩成固定的文本长度大小。
[0103]
知识编码器可以编码字符和实体,还能融合异构特征,可以是将知识信息注入语义表征,其结构如图5所示。在知识编码器中,将字符嵌入{h1,

,hn}和预训练得到的实体嵌入{e1,

,em}(其中m是实体对齐序列长度)进行异构信息融合并通过式(6)计算得到最终的输出词嵌入{w1,

,wn}。
[0104]
{h1,...,hn}=k-encoder{w1,...,wn},{e1,...,em}
ꢀꢀꢀ
(5)
[0105]
进一步地,本发明的行为抽取模型结构如图6所示,同时具体抽取步骤如下:
[0106]
步骤1:把编码后的双向特征向量序列送入crf层,计算x标记上标签y这一结果的得分
[0107]
把文本特征向量序列x={[cls],x1,x2,...,xn,[sep]}输入至crf模型进行解码,通过crf模型的计算得到的预测标签序列y=(y1,y2,...,yn),y表示的是每一个词的标签,标注结果使用“bio”标签方案的序列标签问题。具体来说,标签ti∈t被分配给对应于行为词的每个标记,其中t={b,i,o}。“b”、“i”和“o”分别代表一个行为的开始、一个行为的内部和其他词语。一个由多个标记组成的行为被标记为一个“b”,后面是“o”或更多的“i”。x标记上标签y这一结果的得分函数为:
[0108][0109]
其中为用于建模相邻预测之间相关性的转移矩阵,表示在给定x的情况下,上一个标签结点yj转移到当前标签结点y
j+1
的情况,取值为0或1;以及表示来自于ernie的发射矩阵h。
[0110]
在实际的模型训练过程中,对crf的训练采用的是最大条件似然估计,对训练集合{(x,y)},所用到的目标函数如式(7)所示,其中,对s(x,y)进行指数化和标准化,就能够得到为x标记上标签y的条件概率p(y|x),计算p(y|x)具体公式如(8)所示:
[0111][0112][0113]
步骤2:使用维特比算法进行解码,标注出所述文本特征向量序列中的行为。
[0114]
通过维特比算法进行解码,目标是找到最佳序列y
*
,作为标注结果,记为y,即最大化条件似然估计,其计算公式如(9)所示:
[0115][0116]
则预测标签序列为y=(y1,y2,...,yn)。
[0117]
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1