产生实体关系抽取模型的装置及方法与流程

文档序号:33318945发布日期:2023-03-03 18:47阅读:37来源:国知局
产生实体关系抽取模型的装置及方法与流程

1.本发明涉及一种产生实体关系抽取模型的装置及方法。具体而言,本发明尤其涉及一种执行预标注程序及训练模型程序以产生实体关系抽取模型的装置及方法。


背景技术:

2.知识抽取是知识管理中最重要的第一步,知识抽取是在大量文件中萃取有用的知识,其中包含实体与关系。通过这些知识,能使得各种应用服务在遇到需要作出判断的场景时,能快速并且精准的做出决定,完成该场景的任务。许多应用及解决方案都仰赖结构化文本信息的知识来完成特定的功能,例如:搜寻引擎、自动导航、知识问答、推荐系统以及对话机器人等等,若欲进一步提升其知识程度则需要利用知识图谱及语义知识库,因此实体关系抽取是建构知识库的关键技术之一。
3.现有的实体关系抽取方法,主要以人工规则模板及句法结构分析为主。具体而言,人工规则模板是利用领域专家设计的模板规则进行匹配,在面对新的领域或数据时需要重新设计新的模板,除了设计耗时之外,亦仅适用于小的领域。句法结构则是由语言分析学家剖析单一语言的句法规则及结构来构建句法,针对输入文本句子进行结构拆分并辨别实体名词与动词关系,然而存在全句标注的成本极高且无法快速转换领域或语言等缺点。因此,不论采用前述的哪种实体关系抽取方法,均需要专家或学者的介入,耗费大量的人工标注成本及时间,亦无法快速且弹性的针对不同领域转换。
4.有鉴于此,如何有效率且自动化的产生实体关系抽取模型,乃业界亟需努力的目标。


技术实现要素:

5.本发明的一目的在于提供一种产生实体关系抽取模型的装置。该装置包含一存储器及一处理器,该处理器电性连接至该存储器。该存储器用以存储一实体关系数据库,其中该实体关系数据库至少包含多个实体信息及多个关系信息。该处理器用以执行一预标注程序及一训练模型程序,其中该预标注程序包含下列步骤:该处理器接收一待标注文本。该处理器基于该待标注文本中的多个字段以及该实体关系数据库中的该等实体信息与该等关系信息,产生对应各该字段的至少一待标注实体信息以及对应各该字段的至少一待标注关系信息。该处理器根据一改良式标注格式对各该字段的该至少一待标注实体信息及该至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息。该处理器由该至少一标注后实体信息与该至少一标注后关系信息产生多个组合且存储至该实体关系数据库。该训练模型程序包含下列步骤:该处理器以一预训练语言模型为基础,将该等组合输入至该预训练语言模型,以产生一实体关系抽取模型。
6.本发明的另一目的在于提供一种产生实体关系抽取模型的方法。该方法用于一产生实体关系抽取模型的装置,该产生实体关系抽取模型的装置包含一存储器及一处理器,该存储器存储一实体关系数据库,其中该实体关系数据库至少包含多个实体信息及多个关
系信息,该产生实体关系抽取模型的方法由该处理器所执行且包含下列步骤:执行一预标注程序及一训练模型程序,其中该预标注程序包含下列步骤:接收一待标注文本;基于该待标注文本中的多个字段以及该实体关系数据库中的该等实体信息与该等关系信息,产生对应各该字段的至少一待标注实体信息以及对应各该字段的至少一待标注关系信息;根据一改良式标注格式对各该字段的该至少一待标注实体信息及该至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息;由该至少一标注后实体信息与该至少一标注后关系信息的多个组合且存储至该实体关系数据库;其中,该训练模型程序包含下列步骤:以一预训练语言模型为基础,将该等组合输入至该预训练语言模型,以产生一实体关系抽取模型。
7.由上述说明可知,传统的实体关系抽取模型训练通常需要重头开始训练,且需要经过大量的人工标注/介入所产生的输入数据才能达成效果。有别于传统的模型产生方式,本发明所提供的产生实体关系抽取模型技术(至少包含装置及方法)架构在预训练模型上,并通过预标注程序的机制,快速标注输入数据并扩增实体关系数据库,自动化的产生大量的数据,而不需要人力的介入,因而使得实体关系抽取模型能够快速地被训练。此外,本发明更通过改良式标注格式的信息,加速实体关系抽取模型的训练速度。因而解决了现有技术中,实体关系抽取模型均需要专家或学者的介入,耗费大量的人工标注成本及时间,亦无法快速且弹性的针对不同领域转换的缺点。
8.以下将结合附图阐述本发明的详细技术及实施方式,俾使本发明所属技术领域中技术人员能理解所请求保护的发明的技术特征。
附图说明
9.图1描绘依据本发明一实施例的产生实体关系抽取模型的装置的架构示意图;
10.图2描绘第一实施方式中实体关系数据库的示意图;
11.图3系描绘第一实施方式中扩增后的实体关系数据库的示意图;
12.图4描绘第一实施方式中训练实体关系抽取模型的架构的示意图;以及
13.图5描绘第二实施方式的产生实体关系抽取模型的方法的流程图。
14.附图标号说明:
15.1:产生实体关系抽取模型的装置
16.11:存储器
17.13:收发接口
18.15:处理器
19.133:待标注文本
20.400:实体关系数据库
21.409:神经网络
22.411:输入层
23.413:预训练语言模型
24.415:序列层
25.s501-s509:步骤
具体实施方式
26.以下将通过实施方式来解释本发明所提供的产生实体关系抽取模型的装置及方法。然而,该等实施方式并非用以限制本发明需在如该等实施方式所述的任何环境、应用或方式方能实施。因此,关于实施方式的说明仅为阐释本发明的目的,而非用以限制本发明的范围。应理解,在以下实施方式及附图中,与本发明非直接相关的元件已省略而未示出,且各元件的尺寸以及元件间的尺寸比例仅为例示而已,而非用以限制本发明的范围。
27.本发明的第一实施方式为一产生实体关系抽取模型的装置1,其架构示意图描绘于图1。于本实施方式中,产生实体关系抽取模型的装置1包含一存储器11、一收发接口13及一处理器15,处理器15电性连接至存储器11及收发接口13。存储器11可为一存储器、一通用串列总线(universal serial bus;usb)盘、一硬盘、一光盘、一随身盘或本发明所属技术领域中技术人员所知且具有相同功能的任何其他存储媒体或电路。收发接口13为一可接收及传输数据的接口或本发明所属技术领域中技术人员所知悉的其他可接收及传输数据的接口,收发接口13可通过例如:外部装置、外部网页、外部应用程序等等来源接收数据。处理器15可为各种处理单元、中央处理单元(central processing unit;cpu)、微处理器或本发明所属技术领域中技术人员所知悉的其他计算装置。于某些实施方式中,产生实体关系抽取模型的装置1可为但不限于是移动式电子装置、桌上型电脑、可携式电脑等等的电子装置。
28.于本实施方式中,存储器11存储实体关系数据库400,实体关系数据库400至少包含多个实体信息及多个关系信息。为便于理解,图2例示了实体关系数据库400的一种实施例。如图2所示,实体关系数据库400纪录了输入数据、实体1、关系、实体2及信心分数等栏位。以图2中实体关系数据库400的第1笔数据为例,实体关系数据库400记录了输入数据为“tom was born in honolulu,hawaii”,对应该输入数据的实体1为“tom”、关系为“was born in”、实体2为“honolulu”及信心分数为“1.0”。
29.于某些实施方式中,实体关系数据库400是由处理器15执行一爬虫程序及一实体关系数据库建构程序产生。该爬虫程序包含下列步骤:处理器15收集多个知识库数据内容,各该知识库数据内容包含多个条目名称及对应各该条目名称的一条目内文。处理器15对该各该条目内文进行一断句处理,以产生一输入数据。该实体关系数据库建构程序包含下列步骤:处理器15将该输入数据输入至一实体关系抽取系统,以产生一输出数据,其中该输出数据包含多笔三元组数据,各该三元组数据包含多个实体信息、至少一关系信息及一信心分数。处理器15基于该信心分数,将输出数据中该信心分数超越一预设值的该等三元组数据存储至该实体关系数据库。
30.举例而言,在爬虫程序中可通过处理器15执行爬虫程序,从通用知识库(例如:dbpedia、yago、freebase、wikipedia等)、领域知识库(例如:专利知识库、制造业用语知识库等)、标准实体关系数据集知识库(例如:opiec、oie2016)等数据来源,抓取各该知识库的条目名称(例如:与某类别相关的数据库)及条目内文(例如:与某类别相关的文章)。接着,处理器15以句号为断句的规则,对各该条目内文执行断句处理,产生以单句为单位的多个输入数据。须说明者,在爬虫程序抓取各该知识库的条目名称及条目内文后,处理器15可进一步对条目内文执一前处理运作,例如:提取文本段落、去除html标签、去除重复句子、去除不正常乱码信息等数据清理运作。
31.又举例而言,处理器15在实体关系数据库400的建构程序中,处理器15将输入数据
was born in taiwan,tainan,zhongshan street”的字段a。首先,处理器15将字段a与图2中实体关系数据库400中的各个实体信息比对(即,实体1及实体2栏位),以判断字段a中哪些单词/短语是属于实体。于本范例中,由于字段a中的“wang”、“taiwan”、“tainan”及“zhongshan street”分别已在实体关系数据库400中的第4、5、6笔中被标注为实体,因此经由比对后,处理器15产生对应字段a的待标注实体信息为“wang”、“taiwan”、“tainan”及“zhongshan street”(依于字段a中出现的顺序)。
38.接着,处理器15判断哪些字段包含至少二个待标注实体信息(即,有机会能通过二个实体及一关系形成一组合;因为若没有二个实体,即使有关系,仍无法形成组合)。于本范例中,由于字段a具有超过二个待标注实体信息,处理器15将字段a与图2中实体关系数据库400中的各个关系信息比对(即,关系栏位),以判断字段a中哪些单词/短语是属于关系。于本范例中,由于“was born in”已在实体关系数据库400中的第1、2笔中被标注为关系,因此经由比对后,处理器15产生对应字段a的待标注关系信息为“was born in”。
39.随后,处理器15根据改良式标注格式对各该字段的该至少一标注后实体信息及该至少一标注后关系信息进行标注。于本范例中,采用bmes标注(即,b为一个词的词首位置、m为一个词的中间位置、e为一个词的末尾位置、s为一个单独的字词)。以前述字段a的待标注实体信息及待标注关系信息举例而言,处理器15对待标注实体信息“wang”标注,并在传统序列标注格式s之前,加上前缀entity成为“wang[entity-s]”、对“taiwan”标注“taiwan[entity-s]”、对“tainan”标注“tainan[entity-s]”、对“zhongshan street”标注“zhongshan[entity-b]street[entity-e]”,标注后的“wang[entity-s]”、“taiwan[entity-s]”、“tainan[entity-s]”、“zhongshan[entity-b]street[entity-e]”即为标注后实体信息。处理器15对待标注关系信息“was born in”标注,并在传统序列标注格式b、m或e之前,加上前缀relation成为“was[relation-b]born[relation-m]in[relation-e]”,标注后的“was[relation-b]born[relation-m]in[relation-e]”即为标注后实体信息。
[0040]
接着,处理器15依于字段a中出现的先后顺序,由各该字段中的该标注后实体信息与该标注后关系信息产生多个组合且存储至实体关系数据库400。依前述字段a的标注后实体信息及标注后关系信息举例而言,请参考图3,处理器15基于字段a的标注后实体信息“wang[entity-s]”、“taiwan[entity-s]”、“tainan[entity-s]及“zhongshan[entity-b]street[entity-e]”以及标注后关系信息“was[relation-b]born[relation-m]in[relation-e]”,处理器15产生分别符合实体1、关系、实体2的排列的“wang was born in taiwan”、“wang was born in tainan”、“wang was born in zhongshan street”组合,并存储至图3的实体关系数据库400的第7、8、9笔(于本范例中,产生的信心分数预设为1)。
[0041]
据此,处理器15对标注文本133中包含的多个字段都可进行同样的运作,处理器15通过实体关系数据库400的字串比对来进行自动标注,并可产生倍数于原字段的多种组合,进以扩充实体关系数据库400中的数据内容。此外,由于处理器15通过改良式标注格式对于各该字段中的实体及关系进行标注,使得实体关系数据库400中的数据内容除了实体及关系的信息外更带有位置的特征信息,将有利于后续训练模型的效率及时间。
[0042]
于某些实施方式中,处理器15亦可以其他排列方式以产生组合,本领域技术人员应可根据前述说明内容理解如何根据其他排列产生组合,兹不赘言。须说明者,为简明表示,图3中所例示的改良式标注格式仅示出部分内容,但其非用以限制本发明的范围,本领
域技术人员应可根据前述说明内容理解运作的内容,兹不赘言。
[0043]
以下将说明,处理器15执行训练模型程序的步骤,请参考图4。于本实施方式中,处理器15以一预训练语言模型413为基础,将该等组合输入至预训练语言模型413,以产生一实体关系抽取模型,其中该实体抽取模型用以识别一文本段落中的该实体信息及该关系信息。须说明者,预训练语言模型413至少包含一已训练完成的语言层模型,由于已基于大量文本训练多层的网络结构,该语言层已包含多个已训练权重的参数,例如:google提出的预训练语言模型bert(bidirectional encoder representations from transformers),其中的各该“transformers”是一个利用自我注意力机制以加强关注序列内部关联的模型。
[0044]
具体而言,训练模型程序可包含以下步骤。首先,如图4所示,处理器15将一输入层411及一序列层415与预训练语言模型413串接以有效降低模型训练的一复杂度,其中输入层411用以将该等字段切分为多个词汇以作为预训练语言模型413的输入,序列层415基于该改良式标注格式执行一分析运作以产生该文本段落中的该实体信息及该关系信息。接着,处理器15将实体关系数据库400中的该等组合输入至该输入层411,配合该预训练语言模型413及该序列层415,以产生该实体关系抽取模型。
[0045]
须说明者,输入层411是输入多个文字序列(即,实体关系数据库400中的输入数据),将文字序列拆成多个词汇(token)序列,再将词汇序列输入至预训练语言模型413(即,bert层),序列层415则接收预训练语言模型413的输出,最后产生对应各该文字序列的实体关系及传统序列标注格式(例如:bmes、bio、bioes等等)的标注结果。由于序列层(crf layer)可对于序列化标签添加一些约束条件(即,规范下一个字产生的可能性限制),进而保证预测标签的有效性,且有效减少模型训练的复杂度。因此,将序列层串接在语言层(即,bert层)后面能够加强序列分析的效果。须说明者,为简明表示,图4中仅示出部分内容,本领域技术人员应可根据前述说明内容,理解通过类神经网络串接以进行机器学习训练的运作内容,兹不赘言。
[0046]
于某些实施方式中,如图4所示,可通过由输入层411、预训练语言模型413、序列层415三个网络串接的一神经网络(neural network)409进行机器学习,基于实体关系数据库400的数据对预训练语言模型413进行模型微调(fine-tuning),以训练实体关系抽取模型,该实体关系抽取模型输入为一段文字序列及标注信息,其训练完毕的模型可预测新的文字序列当中有哪些字词为实体及关系。
[0047]
由上述说明可知,产生实体关系抽取模型的装置1执行包含预标注程序及训练模型程序。在预标注程序中,由处理器15基于待标注文本133中的多个字段以及实体关系数据库400中的该等实体信息与该等关系信息,产生对应各该字段的至少一待标注实体信息以及对应各该字段的至少一待标注关系信息,并根据改良式标注格式对各该字段的该至少一待标注实体信息及该至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息,且由该至少一标注后实体信息与该至少一标注后关系信息产生多个组合且存储至实体关系数据库400。在训练模型程序中,由处理器15以预训练语言模型为基础,将该等组合输入至该预训练语言模型,以产生一实体关系抽取模型。
[0048]
由上述说明可知,传统的实体关系抽取模型训练通常需要重头开始训练,且需要经过大量的人工标注/介入所产生的输入数据才能达成效果。有别于传统的模型产生方式,本发明所提供的产生实体关系抽取模型装置架构在预训练模型上,并通过预标注程序的机
制,快速标注输入数据并扩增实体关系数据库,自动化的产生大量的数据,而不需要人力的介入,因而使得实体关系抽取模型能够快速地被训练。此外,本发明更通过改良式标注格式的信息,加速实体关系抽取模型的训练速度。因而解决了现有技术中,实体关系抽取模型均需要专家或学者的介入,耗费大量的人工标注成本及时间,亦无法快速且弹性的针对不同领域转换的缺点。
[0049]
本发明的第二实施方式为一种产生实体关系抽取模型的方法,其流程图描绘于图5。产生实体关系抽取模型的方法用于一产生实体关系抽取模型的装置(下称:该装置),例如:第一实施方式所述的产生实体关系抽取模型的装置1。该装置包含一存储器、一收发接口及一处理器,该存储器存储一实体关系数据库,例如:第一实施方式所述的实体关系数据库400,其中该实体关系数据库至少包含多个实体信息及多个关系信息。产生实体关系抽取模型的方法通过预标注程序的步骤s501至步骤s507及训练模型程序步骤s509,产生实体关系抽取模型。
[0050]
于某些实施方式中,该实体关系数据库是由一爬虫程序及一实体关系数据库建构程序产生,其中执行该爬虫程序包含下列步骤:收集多个知识库数据内容,各该知识库数据内容包含多个条目名称及对应各该条目名称的一条目内文;对该各该条目内文进行一断句处理,以产生一输入数据;其中,该实体关系数据库建构程序包含下列步骤:将该输入数据输入至一实体关系抽取系统,以产生一输出数据,其中该输出数据包含多笔三元组数据,各该三元组数据包含多个实体信息、至少一关系信息及一信心分数;基于该信心分数,将输出数据中该信心分数超越一预设值的该等三元组数据存储至该实体关系数据库。
[0051]
以下先说明预标注程序的步骤s501至步骤s507。首先,于步骤s501,由该装置接收一待标注文本。
[0052]
接着,于步骤s503,由该装置根基于该待标注文本中的多个字段以及该实体关系数据库中的该等实体信息与该等关系信息,产生对应各该字段的至少一待标注实体信息以及对应各该字段的至少一待标注关系信息。于某些实施方式中,产生对应各该字段的该至少一待标注实体信息以及对应各该字段的该至少一待标注关系信息系包含下列步骤:比对该待标注文本中的该等字段以及该实体关系数据库中的该等实体信息,以产生对应各该字段的该至少一待标注实体信息;以及比对包含至少二个待标注实体信息的各该字段以及该实体关系数据库中的该等关系信息,以产生对应各该字段的该至少一待标注关系信息。
[0053]
随后,于步骤s505,由该装置根据一改良式标注格式对各该字段的该至少一待标注实体信息及该至少一待标注关系信息进行标注,以产生至少一标注后实体信息及至少一标注后关系信息。于某些实施方式中,该改良式标注格式是由一传统序列标注格式及对应该传统序列标注格式的一实体标签及关系标签所组成。
[0054]
接着,于步骤s507,由该装置由该至少一标注后实体信息与该至少一标注后关系信息产生多个组合且存储至该实体关系数据库。于某些实施方式中,由该至少一标注后实体信息与该至少一标注后关系信息产生该等组合包含下列步骤:根据各该字段的该至少一标注后实体信息及该至少一标注后关系信息于该字段的一先后顺序,产生各该字段中的该至少一标注后实体信息与该至少一标注后关系信息的该等个组合。
[0055]
以下接着说明训练模型程序步骤s509。于步骤s509中,由该装置以一预训练语言模型为基础,将该等组合输入至该预训练语言模型,以产生一实体关系抽取模型。
[0056]
于某些实施方式中,该训练模型程序还包含:将一输入层及一序列层与该预训练语言模型串接以有效降低模型训练的一复杂度,其中该输入层用以将该等字段切分为多个词汇以作为该预训练语言模型的输入,该序列层基于该改良式标注格式执行一分析运作以产生该文本段落中的该实体信息及该关系信息;以及将实体关系数据库中包含该改良式标注格式的该等组合输入至该输入层,配合该预训练语言模型及该序列层,以产生该实体关系抽取模型。
[0057]
除了上述步骤,第二实施方式亦能执行第一实施方式所描述的产生实体关系抽取模型的装置1的所有运作及步骤,具有同样的功能,且达到同样的技术效果。本发明所属技术领域中技术人员可直接了解第二实施方式如何基于上述第一实施方式以执行此等运作及步骤,具有同样的功能,并达到同样的技术效果,故不赘述。
[0058]
综上所述,传统的实体关系抽取模型训练通常需要重头开始训练,且需要经过大量的人工标注/介入所产生的输入数据才能达成效果。有别于传统的模型产生方式,本发明所提供的产生实体关系抽取模型方法架构在预训练模型上,并通过预标注程序的机制,快速标注输入数据并扩增实体关系数据库,自动化的产生大量的数据,而不需要人力的介入,因而使得实体关系抽取模型能够快速地被训练。此外,本发明更通过改良式标注格式的信息,加速实体关系抽取模型的训练速度。因而解决了现有技术中,实体关系抽取模型均需要专家或学者的介入,耗费大量的人工标注成本及时间,亦无法快速且弹性的针对不同领域转换的缺点。
[0059]
上述实施方式仅用来例举本发明的部分实施实施例,以及阐释本发明的技术特征,而非用来限制本发明的保护范畴及范围。任何本发明所属技术领域中技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,而本发明的权利保护范围以权利要求范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1