1.本发明涉及文本标注领域,尤其涉及一种基于标注中新增关键词语的文本标注方法、系统及装置。
背景技术:2.在自然语言处理领域,针对文本分类问题的标注工具有prodigy等。它主要是可以连接自定义的数据库,在定义好标签的条件下,提供一个用户界面,使得标注人员可以对某一篇文本打上某些标签。prodigy等这种标注工具不带有样本筛选功能,不能解决标注数据量巨大、标注所需周期长的问题,也不能帮助提高样本的质量、发现有价值的文本特征。
技术实现要素:3.在自然语言处理领域的文本分类问题中,为了解决算法所需的标注数据量巨大、标注所需周期长的问题,本发明实现了一种基于标注中新增关键词语的文本标注方法、系统及装置。
4.本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于标注中新增关键词语的文本标注方法,该方法包括以下步骤:(1)确定待标注的文本能够打上的标签,记为标签a,并通过标签a的若干范围词语圈定标签a的待标注样本的范围;(2)在待标注的文本上划出支持将此文本标注为标签a的词语、短语或句子;(3)基于步骤(2)中划出的词语、短语或句子,确定标签a的待定样例短语或样例句式;所述样例短语代表标签a所关联的典型文本的短语,所述样例句式代表标签a所关联的典型文本的句式;(4)对标签a的待定样例短语和样例句式在进行审核后,将范围词语、审核通过的样例短语和样例句式作为标签a的关键词语加入标签a的关键词语列表,用于后续的文本筛选或文本自动标注;(5)在标签a已有关键词语的情况下,根据基于关键词语的查询逻辑,进行文本筛选得到具有典型特征的文本或者对查询到的文本进行自动标注,直接打上标签a;所述查询逻辑为若存在范围词语a和b,则用“a & b”表示文本中既存在a又存在b,若存在样例语句c和d,则用“c| d”表示存在c的文本和存在d的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为p;取所有样例语句,它们之间用“|”连接,结果集记为q;最终的查询逻辑为p & q。
5.进一步地,划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
6.进一步地,步骤(3)中待定样例短语或样例句式需要去重,如果和标签a的已有关键词语重复,也进行去除。
7.进一步地,步骤(5)中,所述基于关键词语的查询逻辑具体如下:定义函数size(p)
表示集合p中的元素个数;其中,为集合p中的元素,m为集合p的元素个数,为集合q中的元素,n为集合q的元素个数,则查询的最终结果为。
8.第二方面,本发明还提供了一种基于标注中新增关键词语的文本标注系统,该系统包括标签选择模块、标注模块、标签确定模块、样例语句确定模块、审核模块、文本筛选模块和自动标注模块:所述标签确定模块用于确定待标注的文本能够打上的标签,记为标签a,并通过标签a的若干范围词语圈定标签a的待标注样本的范围;所述标注模块用于在待标注的文本上划出支持将此文本标注为标签a的词语、短语或句子;所述样例语句确定模块用于根据标注模块划出的词语、短语或句子,确定标签a的待定样例短语或样例句式,所述样例短语代表标签a所关联的典型文本的短语,所述样例句式代表标签a所关联的典型文本的句式;所述审核模块用于对标签a的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签a的关键词语加入标签a的关键词语列表,用于后续的文本筛选或文本自动标注;所述文本筛选模块用于在标签a已有关键词语的情况下,根据基于关键词语的查询逻辑,得到的查询结果为经过筛选后、具有典型特征的文本;所述查询逻辑为若存在范围词语a和b,则用“a & b”表示文本中既存在a又存在b,若存在样例语句c和d,则用“c| d”表示存在c的文本和存在d的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为p;取所有样例语句,它们之间用“|”连接,结果集记为q;最终的查询逻辑为p & q;所述自动标注模块用于对于通过标签a的关键词语的查询逻辑查询出的文本,直接打上标签a。
9.进一步地,所述标注模块划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。
10.进一步地,所述样例语句确定模块确定的待定样例短语或样例句式需要去重,如果和标签a的已有关键词语重复,也进行去除。
11.进一步地,所述文本筛选模块中基于关键词语的查询逻辑具体如下:定义函数size(p)表示集合p中的元素个数;其中,为集合p中的元素,m为集合p的元素个数,为集合q中的元素,n为集合q的元素个数,则查询的最终结果为。
12.第三方面,本发明还提供了一种基于标注中新增关键词语的文本标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执
行代码时,实现所述的基于标注中新增关键词语的文本标注方法。
13.第四方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时,实现所述的基于标注中新增关键词语的文本标注方法。
14.本发明的有益效果:本发明通过标注过程中划出文本中和所选标签相关的关键词语的方式,不断丰富和完善关键词语,从而缩短了样本筛选时间、提高了样本的质量、发现了更多有价值的文本特征(即标签的关键词语),提高了自然语言处理模型的性能。本发明可以对样本进行筛选和自动标注,在关键词越来越丰富的过程中,可以结合自然语言处理模型的统计指标,进行很多轮筛选或标注。在初期可以进行自动标注,加快训练自然语言处理模型速度;在准确度达到一定阈值之后(阈值可根据具体项目情况调节),采用样本筛选,进一步提高样本质量,标签的关键词语也可以给自然语言处理模型提供一定的可解释性。
附图说明
15.图1为本发明一种基于标注中新增关键词语的文本标注方法流程示意图。
16.图2为本发明一种基于标注中新增关键词语的文本标注系统结构示意图。
17.图3为本发明一种基于标注中新增关键词语的文本标注装置示意图。
具体实施方式
18.以下结合附图对本发明具体实施方式作进一步详细说明。
19.如图1所示,本发明提供的一种基于标注中新增关键词语的文本标注方法,该方法包括以下步骤:(1)确定待标注的文本能够打上的标签,记为标签a;具体为,标注人员根据本领域内的标签集合,判断待标注的文本能够打上哪些类标签,对于单分类的文本,最多只能打上一个标签,对于多分类的文本,可以打上多个标签,并通过标签a的若干范围词语圈定标签a的待标注样本的范围,例如对于“战略扩张”标签,其范围词语是“战略”。
20.(2)在待标注的文本上划出支持将此文本标注为标签a的词语、短语或句子;将一根连续的划线称为连续划线,对一条连续划线打上标签a,表示该划线上的内容支持该文本打上标签a;(3)基于步骤(2)中划出的词语、短语或句子,确定标签a的待定样例短语或样例句式;所述样例短语代表标签a所关联的典型文本的短语,如“战略扩张”标签的一个样例短语可以是“扩大规模”,所述样例句式代表标签a所关联的典型文本的句式,如“战略扩张”标签的一个样例句式可以是“除
……
外,
……
又陆续推出了
……
等诸多产品”;划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。标注人员提交的某个标签的待定样例短语或样例句式需要去重,如果和该标签的已有关键词语重复,也进行去除。
21.(4)通过标签审核人员对标注人员提交的包含文本和其标签的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签a的关键词语加入标签a的关键词语列表,用于后续的文本筛选或文本自动标注;(5)在标签a已有关键词语的情况下,根据基于关键词语的查询逻辑,进行文本筛选得到具有典型特征的文本或者对查询到的文本进行自动标注,直接打上标签a;所述查询
逻辑为若存在范围词语a和b,则用“a & b”表示文本中既存在a又存在b,若存在样例语句c和d,则用“c| d”表示存在c的文本和存在d的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为p;取所有样例语句,它们之间用“|”连接,结果集记为q;最终的查询逻辑为p & q。具体为:定义函数size(p)表示集合p中的元素个数;其中,为集合p中的元素,m为集合p的元素个数,为集合q中的元素,n为集合q的元素个数,则查询的最终结果为。
22.例如有两个范围关键词和三个样例语句的查询逻辑:{范围关键词1} & {范围关键词2} & ( {样例语句1} | {样例语句2} | {样例语句3} )以下结合一个具体应用实例来解释本发明方法:对于一般场景(准确度要求高、自然语言处理模型不急于上线),可以用本发明方法做样本筛选,筛选出的样本再进行人工标注;对于需要自然语言处理模型尽快上线、准确度要求相对不高的场景,可以利用本发明方法进行自动标注;例如对于待标注的新闻文本“腾讯to b战略扩张一年,布局与挑战”(来源网址:https://baijiahao.baidu.com/sid=1655215551572497839&wfr=spider&for=pc),根据该新闻文本内容可以确定该文本标签为“战略扩张”,针对“战略扩张”这个标签圈定该新闻文本的范围词语为“战略、公司”;在该新闻文本中找出和标签相关的词语和语句,例如“在积极转变”、“战略升级”、“推动腾讯”、“升级”、“重兵投入”、“业务提升到”、“战略高度”、“数字型转化、企业上云”、“调整公司架构”、“公司开放战略”、“为了
……
,推出
……
产品”;然后根据所找到的词语和语句,确定标签“战略扩张”的待定样例短语或样例句式,例如,样例短语为“升级”、“调整公司架构”,样例句式为“为了
……
,推出
……
产品”。
23.通过查询逻辑得到标签为“战略扩张”的新闻文本的查询逻辑为“战略&公司&(升级|调整公司架构|为了
……
,推出
……
产品)”;结合bert模型等自然语言处理模型,根据查询逻辑“战略&公司&(升级|调整公司架构|为了
……
,推出
……
产品)”查询其他新闻文本,可以快速进行需求的样本筛选,或者对筛选的新闻文本自动标注标签“战略扩张”。不论样本筛选还是自动标注,在关键词越来越丰富的过程中,都可以结合自然语言处理模型的统计指标,进行很多轮筛选、标注。在初期可以进行自动标注,加快模型训练速度;在准确度达到一定阈值之后(阈值可根据具体项目情况调节),采用样本筛选,进一步提高样本质量,同时,标签的关键词语也可以给自然语言处理模型提供一定的可解释性,当自然语言处理模型出现异常的样本筛选结果时,由于模型的输出还取决于关键词,可以根据输出的异常的样本筛选结果 回溯当前关键词中存在的缺陷,因此可以通过修正关键词达到快速纠正模型输出结果的目的,提升了自然语言处理模型的可解释性。
24.另一方面,与上述基于标注中新增关键词语的文本标注方法的实施例相对应,如图2所示,本发明还提供了一种基于标注中新增关键词语的文本标注系统,该系统包括标签确定模块、标注模块、样例语句确定模块、审核模块、文本筛选模块和自动标注模块:
所述标签确定模块用于确定待标注的文本能够打上的的标签,记为标签a,并通过标签a的若干范围词语圈定标签a的待标注样本的范围;所述标注模块用于在待标注的文本上划出支持将此文本标注为标签a的词语、短语或句子;所述样例语句确定模块用于根据标注模块划出的词语、短语或句子,确定标签a的待定样例短语或样例句式,所述样例短语代表其所关联的典型文本的短语,所述样例句式代表其所关联的典型文本的句式;划出的同一个句子内的词语如果是连续的字符串,则为待定的样例短语;否则用省略号连接,形成一个待定的样例句式。并且对待定样例短语或样例句式进行去重,如果和标签a的已有关键词语重复,也进行去除。
25.所述审核模块用于对标签a的待定样例短语和样例句式进行审核,将范围词语、审核通过的样例短语和样例句式作为标签a的关键词语加入标签a的关键词语列表,用于后续的文本筛选或文本自动标注;所述文本筛选模块用于在标签a已有关键词语的情况下,根据基于关键词语的查询逻辑,得到的查询结果为经过筛选后、具有典型特征的文本;所述查询逻辑为若存在范围词语a和b,则用“a & b”表示文本中既存在a又存在b,若存在样例语句c和d,则用“c| d”表示存在c的文本和存在d的文本的并集;取所有范围词语,它们之间用“&”连接,结果集记为p;取所有样例语句,它们之间用“|”连接,结果集记为q;最终的查询逻辑为p & q;具体如下:定义函数size(p)表示集合p中的元素个数;其中,为集合p中的元素,m为集合p的元素个数,为集合q中的元素,n为集合q的元素个数,则查询的最终结果为。
26.所述自动标注模块用于对于通过标签a的关键词语的查询逻辑查询出的文本,直接打上标签a。
27.与前述基于标注中新增关键词语的文本标注方法的实施例相对应,本发明还提供了基于标注中新增关键词语的文本标注装置的实施例。
28.参见图3,本发明实施例提供的一种基于标注中新增关键词语的文本标注装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于标注中新增关键词语的文本标注方法。
29.本发明基于标注中新增关键词语的文本标注装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于标注中新增关键词语的文本标注装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
30.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
31.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
32.本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于标注中新增关键词语的文本标注方法。
33.所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
34.上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。