数据标注方法及装置、存储介质、终端与流程

文档序号:29473335发布日期:2022-04-02 05:59阅读:167来源:国知局
数据标注方法及装置、存储介质、终端与流程

1.本发明涉及一种数据处理技术领域,特别是涉及一种数据标注方法及装置、存储介质、终端。


背景技术:

2.随着大数据时代的到来,数据安全问题已经成为各方关注的焦点。其中,为了确定数据是否安全,会按照特定条件对数据进行安全属性标注,以进行安全性分析。
3.目前,现有对数据进行安全属性标注通常是基于if-else方式进行匹配打标,但是,由于以if-else方式作为匹配条件,更新逻辑的数量较为庞大,会导致大量、复杂的if-else逻辑产生维护困难,造成匹配条件的维护成本高、效率低、错误率高,对于复杂的匹配条件,需要代码层进行修改、新增,导致标注匹配条件的扩展性较差,同时,直接按照if-else方式对数据标注也会造成系统资源的大量消耗,无法满足对数据灵活标注的业务需求,从而影响数据标注效率。


技术实现要素:

4.有鉴于此,本发明提供一种数据标注方法及装置、存储介质、终端,主要目的在于解决现有数据标注效率低的问题。
5.依据本发明一个方面,提供了一种数据标注方法,包括:
6.获取待标注的目标数据;
7.通过规则引擎调取与所述目标数据匹配的数据标注规则,所述规则引擎中存储有与不同数据匹配的数据标注规则;
8.基于所述数据标注规则对所述目标数据进行标注,得到所述目标数据的标注结果。
9.进一步地,所述规则引擎包括:规则管理器和规则执行器,所述通过规则引擎调取与所述目标数据匹配的数据标注规则之前,所述方法还包括:
10.规则引擎中的规则管理器通过前端界面加载录入的规则执行需求信息,所述规则执行需求信息用于表征执行标注操作时的逻辑条件、以及规则运行方式、规则运行属性;
11.在所述规则管理器中生成与所述规则执行需求信息匹配的数据标注规则;
12.所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则,以使所述规则执行器基于所述数据标注规则执行数据标注;和/或,
13.规则引擎中的规则管理器通过前端界面接收初始数据标注规则,并对所述初始数据标注规则进行处理得到所述数据标注规则;
14.所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则,以使所述规则执行器基于所述数据标注规则执行数据标注。
15.进一步地,所述在所述规则管理器中生成与所述规则执行需求信息匹配的数据标注规则包括:
16.所述规则管理器对所述规则执行需求信息进行语法解析,得到规则逻辑信息;
17.所述规则管理器对所述规则逻辑信息进行上下文逻辑识别,生成数据标注规则。
18.进一步地,所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则之后,所述方法还包括:
19.所述规则执行器接收到所述规则管理器提交的所述数据标注规则后,确定每一所述数据标注规则能够执行标注的数据信息,所述数据信息包括:数据标识;
20.将所述数据标注规则及相应的数据标识,关联存储至预设存储位置中;
21.所述通过规则引擎调取与所述目标数据匹配的数据标注规则,包括:
22.当所述规则执行器接收到标注任务时,解析所述标注任务,得到待标注的目标数据;
23.基于所述待标注的目标数据的数据标识,调取所述预设存储位置中匹配的数据标注规则,并将所述标注任务及相应的数据标注规则,发送至任务集群中,以通过所述任务集群执行数据标注。
24.进一步地,所述方法还包括:
25.获取到待标注的目标数据后,为所述目标数据创建相应的标注任务,并将所述标注任务发送至所述任务集群中的任务管理器,以使所述任务管理器从所述任务集群中确定待标注任务的执行节点。
26.进一步地,在将所述标注任务及相应的数据标注规则,发送至任务集群中之后,所述方法还包括:
27.确定任务集群中执行所述目标数据的标注任务的执行节点;
28.通过所述规则引擎中的规则执行器将所述标注任务及相应的数据标注规则下发至所述执行节点,以通过所述执行节点基于所述数据标注规则对所述标注任务对应的目标数据进行标注。
29.进一步地,所述确定任务集群中执行所述目标数据的标注任务的执行节点包括:
30.从所述规则管理器中获取所述规则执行需求信息的规则执行配置信息,和/或从分布式数据源中获取所述目标数据的数据属性;
31.通过所述规则执行器确定与所述规则执行配置信息、和/或所述数据属性对应执行所述标注任务的执行节点。
32.进一步地,所述通过所述规则执行器确定与所述规则执行配置信息对应执行所述标注任务的执行节点包括:
33.获取任务集群中执行节点的节点资源信息,所述节点资源信息包括节点资源占用情况、节点资源执行语言、节点资源执行环境中至少一项;
34.基于所述节点资源信息中的节点资源占用情况、节点资源执行语言、节点资源执行环境与所述规则执行配置信息进行匹配,确定执行所述标注任务的执行节点,所述规则执行配置信息用于表征执行所述标注任务需要占用的系统环境、数据空间大小、操作语言。
35.进一步地,所述通过所述规则执行器确定与所述数据属性对应执行所述标注任务的执行节点包括:
36.从分布式数据源中获取待执行的标注任务的源数据、以及至少一个执行节点的节点资源信息;
37.解析所述源数据的数据属性,所述数据属性包括字段内容、业务数据源;
38.为所述源数据中的不同数据分配与所述数据属性匹配的节点资源信息所对应的执行节点,以确定不同目标数据执行标注的执行节点。
39.进一步地,所述确定任务集群中执行所述目标数据的标注任务的执行节点包括:
40.若基于规则执行配置信息确定执行标注任务的执行节点为多个,则基于所述目标数据的数据属性与所述执行节点的节点资源信息进行匹配,确定执行标注任务的执行节点。
41.依据本发明另一个方面,提供了一种数据标注装置,包括:
42.获取模块,用于获取待标注的目标数据;
43.调取模块,用于通过规则引擎调取与所述目标数据匹配的数据标注规则,所述规则引擎中存储有与不同数据匹配的数据标注规则;
44.标注模块,用于基于所述数据标注规则对所述目标数据进行标注,得到所述目标数据的标注结果。
45.进一步地,所述规则引擎包括:规则管理器和规则执行器,所述装置还包括:
46.加载模块,用于规则引擎中的规则管理器通过前端界面加载录入的规则执行需求信息,所述规则执行需求信息用于表征执行标注操作时的逻辑条件、以及规则运行方式、规则运行属性;
47.生成模块,用于在所述规则管理器中生成与所述规则执行需求信息匹配的数据标注规则;
48.第一提交模块,用于所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则,以使所述规则执行器基于所述数据标注规则执行数据标注;和/或,
49.接收模块,用于规则引擎中的规则管理器通过前端界面接收初始数据标注规则,并对所述初始数据标注规则进行处理得到所述数据标注规则;
50.第二提交模块,用于所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则,以使所述规则执行器基于所述数据标注规则执行数据标注。
51.进一步地,所述生成模块包括:
52.解析单元,用于所述规则管理器对所述规则执行需求信息进行语法解析,得到规则逻辑信息;
53.识别单元,用于所述规则管理器对所述规则逻辑信息进行上下文逻辑识别,生成数据标注规则。
54.进一步地,所述装置还包括:
55.确定模块,用于所述规则执行器接收到所述规则管理器提交的所述数据标注规则后,确定每一所述数据标注规则能够执行标注的数据信息,所述数据信息包括:数据标识;
56.存储模块,用于将所述数据标注规则及相应的数据标识,关联存储至预设存储位置中;
57.所述调取模块包括:
58.解析单元,用于当所述规则执行器接收到标注任务时,解析所述标注任务,得到待标注的目标数据;
59.调取单元,用于基于所述待标注的目标数据的数据标识,调取所述预设存储位置
中匹配的数据标注规则,并将所述标注任务及相应的数据标注规则,发送至任务集群中,以通过所述任务集群执行数据标注。
60.进一步地,所述装置还包括:
61.创建模块,用于获取到待标注的目标数据后,为所述目标数据创建相应的标注任务,并将所述标注任务发送至所述任务集群中的任务管理器,以使所述任务管理器从所述任务集群中确定待标注任务的执行节点
62.进一步地,所述装置还包括:下发模块,
63.所述确定模块,还用于确定任务集群中执行所述目标数据的标注任务的执行节点;
64.所述下发模块,还用于通过所述规则引擎中的规则执行器将所述标注任务及相应的数据标注规则下发至所述执行节点,以通过所述执行节点基于所述数据标注规则对所述标注任务对应的目标数据进行标注。
65.进一步地,所述确定模块包括:
66.获取单元,用于从所述规则管理器中获取所述规则执行需求信息的规则执行配置信息,和/或从分布式数据源中获取所述目标数据的数据属性;
67.确定单元,用于通过所述规则执行器确定与所述规则执行配置信息、和/或所述数据属性对应执行所述标注任务的执行节点。
68.进一步地,所述确定单元包括:
69.第一获取子单元,用于获取任务集群中执行节点的节点资源信息,所述节点资源信息包括节点资源占用情况、节点资源执行语言、节点资源执行环境中至少一项;
70.确定子单元,用于基于所述节点资源信息中的节点资源占用情况、节点资源执行语言、节点资源执行环境与所述规则执行配置信息进行匹配,确定执行所述标注任务的执行节点,所述规则执行配置信息用于表征执行所述标注任务需要占用的系统环境、数据空间大小、操作语言。
71.进一步地,所述确定单元还包括:
72.第二获取子单元,用于从分布式数据源中获取待执行的标注任务的源数据、以及至少一个执行节点的节点资源信息;
73.解析子单元,用于解析所述源数据的数据属性,所述数据属性包括字段内容、业务数据源;
74.分配子单元,用于为所述源数据中的不同数据分配与所述数据属性匹配的节点资源信息所对应的执行节点,以确定不同目标数据执行标注的执行节点。
75.进一步地,所述确定单元,具体用于若基于规则执行配置信息确定执行标注任务的执行节点为多个,则基于所述目标数据的数据属性与所述执行节点的节点资源信息进行匹配,确定执行标注任务的执行节点。
76.根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述数据标注方法对应的操作。
77.根据本发明的再一方面,提供了一种终端,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
78.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述
数据标注方法对应的操作。
79.借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
80.本发明提供了一种数据标注方法及装置、存储介质、终端,与现有技术相比,本发明实施例通过获取待标注的目标数据;通过规则引擎调取与所述目标数据匹配的数据标注规则,所述规则引擎中存储有与不同数据匹配的数据标注规则;基于所述数据标注规则对所述目标数据进行标注,得到所述目标数据的标注结果,实现基于规则引擎自动匹配数据标识规则来简化复杂的标注规则的生成步骤,使得标注匹配条件可以实现高度扩展,同时基于规则引擎的规则匹配满足对数据灵活标注的业务需求,实现了对数据标注的便捷性处理,从而提高数据标注的效率。
81.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
82.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
83.图1示出了本发明实施例提供的第一种数据标注方法流程图;
84.图2示出了本发明实施例提供的一种规则引擎处理流程示意图;
85.图3示出了本发明实施例提供的一种数据标注执行系统结构图;
86.图4示出了本发明实施例提供的第二种数据标注方法流程图;
87.图5示出了本发明实施例提供的一种规则引擎结构示意图;
88.图6示出了本发明实施例提供的第三种数据标注方法流程图;
89.图7示出了本发明实施例提供的第四种数据标注方法流程图;
90.图8示出了本发明实施例提供的第五种数据标注方法流程图;
91.图9示出了本发明实施例提供的第六种数据标注方法流程图;
92.图10示出了本发明实施例提供的一种数据标注装置组成框图;
93.图11示出了本发明实施例提供的一种终端的结构示意图。
具体实施方式
94.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
95.针对数据进行安全属性标注通常是基于if-else方式进行匹配打标,但是,由于以if-else方式作为匹配条件,更新逻辑的数量较为庞大,会导致大量、复杂的if-else逻辑产生维护困难,造成匹配条件的维护成本高、效率低、错误率高,对于复杂的匹配条件,需要代码层进行修改、新增,导致匹配条件的扩展性较差,同时,单纯按照设定规则进行打标也无法满足对数据的安全属性进行打标的业务需求,从而影响基于安全属性的数据标注效率。
本发明实施例提供了一种数据标注方法,如图1所示,该方法包括:
96.101、获取待标注的目标数据。
97.其中,待标注的目标数据为需要执行标注任务的数据内容,标注任务所产生的标签可以用于标记数据的安全属性,包括但不限于用户产生的网络行为数据、设备产生的系统数据等,本发明实施例不做限定。
98.需要说明的是,当前获取待标注的目标数据可以是通过执行节点调度处理器(如yarn集群)调取目标数据,也可以直接从预设数据库中提取,本发明实施例不做具体限定,以通过调取规则引擎中的数据标注规则进行标注任务的执行。
99.102、通过规则引擎调取与所述目标数据匹配的数据标注规则。
100.本发明实施例中,如图2所示,规则引擎中存储有与不同数据匹配的数据标注规则,在获取待标注的目标数据后,调取规则引擎中与目标数据匹配的数据标注规则,以按照数据标注规则对目标数据进行标注。其中,数据标注规则为对数据执行标注任务所匹配的规则内容,包括但不限于不同的目标数据按照可以按照相同的数据标注规则进行标注,也可以按照不同的数据标注规则进行标注,在配置数据标注规则时,可以基于对数据安全属性的具体判断条件确定标注的规则内容,例如,目标数据为全部用户ip,数据标注规则可以为黑ip列表中的用户ip,以便按照此条件内容进行数据标注。
101.需要说明的是,由于规则引擎中存储有不同数据匹配的数据标注规则,在调取时,则基于需要进行标注的目标数据与各个数据标注规则进行匹配,从而确定对目标数据进行标注的数据标注规则。同时,存储的不同数据标注规则为预先生成的,从而加快了数据标注的执行效率,简化了对数据标注规则的配置操作难度,提高数据标注规则的复用性。
102.103、基于所述数据标注规则对所述目标数据进行标注,得到所述目标数据的标注结果。
103.本发明实施例中,当从规则引擎中调取数据标注规则后,基于匹配的数据标注规则对目标数据进行标注,从而完成标注操作,得到目标数据的标注结果。其中,对于标注结果的形式,可以为对目标数据进行不同符号、标记的注释,也可以包括对符合数据标注规则条件的目标数据进行筛选并标记符合数据标注规则,从而完成对目标数据的标注进行输出或存储,本发明实施例不做具体限定。另外,对于对目标数据的标注,可以基于当前规则引擎直接进行标注,也可以基于与规则引擎具有数据传输关系的执行节点调度处理器进行,如将匹配的数据标注规则下发至执行节点调度处理器中执行,本发明实施例不做具体限定。
104.进一步地,本发明实施例中的规则引擎包括:规则管理器和规则执行器,如图3所示,规则管理器与规则执行器通过数据接口进行连接,规则管理器管理匹配不同数据的数据标注规则,并通过数据接口提交给规则执行器进行存储,规则执行器用于在确定目标数据后,从存储有多个数据标注规则的数据库中匹配与目标数据对应的数据标注规则,从而发送给标注任务执行的任务集群,即yarn集群,以便确定可以执行各个标注任务的执行节点,进行标注任务的执行。
105.在一个本发明实施例中,为了进一步限定及说明,如图4所示,步骤102通过规则引擎调取与所述目标数据匹配的数据标注规则之前,所述方法还包括:
106.201a、规则引擎中的规则管理器通过前端界面加载录入的规则执行需求信息;
107.202a、在所述规则管理器中生成与所述规则执行需求信息匹配的数据标注规则;
108.203a、所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则。
109.为了依据用户对数据的安全需求进行标注,实现用户对数据标注的可编辑性,简化标注的更新执行繁琐性,规则引擎为用户提供前端界面,以便规则引擎中的规则管理器通过与前端界面(如前端web界面)进行数据交互,加载用户录入的规则执行需求信息,以便规则管理器生成与规则执行需求信息匹配的数据标注规则。其中,所述规则执行需求信息用于表征执行标注操作时的逻辑条件、以及规则运行方式、规则运行属性,具体的,逻辑条件用于表征执行标注操作时的标注条件,即包括属性对象、逻辑比较符、条件比较值等,从而基于逻辑条件建立标注规则,例如xip不为12432423,则属性对象为xip,逻辑比较符为不等于符号≠、条件比较值为12432423,从而在进行标注时,按照此规则进行标注;规则运行方式为对于不同逻辑条件执行标注的规则方式,例如,包括但不限于执行优先级、是否跳出规则序列、标注的结果格式等内容;规则运行属性为对标注规则方式限定的内容,包括但不限于数据源、标注标签名称、规则描述等,从而确定用户预期对数据进行标注的一种规则方式,以生成标注执行指令,进行存储,实现快速读取等,本发明实施例不做具体限定。
110.需要说明的是,当规则管理器基于前端界面加载到用户录入的上述的执行需求信息后,可以直接生成匹配的数据标注规则,以便在规则管理器生成数据标注规则后,向规则引擎中的规则执行器提交数据标注规则,规则执行器可以基于数据标注规则执行数据标注或数据标注规则的匹配。同时,如图3所示,作为具有控制器功能的规则执行器还可以对规则管理器中提交来的数据标注规则进行监控、反馈、逻辑执行、规则校验等操作,从而确保生成的数据标注规则正确进行数据标注。
111.另外,本发明实施例中的一个应用场景中,如图5所示的规则引擎结构示意图,通过配置前端的ui界面为用户提供定义规则的内容,用户可以通过自定义编辑规则执行需求信息生成匹配的数据标注规则。其中,用户通过自定义编辑得到规则内容,包括属性、比较符、值、数据源、标签名称、规则描述、优先级、跳出规则、结果格式等内容,规则管理器通过将用户编辑的规则内容进行加载,进行语法解析、上下文识别后,生成数据标注规则,通过规则管理器生成数据标注规则后,发送给规则引擎的规则执行器,以确定对数据标注引擎进行存储。同时,规则引擎中的规则执行器可以对生成的数据标注规则进行规则校验、规则匹配、逻辑执行、结果输出等操作,确定对用户编辑的规则内容与生成的数据标注规则之间是否匹配,即是否能够按照规则内容执行标注操作,从而输出,其中,对于规则执行器可以为noah控制器等,本发明实施例不做具体限定。具体的,用户基于前端编辑规则内容后,规则管理器可以根据编辑id、描述信息等内容记录用户录入的规则内容,例如,"id":"p0f1402d834014c76af3affe9c8afae5a","desc":"描述信息",并对应存储描述信息中的比较条件(如"condition":"or",表示filter中的各个对象之间的比较关系)、规则类型(如"type":1)、嵌套结构(如"filterchildrenlist":[])、左比较属性(如"attributeleft":"dev_id")、右比较属性(如"attributeright":"ip_addr")、操作函数(如"operator":"equalignorecase")、操作类型(如"operatoratttype":"string")等,以便在生成数据标注规则时,调取对应的描述内容进行语法解析以及上下文识别,本发明实施例不做具体限定。
[0112]
在一个本发明实施例中,为了进一步限定及说明,步骤202a在所述规则管理器中生成与所述规则执行需求信息匹配的数据标注规则包括:所述规则管理器对所述规则执行
需求信息进行语法解析,得到规则逻辑信息;所述规则管理器对所述规则逻辑信息进行上下文逻辑识别,生成数据标注规则。
[0113]
具体的,为了在规则管理器中自动生成数据标注规则,满足不同用户的标注需求,实现规则内容的灵活配置,在规则引擎中加载录入的上述执行需求信息后,通过指令语法解析得到规则逻辑信息。由于此时的语法解析仅仅是将用户配置的规则内容翻译成具体的变差语言表达式,或动态生成计算逻辑的代码,即生成数据标注规则的规则逻辑信息,可以基于java语言的cglib库实现,因此,得到的是标注规则的逻辑。而对数据的标注任务是需要进行对外部数据集进行引入的,因此,在得到规则逻辑信息的基础上进行上下文逻辑识别,从而得到生成准确对数据按照条件内容进行标注的数据标注规则,例如,某个ip不在黑ip列表中作为标注规则,在生成的规则逻辑信息的基础上,识别“黑ip列表”即为此标注规则条件的上下文,以使得数据标注规则的准确运行。
[0114]
为了进一步限定及说明,在与201-203并列的一个本发明实施例中,如图6所示,步骤102通过规则引擎调取与所述目标数据匹配的数据标注规则之前,所述方法还包括:
[0115]
201b、规则引擎中的规则管理器通过前端界面接收初始数据标注规则,并对所述初始数据标注规则进行处理得到所述数据标注规则;
[0116]
202b、所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则。
[0117]
具体的,为了满足用户的规则配置需求,规则管理器可以通过前端界面直接接收用户录入的初始数据标注规则,即作为一个初始的、具有逻辑内容的条件进行处理,从而得到可以对目标数据进行标注的数据标注规则。其中,初始数据标注规则包括但不限于对完整数据标注规则中逻辑代码删减或省略的内容、以及包含完整数据标注规则逻辑的文字内容,从而在规则管理器中对初始数据标注规则进行处理,得到可以在规则执行器中进行读取、执行的数据标注规则。例如,用户基于前端界面录入“ip地址属于白名单1中”,则将初始数据标注规则进行处理,将文字“属于”转换为计算机执行语言,java语言中的“=”,从而得到可以用于计算机执行的表达形式的数据标注规则,以使规则管理器向规则执行器提交数据标注规则,进行数据标注的执行,本发明实施例不做具体限定。
[0118]
在一个本发明实施例中,为了进一步限定及说明,如图7所示,步骤203a或202b中规则管理器向规则引擎中的规则执行器提交所述数据标注规则之后,所述方法还包括:
[0119]
301、所述规则执行器接收到所述规则管理器提交的所述数据标注规则后,确定每一所述数据标注规则能够执行标注的数据信息;
[0120]
302、将所述数据标注规则及相应的数据标识,关联存储至预设存储位置中。
[0121]
本发明实施例中,为了使规则管理器提交数据标注规则后,规则执行器对预期进行标注的数据内容匹配对应的数据标注规则,则需要确定每一个数据标注规则所能够执行标注的数据信息,数据信息包括数据标识,即数据标识可以用于表征不同数据的唯一身份,以便确定不同的数据能够匹配执行的数据标注规则。同时,为了便于在匹配数据标注规则时准确确定目标数据匹配的数据标注规则,则将数据标注规则以及所对应的数据标识关联存储至预设存储位置中,此时,关联存储可以通过绑定或建立数据标注规则与数据标识之间的关系来实现,从而存储在预设存储位置中。其中,预设存储位置可以为缓存区、也可以为固定存储区域,从而在请求调取与目标数据匹配的数据标注规则时,从预设存储位置中查找与目标数据的数据标识对应的数据标注规则,大大提高了标注任务执行的规则匹配效
率。
[0122]
进一步地,针对步骤301-302所实现的方法,如图8所示,步骤201通过规则引擎调取与所述目标数据匹配的数据标注规则,包括:
[0123]
401、当所述规则执行器接收到标注任务时,解析所述标注任务,得到待标注的目标数据;
[0124]
402、基于所述待标注的目标数据的数据标识,调取所述预设存储位置中匹配的数据标注规则,并将所述标注任务及相应的数据标注规则,发送至任务集群中。
[0125]
在执行标注操作过程中,规则执行器可以接收来自任务集群发送的标注任务,标注任务中包含需要进行标注的目标数据,此时,规则执行器对标注任务进行解析,得到待标注的目标数据,从而进行与目标数据所对应的数据标注规则的匹配。其中,待标注的目标数据带有数据标识,规则执行器在解析目标数据后,基于目标数据的数据标识调取预设存储位置中的数据标注规则,此时,为了使目标数据可以在任务集群的执行节点中执行标注,规则执行器将匹配到的数据标注规则以及标注任务共同发送至任务集群中,以便任务集群基于各个执行节点进行数据标注,大大提高了对数据标注的执行效率。
[0126]
在一个本发明实施例中,为了进一步限定及说明,本发明实施例方法还包括:获取到待标注的目标数据后,为所述目标数据创建相应的标注任务,并将所述标注任务发送至所述任务集群中的任务管理器,以使所述任务管理器从所述任务集群中确定待标注任务的执行节点。
[0127]
由于标注任务中带有待标注的目标数据,因此,为了使不同目标数据执行属于自己的标注任务,因此,在规则执行器中获取到待标注的目标数据后,可以为目标数据创建相应的标注任务,并将此标注任务发送至任务集群中的任务管理器中,以便任务管理器从任务集群中确定执行标注任务的执行节点。此时,标注任务的创建为可以基于不同目标数据的数据标识匹配生成,从而使得一项目标数据对应一个数据标识以及一个标注任务,以使得调取匹配的一项数据标注规则进行匹配,大大提高了对数据进行标注执行的准确性。另外,任务管理器在接收到标注任务后,确定标注任务确定执行数据标注的执行节点,实现任务管理器中确定分发标注任务至对应执行节点的目的。
[0128]
在一个本发明实施例中,为了进一步限定及说明,如图8所示,步骤402在将所述标注任务及相应的数据标注规则,发送至任务集群中之后,所述方法还包括:
[0129]
403、确定任务集群中执行所述目标数据的标注任务的执行节点;
[0130]
404、通过所述规则引擎中的规则执行器将所述标注任务及相应的数据标注规则下发至所述执行节点。
[0131]
当标注任务以及数据标注规则发送至任务集群之后,为了准确从包含有多个任务执行的执行节点中查找到最优执行目标数据的标注任务的执行节点,从而节约各个标注任务执行效率,首先要确定任务集群中执行目标数据的标注任务的执行节点。其中,确定目标数据的标注任务的执行节点可以为一个、也可以为多个,可以通过任务集群中的任务管理器确定任务集群中可以执行目标数据的标注任务所对应的执行节点,然后将标注任务及相应的数据标注规则下发至确定的执行节点,从而在执行节点中基于数据标注规则对标注任务对应的目标数据进行标注。此时,由于确定任务集群中执行目标数据的标注任务的执行节点可以在任务管理器中进行,因此,大大加快了执行节点的匹配效率,从而实现数据标注
的处理效率。
[0132]
在一个本发明实施例中,为了进一步限定及说明,如图9所示,步骤403确定任务集群中执行所述目标数据的标注任务的执行节点包括:
[0133]
4031、从所述规则管理器中获取所述规则执行需求信息的规则执行配置信息,和/或从分布式数据源中获取所述目标数据的数据属性;
[0134]
4032、通过所述规则执行器确定与所述规则执行配置信息、和/或所述数据属性对应执行所述标注任务的执行节点。
[0135]
为了进一步实现执行节点的匹配,实现标注任务的最优资源的标注目的,可以基于规则执行器确定规则执行配置信息和/或数据属性确定执行标注任务的执行节点。其中,由于规则执行配置信息为规则执行需求信息中的内容,因此,在基于规则执行器确定执行节点时,可以从规则管理器中获取规则执行需求信息中的规则执行配置信息,同时,由于目标数据是存储与分布式数据源中,因此,在规则执行器确定执行节点时,可以从分布式数据源中获取到目标数据的数据属性,从而使得规则执行器基于规则执行配置信息、和/或数据属性确定执行标注任务的执行节点。其中,规则执行配置信息用于表征执行所述标注任务需要占用的系统环境、数据空间大小、操作语言,数据属性包括字段内容、业务数据源,以根据规则执行配置信息、数据属性为标注任务匹配执行节点,实现以最优资源执行数据标注的任务执行,大大提高了执行节点的执行目标数据标注的效率。
[0136]
在一个本发明实施例中,为了进一步限定及说明,步骤4032通过所述规则执行器确定与所述规则执行配置信息对应执行所述标注任务的执行节点,具体包括:获取任务集群中执行节点的节点资源信息;基于所述节点资源信息中的节点资源占用情况、节点资源执行语言、节点资源执行环境与所述规则执行配置信息进行匹配,确定执行所述标注任务的执行节点。
[0137]
为了实现对执行节点的准确确定,以提高执行节点对标注任务执行效率,获取任务集群yarn集群中的各个执行节点的节点资源信息,以便与规则执行配置信息进行匹配,确定执行节点。其中,所述规则执行配置信息用于表征执行所述标注任务需要占用的系统环境、数据空间大小、操作语言,所述节点资源信息包括节点资源占用情况、节点资源执行语言、节点资源执行环境中至少一项,即yarn集群中的各个执行节点无论是正在执行标注任务还是未执行标注任务,均预先定义了节点资源空间大小、节点资源执行语言、节点资源执行环境,例如,定义了节点资源空间大小为256兆,节点资源执行语言为java语言,节点资源执行环境为windows xp。同时,由于规则执行配置信息用于表征执行标注任务需要占用的系统环境、数据空间大小、操作语言,因此,可以基于各个执行节点的节点资信息与规则执行配置信息进行执行节点的确认。在此过程中,规则执行器可以基于节点资源空间大小、节点资源执行语言、节点资源执行环境与系统环境、数据空间大小、操作语言进行一一匹配,从而确定执行标注任务的执行节点,最后可以执行数据标注规则的至少一个执行节点。
[0138]
另外,本发明实施例中对于yarn集群中配置有多个执行标注任务的节点,为了不出现匹配不到用于执行数据标注规则的执行节点,在配置执行节点时,可以预期按照兼容的方式配置节点资源空间大小、节点资源执行语言、节点资源执行环境,例如,节点资源执行环境可以配置为windows系列的全部系统环境等,从而在利用规则执行配置信息进行匹配时,可以匹配到至少一个执行节点,本发明实施例不做具体限定。
[0139]
在一个本发明实施例中,为了进一步限定及说明,步骤4032通过所述规则执行器确定与所述规则执行配置信息对应执行所述标注任务的执行节点,具体还包括:从分布式数据源中获取待执行的标注任务的源数据、以及至少一个执行节点的节点资源信息;解析所述源数据的数据属性;为所述源数据中的不同数据分配与所述数据属性匹配的节点资源信息所对应的执行节点,以确定不同目标数据执行标注的执行节点。
[0140]
为了实现基于数据属性匹配执行节点的目的,提高标注任务的执行效率,规则执行器可以从分布式数据源,如kafka,获取源数据以及各个执行节点所对应的节点资源信息。其中,源数据为源数据库中存储的不同数据源所对应的数据,此时,由于规则执行器可以通过yarn集群来分配标注任务,因此,数据源可以直接对接kafka数据库中,即将需要标注的目标数据传输至kafka数据库中,以进行有效调取。另外,节点资源信息包括节点资源空间大小、节点资源执行语言、节点资源执行环境中至少一项,根据解析源数据的不同数据的数据属性,即包括字段内容、业务数据源,从而根据数据属性为源数据分配匹配节点资源信息的执行节点,以确定适用于不同执行节点中执行数据标注规则的数据。为源数据中的不同数据分配与数据属性匹配的节点资源信息所对应的执行节点,具体可以为基于字段内容是否匹配节点资源空间大小、节点资源执行语言,以及业务数据源是否匹配节点资源执行环境进行确定,若匹配,则将从源数据中匹配执行节点的节点资源信息的数据与执行节点之间建立分配关系,从而在确定目标数据后,规则执行器基于目标数据的数据属性查找匹配的执行节点,本发明实施例不做具体限定。
[0141]
在一个本发明实施例中,为了进一步限定及说明,步骤2013确定任务集群中执行所述目标数据的标注任务的执行节点包括:若基于规则执行配置信息确定执行标注任务的执行节点为多个,则基于所述目标数据的数据属性与所述执行节点的节点资源信息进行匹配,确定执行标注任务的执行节点。
[0142]
由于规则执行器基于规则执行配置信息或数据属性可能匹配到多个执行节点,针对一个基于规则执行配置信息与数据属性结合确定执行节点的场景,为了提高执行节点执行数据标注规则的效率,首先基于规则执行配置信息确定可以执行数据标注规则的执行节点,若确定的执行节点为多个时,虽然yarn集群中的spark任务执行器可以按照预先设定的随机方式、或者排序方式从多个执行节点中确定一个目标执行节点,但是,通过随机方式、或排序方式确定的执行节点并不一定为资源最优的,因此,在规则执行器基于规则执行配置信息确定多个执行节点的基础上,进而结合目标数据的数据属性与已确的多个执行节点的节点资源信息进行匹配,从而确定出执行标注任务资源最优的执行节点,本发明实施例中对于数据属性如何匹配节点资源信息已进行说明,不在进行赘述。
[0143]
本发明实施例提供了一种数据标注方法,与现有技术相比,本发明实施例通过获取待执行标注任务的目标数据,并调取与所述目标数据匹配的标注执行指令,所述标注执行指令为基于录入的标注逻辑信息、标注需求信息生成的;基于所述标注执行指令的执行配置信息、和/或所述目标数据的数据属性确定执行标注任务的执行节点;在所述执行节点中对所述目标数据执行所述标注执行指令,完成对所述目标数据的数据标注,实现基于规则引擎自动匹配数据标识规则来简化复杂的标注规则的生成步骤,使得标注匹配条件可以实现高度扩展,同时基于规则引擎的规则匹配满足对数据灵活标注的业务需求,实现了对数据标注的便捷性处理,从而提高数据标注的效率。
[0144]
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种数据标注装置,如图10所示,该装置包括:
[0145]
获取模块51,用于获取待标注的目标数据;
[0146]
调取模块52,用于通过规则引擎调取与所述目标数据匹配的数据标注规则,所述规则引擎中存储有与不同数据匹配的数据标注规则;
[0147]
标注模块53,用于基于所述数据标注规则对所述目标数据进行标注,得到所述目标数据的标注结果。
[0148]
进一步地,所述规则引擎包括:规则管理器和规则执行器,所述装置还包括:
[0149]
加载模块,用于规则引擎中的规则管理器通过前端界面加载录入的规则执行需求信息,所述规则执行需求信息用于表征执行标注操作时的逻辑条件、以及规则运行方式、规则运行属性;
[0150]
生成模块,用于在所述规则管理器中生成与所述规则执行需求信息匹配的数据标注规则;
[0151]
第一提交模块,用于所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则,以使所述规则执行器基于所述数据标注规则执行数据标注;和/或,
[0152]
接收模块,用于规则引擎中的规则管理器通过前端界面接收初始数据标注规则,并对所述初始数据标注规则进行处理得到所述数据标注规则;
[0153]
第二提交模块,用于所述规则管理器向规则引擎中的规则执行器提交所述数据标注规则,以使所述规则执行器基于所述数据标注规则执行数据标注。
[0154]
进一步地,所述生成模块包括:
[0155]
解析单元,用于所述规则管理器对所述规则执行需求信息进行语法解析,得到规则逻辑信息;
[0156]
识别单元,用于所述规则管理器对所述规则逻辑信息进行上下文逻辑识别,生成数据标注规则。
[0157]
进一步地,所述装置还包括:
[0158]
确定模块,用于所述规则执行器接收到所述规则管理器提交的所述数据标注规则后,确定每一所述数据标注规则能够执行标注的数据信息,所述数据信息包括:数据标识;
[0159]
存储模块,用于将所述数据标注规则及相应的数据标识,关联存储至预设存储位置中;
[0160]
所述调取模块包括:
[0161]
解析单元,用于当所述规则执行器接收到标注任务时,解析所述标注任务,得到待标注的目标数据;
[0162]
调取单元,用于基于所述待标注的目标数据的数据标识,调取所述预设存储位置中匹配的数据标注规则,并将所述标注任务及相应的数据标注规则,发送至任务集群中,以通过所述任务集群执行数据标注。
[0163]
进一步地,所述装置还包括:
[0164]
创建模块,用于获取到待标注的目标数据后,为所述目标数据创建相应的标注任务,并将所述标注任务发送至所述任务集群中的任务管理器,以使所述任务管理器从所述任务集群中确定待标注任务的执行节点
[0165]
进一步地,所述装置还包括:下发模块,
[0166]
所述确定模块,还用于确定任务集群中执行所述目标数据的标注任务的执行节点;
[0167]
所述下发模块,还用于通过所述规则引擎中的规则执行器将所述标注任务及相应的数据标注规则下发至所述执行节点,以通过所述执行节点基于所述数据标注规则对所述标注任务对应的目标数据进行标注。
[0168]
进一步地,所述确定模块包括:
[0169]
获取单元,用于从所述规则管理器中获取所述规则执行需求信息的规则执行配置信息,和/或从分布式数据源中获取所述目标数据的数据属性;
[0170]
确定单元,用于通过所述规则执行器确定与所述规则执行配置信息、和/或所述数据属性对应执行所述标注任务的执行节点。
[0171]
进一步地,所述确定单元包括:
[0172]
第一获取子单元,用于获取任务集群中执行节点的节点资源信息,所述节点资源信息包括节点资源占用情况、节点资源执行语言、节点资源执行环境中至少一项;
[0173]
确定子单元,用于基于所述节点资源信息中的节点资源占用情况、节点资源执行语言、节点资源执行环境与所述规则执行配置信息进行匹配,确定执行所述标注任务的执行节点,所述规则执行配置信息用于表征执行所述标注任务需要占用的系统环境、数据空间大小、操作语言。
[0174]
进一步地,所述确定单元还包括:
[0175]
第二获取子单元,用于从分布式数据源中获取待执行的标注任务的源数据、以及至少一个执行节点的节点资源信息;
[0176]
解析子单元,用于解析所述源数据的数据属性,所述数据属性包括字段内容、业务数据源;
[0177]
分配子单元,用于为所述源数据中的不同数据分配与所述数据属性匹配的节点资源信息所对应的执行节点,以确定不同目标数据执行标注的执行节点。
[0178]
进一步地,所述确定单元,具体用于若基于规则执行配置信息确定执行标注任务的执行节点为多个,则基于所述目标数据的数据属性与所述执行节点的节点资源信息进行匹配,确定执行标注任务的执行节点。
[0179]
本发明实实施例提供了一种数据标注装置,与现有技术相比,本发明实施例通过获取待执行标注任务的目标数据,并调取与所述目标数据匹配的标注执行指令,所述标注执行指令为基于录入的标注逻辑信息、标注需求信息生成的;基于所述标注执行指令的执行配置信息、和/或所述目标数据的数据属性确定执行标注任务的执行节点;在所述执行节点中对所述目标数据执行所述标注执行指令,完成对所述目标数据的数据标注,实现基于规则引擎自动匹配数据标识规则来简化复杂的标注规则的生成步骤,使得标注匹配条件可以实现高度扩展,同时基于规则引擎的规则匹配满足对数据灵活标注的业务需求,实现了对数据标注的便捷性处理,从而提高数据标注的效率。
[0180]
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的数据标注方法。
[0181]
图11示出了根据本发明一个实施例提供的一种终端的结构示意图,本发明具体实
施例并不对终端的具体实现做限定。
[0182]
如图11所示,该终端可以包括:处理器(processor)602、通信接口(communications interface)604、存储器(memory)606、以及通信总线608。
[0183]
其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
[0184]
通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。
[0185]
处理器602,用于执行程序610,具体可以执行上述数据标注方法实施例中的相关步骤。
[0186]
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
[0187]
处理器602可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0188]
存储器606,用于存放程序610。存储器606可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0189]
程序610具体可以用于使得处理器602执行以下操作:
[0190]
获取待标注的目标数据;
[0191]
通过规则引擎调取与所述目标数据匹配的数据标注规则,所述规则引擎中存储有与不同数据匹配的数据标注规则;
[0192]
基于所述数据标注规则对所述目标数据进行标注,得到所述目标数据的标注结果。
[0193]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0194]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1