一种概念识别方法、装置、电子设备及介质与流程

文档序号:25098573发布日期:2021-05-18 22:28阅读:63来源:国知局
一种概念识别方法、装置、电子设备及介质与流程

1.本公开实施例涉及数据处理技术领域,尤其涉及一种概念识别方法、装置、电子设备及介质。


背景技术:

2.目前,在数据处理过程中,操作人员会把自己认为有意义的概念进行量化,作为输入数据。但是有一些潜在有意义的概念,操作人员并没有意识到,也无法被自动发现,因而不会采集而纳入处理,若仅采用现有的概念训练并形成推理网络,在后续使用过程中导致精确度不足。
3.可见,亟需一种高效自动的概念识别方法。


技术实现要素:

4.有鉴于此,本公开实施例提供一种概念识别方法、装置、电子设备及介质,至少部分解决现有技术中存在的问题。
5.第一方面,本公开实施例提供了一种概念识别方法,包括:
6.获取现有概念之间的预期关联;
7.分析输入的数据集存在的初始概念;
8.计算全部所述初始概念之间的第一实际关联;
9.判断所述预期关联与所述第一实际关联的差异是否存在指向性;
10.若所述预期关联与所述第一实际关联的差异存在指向性,则识别所述数据集中新的目标概念;
11.若所述预期关联与所述第一实际关联的差异不存在指向性,则将全部所述初始概念和所述第一实际关联形成推理网络。
12.根据本公开实施例的一种具体实现方式,所述分析输入的数据集存在的初始概念的步骤,包括:
13.识别所述数据集中的关键节点;
14.根据全部所述关键节点分别生成所述初始概念。
15.根据本公开实施例的一种具体实现方式,所述计算全部所述初始概念之间的第一实际关联的步骤,包括:
16.根据预设算法计算全部所述初始概念对应的频繁集;
17.根据全部所述频繁集形成所述第一实际关联。
18.根据本公开实施例的一种具体实现方式,所述判断所述预期关联与所述第一实际关联的差异是否存在指向性的步骤,包括:
19.计算所述预期关联与所述第一实际关联的差异度;
20.判断所述差异度是否大于阈值;
21.若所述差异度大于所述阈值,则判定所述预期关联与所述第一实际关联的差异存
在指向性;
22.若所述差异度小于或等于所述阈值,则判定所述预期关联与所述第一实际关联的差异不存在指向性。
23.根据本公开实施例的一种具体实现方式,所述若所述预期关联与所述第一实际关联的差异存在指向性,则识别所述数据集中新的目标概念的步骤,包括:
24.向所述数据集中添加一个虚拟概念;
25.根据所述虚拟概念和全部初始概念计算第二预期关联和第二实际关联;
26.判断所述第二预期关联与所述第二实际关联的差异是否存在指向性;
27.若所述第二预期关联与所述第二实际关联的差异存在指向性,则再次向所述数据集中添加新的虚拟概念;
28.若所述第二预期关联与所述第二实际关联的差异不存在指向性,则将所述虚拟概念作为所述目标概念。
29.根据本公开实施例的一种具体实现方式,所述若所述第二预期关联与所述第二实际关联的差异不存在指向性,则将所述虚拟概念作为所述目标概念的步骤之后,所述方法还包括:
30.根据所述第二实际关联,将所述目标概念和全部所述初始概念形成所述推理网络。
31.第二方面,本公开实施例提供了一种概念识别装置,包括:
32.获取模块,用于获取现有概念之间的预期关联;
33.分析模块,用于分析输入的数据集存在的初始概念;
34.计算模块,用于计算全部所述初始概念之间的第一实际关联;
35.判断模块,用于判断所述预期关联与所述第一实际关联的差异是否存在指向性;
36.用于若所述预期关联与所述第一实际关联的差异存在指向性,识别所述数据集中新的目标概念;
37.用于若所述预期关联与所述第一实际关联的差异不存在指向性,则将全部所述初始概念和所述第一实际关联形成推理网络。
38.根据本公开实施例的一种具体实现方式,所述分析模块还用于:
39.识别所述数据集中的关键节点;
40.根据全部所述关键节点分别生成所述初始概念。
41.第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
42.至少一个处理器;以及,
43.与该至少一个处理器通信连接的存储器;其中,
44.该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述第一方面或第一方面的任一实现方式中的概念识别方法。
45.第四方面,本公开实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述第一方面或第一方面的任一实现方式中的概念识别方法。
46.第五方面,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括
存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述第一方面或第一方面的任一实现方式中的概念识别方法。
47.本公开实施例中的概念识别方案,包括:获取现有概念之间的预期关联;分析输入的数据集存在的初始概念;计算全部所述初始概念之间的第一实际关联;判断所述预期关联与所述第一实际关联的差异是否存在指向性;若所述预期关联与所述第一实际关联的差异存在指向性,则识别所述数据集中新的目标概念;若所述预期关联与所述第一实际关联的差异不存在指向性,则将全部所述初始概念和所述第一实际关联形成推理网络。通过本公开的方案,根据数据集中包含的概念计算实际关联,再将实际关联与预期关联进行比对,在差异存在指向性时,进一步挖掘潜在的概念,提高了概念识别的效率和自动性。
附图说明
48.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
49.图1为本公开实施例提供的一种概念识别方法的流程示意图;
50.图2为本公开实施例提供的一种概念识别方法的部分流程示意图;
51.图3为本公开实施例提供的一种概念识别装置的结构示意图;
52.图4为本公开实施例提供的电子设备示意图。
具体实施方式
53.下面结合附图对本公开实施例进行详细描述。
54.以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
55.需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
56.还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可
能更为复杂。
57.另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
58.目前,在数据处理过程中,操作人员会把自己认为有意义的概念进行量化,作为输入数据。但是有一些潜在有意义的概念,操作人员并没有意识到,也无法被自动发现,因而不会采集而纳入处理,若仅采用现有的概念训练并形成推理网络,在后续使用过程中导致精确度不足。本公开实施例提供一种概念识别方法,所述方法可以应用于数据处理场景中的数据概念识别过程。
59.参见图1,为本公开实施例提供的一种概念识别方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
60.s101,获取现有概念之间的预期关联;
61.例如,可以根据网上下载的数据库内包含的不同的概念之间关联形成所述预期关联。
62.s102,分析输入的数据集存在的初始概念;
63.具体实施时,可以对用户输入的数据集进行分析,得到所述数据集中存在的概念,并定义为所述初始概念。
64.s103,计算全部所述初始概念之间的第一实际关联;
65.在得到所述数据集中的全部所述初始概念后,可以计算全部所述初始概念之间的第一实际关联,例如所述初始概念包括视力和时间,然后将视力和时间形成所述实际关联。
66.s104,判断所述预期关联与所述第一实际关联的差异是否存在指向性;
67.在计算得到所述实际关联后,将全部所述初始概念对应的所述实际关联与所述预期关联进行比对,判断所述预期关联与所述第一实际关联的差异是否存在指向性,从而确定下一步操作流程。
68.若所述预期关联与所述第一实际关联的差异存在指向性,则执行步骤s105,识别所述数据集中新的目标概念;
69.具体实施时,若所述预期关联与所述第一实际关联的差异存在指向性,则确定所述数据集中还存在未被发现的隐藏概念,则可以对所述数据集进行分析处理,识别出隐藏的概念作为所述目标概念。
70.若所述预期关联与所述第一实际关联的差异不存在指向性,则执行步骤s106,将全部所述初始概念和所述实际关联形成推理网络。
71.具体实施时,若所述预期关联与所述第一实际关联的差异不存在指向性,则可以确定所述数据集中的概念已被全部发现,则可以将全部所述初始概念和所述实际关联形成所述推理网络。
72.本公开实施例提供的概念识别方法,通过根据数据集中包含的概念计算实际关联,再将实际关联与预期关联进行比对,在差异存在指向性时,进一步挖掘潜在的概念,提高了概念识别的效率和自动性。
73.在上述实施例的基础上,如图2所示,步骤s102所述的,分析输入的数据集存在的初始概念,包括:
74.s201,识别所述数据集中的关键节点;
75.例如,对所述数据集中的关键节点例如数据表表头等进行识别,或者根据所述数据集中的数据类型进行分类,作为所述关键节点。
76.s202,根据全部所述关键节点分别生成所述初始概念。
77.在识别得到所述数据集中不同的关键节点后,根据全部所述关键节点分布生成每个所述关键节点对应的概念,并将生成的概念作为所述初始概念。
78.在上述实施例的基础上,步骤s103所述的,计算全部所述初始概念之间的第一实际关联,包括:
79.根据预设算法计算全部所述初始概念对应的频繁集;
80.根据全部所述频繁集形成所述第一实际关联。
81.例如,所述数据集中不同的初始概念出现的频率不同,可以根据预设算法例如apriori或fp

growth等关联模式挖掘算法,计算全部所述初始概念对应的频繁集,然后根据全部所述频繁集形成所述第一实际关联。
82.可选的,步骤s104所述的,判断所述预期关联与所述第一实际关联的差异是否存在指向性,包括:
83.计算所述预期关联与所述第一实际关联的差异度;
84.具体实施时,可以将所述数据集中的全部所述初始概念对应的实际关联与所述预期关联进行比对,计算得到所述预期关联与所述实际关联的差异度。
85.判断所述差异度是否大于阈值;
86.考虑到不同数据间会存在一定变化,可以预先设定一个阈值,然后将所述差异度与所述阈值进行比对,从而确定下一步操作流程。
87.若所述差异度大于所述阈值,则判定所述预期关联与所述第一实际关联的差异存在指向性;
88.若所述差异度小于或等于所述阈值,则判定所述预期关联与所述第一实际关联的差异不存在指向性。
89.例如,若所述预期关联与所述实际关联的差异度为10,所述阈值为5,则判定所述预期关联与所述实际关联的差异存在指向性,若所述预期关联与所述实际关联的差异度为3,所述阈值为5,则判定则判定所述预期关联与所述实际关联的差异为数据不同的正常变化,不存在指向性。当然,也可以根据实际需求对所述阈值进行调整。
90.在上述实施例的基础上,步骤s105所述的,若所述预期关联与所述第一实际关联的差异存在指向性,则识别所述数据集中新的目标概念的步骤,包括:
91.向所述数据集中添加一个虚拟概念;
92.例如,所述数据集对应的初始概念为近视和学习成绩,在所述预期关联与所述实际关联的差异存在指向性时,可以向所述数据集中添加一个所述虚拟概念例如电子游戏或者光照强度等。
93.根据所述虚拟概念和全部初始概念计算第二预期关联和第二实际关联;
94.在将所述虚拟概念加入所述数据集后,可以根据所述虚拟概念和全部初始概念计算所述第二预期关联和所述第二实际关联。
95.判断所述第二预期关联与所述第二实际关联的差异是否存在指向性;
96.在计算得到所述第二预期关联和所述第二实际关联后,再将所述第二预期关联与
所述第二实际关联进行比对,判断所述第二预期关联与所述第二实际关联的差异是否存在指向性,从而确定下一步操作流程。
97.若所述第二预期关联与所述第二实际关联的差异存在指向性,则再次向所述数据集中添加新的虚拟概念;
98.具体的,若所述第二预期关联与所述第二实际关联的差异存在指向性,则表示所述数据集中还存在未被发现的概念,可以再次向所述数据集中添加新的虚拟概念然后再次计算更新后的数据集对应的实际关联。
99.若所述第二预期关联与所述第二实际关联的差异不存在指向性,则将所述虚拟概念作为所述目标概念。
100.若所述第二预期关联与所述第二实际关联的差异不存在指向性,则表示所述虚拟数据和全部所述初始概念为所述数据集对应的全部概念,则可以将所述虚拟概念作为所述目标概念。
101.进一步的,所述若所述第二预期关联与所述第二实际关联的差异不存在指向性,则将所述虚拟概念作为所述目标概念的步骤之后,所述方法还包括:
102.根据所述第二实际关联,将所述目标概念和全部所述初始概念形成所述推理网络。
103.具体实施时,在发掘到所述数据集中新的目标概念后,可以再根据所述第二实际关联,将所述目标概念和全部所述初始概念形成所述推理网络,当然,可以将生成的推理网络进行使用,在后续过程中,可以向所述推理网络输入一个概念,所述推理推理网络根据所述第二实际关联输出该输入的概念对应的其他关联概念。
104.与上面的方法实施例相对应,参见图3,本公开实施例还提供了一种概念识别装置30,包括:
105.获取模块301,用于获取现有概念之间的预期关联;
106.分析模块302,用于分析输入的数据集存在的初始概念;
107.计算模块303,用于计算全部所述初始概念之间的第一实际关联;
108.判断模块304,用于判断所述预期关联与所述第一实际关联的差异是否存在指向性;
109.若所述预期关联与所述第一实际关联的差异存在指向性,识别所述数据集中新的目标概念;
110.若所述预期关联与所述第一实际关联的差异不存在指向性,则将全部所述初始概念和所述第一实际关联形成推理网络。
111.可选的,所述分析模块302还用于:
112.识别所述数据集中的关键节点;
113.根据全部所述关键节点分别生成所述初始概念。
114.图3所示装置可以对应的执行上述方法实施例中的内容,本实施例未详细描述的部分,参照上述方法实施例中记载的内容,在此不再赘述。
115.参见图4,本公开实施例还提供了一种电子设备40,该电子设备包括:
116.至少一个处理器;以及,
117.与该至少一个处理器通信连接的存储器;其中,
118.该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行前述方法实施例中的概念识别方法。
119.本公开实施例还提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令用于使该计算机执行前述方法实施例中的概念识别方法。
120.本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算程序,该计算机程序包括程序指令,当该程序指令被计算机执行时,使该计算机执行前述方法实施例中的概念识别方法。
121.下面参考图4,其示出了适于用来实现本公开实施例的电子设备40的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
122.如图4所示,电子设备40可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(rom)402中的程序或者从存储装置408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中,还存储有电子设备40操作所需的各种程序和数据。处理装置401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
123.通常,以下装置可以连接至i/o接口405:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备40与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种装置的电子设备40,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
124.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从rom 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
125.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其
中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
126.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
127.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
128.或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法实施例的相关步骤。
129.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
130.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
131.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
132.应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。
133.以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1