基于人工智能的数据挖掘方法及服务器与流程

文档序号:32308830发布日期:2022-11-23 10:53阅读:84来源:国知局
基于人工智能的数据挖掘方法及服务器与流程

1.本技术涉及数据挖掘、人工智能领域,具体而言,涉及一种基于人工智能的数据挖掘方法及服务器。


背景技术:

2.随着互联网技术的发展,在文本领域,经常需要将一份较长的文本进行关键信息的整理合并。例如,针对于电商平台,电商日志文本包含较多的信息,需要从中挖掘出针对某一特定商品的信息,然后整合在一起形成针对该商品的信息,如商品评价;又如针对政企业务平台,需要在冗长的业务日志中挖掘出针对于某一指定事件的信息,再整合得到指定事件的关联信息。对于业务量庞大且对时效性要求高的平台而言,文本挖掘的准确性和效率是重要的考量要素,目前,对于上述类型的文本挖掘,其准确性和效率还不能满足要求。


技术实现要素:

3.本发明的目的在于提供一种基于人工智能的数据挖掘方法及服务器,以改善上述的问题。
4.为了达到上述的目的,本技术实施例是这样实现的:本技术实施例第一方面提供了一种基于人工智能的数据挖掘方法,应用于服务器,所述方法包括:获取拟处理文本集合,将所述拟处理文本集合进行拆解,得到多个拆解文本;对所述多个拆解文本分别进行离散文本表达知识挖掘,得到所述多个拆解文本对应的离散文本表达知识,所述离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识;对所述多个拆解文本分别进行分布文本表达知识挖掘,得到所述多个拆解文本对应的分布文本表达知识,所述分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识;依据所述多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到所述多个拆解文本对应的目标文本交融表达知识;依据所述多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到所述多个拆解文本对应的文本表意知识,并依据所述文本表意知识进行文本类型预测,得到所述多个拆解文本对应的关键文本支持度;依据所述关键文本支持度从所述拟处理文本集合中确定多个文本序列,并依据所述文本表意知识确定所述多个文本序列对应的整合表意知识;依据所述多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合。
5.进一步地,所述依据所述多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合,包括:依据所述多个文本序列对应的整合表意知识进行隐藏映射,得到隐藏映射知识;通过所述隐藏映射知识和所述多个拆解文本对应的关键文本支持度进行还原映射,得到所述多个文本序列对应的目标整合表意知识;依据所述多个文本序列对应的目标整合表意知识对所述多个文本序列进行类型预测,得到所述相同文本序列集合。
6.进一步地,所述依据所述多个文本序列对应的整合表意知识进行隐藏映射,得到隐藏映射知识,包括:提取所述多个拆解文本各自对应的初始文本表达知识,从所述多个拆解文本各自对应的初始文本表达知识中确定所述多个文本序列对应的文本序列初始表达知识;将所述多个文本序列对应的文本序列初始表达知识分别与对应的整合表意知识进行融合,得到所述多个文本序列对应的目标文本融合表达知识;将所述多个文本序列对应的目标文本融合表达知识加载至映射网络的隐藏模块中进行处理,获得目标隐藏映射知识。
7.进一步地,所述依据所述多个文本序列对应的目标整合表意知识对所述多个文本序列进行类型预测,得到所述相同文本序列集合,包括:通过所述多个文本序列对应的目标整合表意知识确定所述多个文本序列之间的共性度量结果;依据所述多个文本序列之间的共性度量结果进行划簇,得到所述相同文本序列集合。
8.进一步地,所述对所述多个拆解文本分别进行离散文本表达知识挖掘,得到所述多个拆解文本对应的离散文本表达知识,所述离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识,包括:对所述多个拆解文本分别进行离散知识提取操作,得到所述多个拆解文本对应的多个过渡线性知识和收束线性知识;将所述多个过渡线性知识进行分布维数统一处理,得到所述多个拆解文本对应的多个过渡离散文本表达知识;将所述收束线性知识进行分布维数统一处理,得到所述多个拆解文本对应的收束离散文本表达知识。
9.进一步地,所述对所述多个拆解文本分别进行分布文本表达知识挖掘,得到所述多个拆解文本对应的分布文本表达知识,所述分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识,包括:提取所述多个拆解文本各自对应的初始文本表达知识;对所述多个拆解文本各自对应的初始文本表达知识进行分布知识提取操作,得到所述多个拆解文本对应的多个过渡分布文本表达知识和收束分布文本表达知识。
10.进一步地,所述过渡离散文本表达知识包括多个,所述过渡分布文本表达知识包括多个;所述依据所述多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到所述多个拆解文本对应的目标文本交融表达知识,包括:将所述多个过渡离散文本表达知识中第一过渡离散文本表达知识与所述多个过渡分布文本表达知识中对应的第一过渡分布文本表达知识进行融合,得到第一文本融合表达知识,依据所述第一文本融合表达知识进行知识提取操作,得到第一文本交融表达知识;将所述第一文本交融表达知识、所述多个过渡离散文本表达知识中第二过渡离散文本表达知识与所述多个过渡分布文本表达知识中对应的第二过渡分布文本表达知识进行融合,得到第二文本融合表达知识,依据所述第二文本融合表达知识进行知识提取操作,得到第二文本交融表达知识;当所述多个过渡离散文本表达知识和所述多个过渡分布文本表达知识均执行完毕,获得目标文本交融表达知识。
11.进一步地,所述依据所述多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到所述多个拆解文本对应的文本表意知识,并依据所述文本表意知识进行文本类型预测,得到所述多个拆解文本对应的关键文本支持度,包括:将所述多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行融合,得到所述多个拆解文本对应的目标文本融合表达知识;依据所述多个拆解文本对应的目标文本融合表达知识进行知识提取操作,得
到所述多个拆解文本对应的线性表达知识;依据所述多个拆解文本对应的线性表达知识确定所述线性表达知识中每个维数下对应的知识向量最大值和知识向量均值;对所述知识向量最大值和所述知识向量均值进行和运算,得到所述线性表达知识中每个维数下对应的表意挖掘知识向量,依据所述线性表达知识中每个维数下对应的表意挖掘知识向量,得到所述多个拆解文本对应的表意挖掘知识;将所述多个拆解文本对应的表意挖掘知识进行激活,得到所述多个拆解文本对应的文本表意知识;通过所述多个拆解文本对应的文本表意知识进行关键文本和非关键文本类型预测,得到所述多个拆解文本对应的关键文本支持度。
12.进一步地,所述方法还包括:将所述拟处理文本集合加载至文本类型预测模块中,通过所述文本类型预测模块将所述拟处理文本集合进行拆解,得到多个拆解文本;通过所述文本类型预测模块对所述多个拆解文本分别进行离散文本表达知识挖掘,得到所述多个拆解文本对应的离散文本表达知识,所述离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识;对所述多个拆解文本分别进行分布文本表达知识挖掘,得到所述多个拆解文本对应的分布文本表达知识,所述分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识;通过所述文本类型预测模块对所述多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到所述多个拆解文本对应的目标文本交融表达知识;通过所述文本类型预测模块对所述多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到所述多个拆解文本对应的文本表意知识,并依据所述文本表意知识进行文本类型预测,得到所述多个拆解文本对应的关键文本支持度;所述文本类型预测模块包括离散文本表达知识挖掘子模块、分布文本表达知识挖掘子模块、表达知识碰撞模块、文本表意知识挖掘模块和类型预测模块;所述方法还包括:将所述拟处理文本集合加载至文本类型预测模块中,通过所述文本类型预测模块将所述拟处理文本集合进行拆解,得到多个拆解文本;将所述多个拆解文本加载至所述离散文本表达知识挖掘子模块中进行分布文本表达知识挖掘,获得过渡离散文本表达知识和收束离散文本表达知识;并将所述多个拆解文本加载至所述分布文本表达知识挖掘子模块中进行分布文本表达知识挖掘,获得过渡分布文本表达知识和收束分布文本表达知识;并将多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识加载至所述表达知识碰撞模块中进行表达知识碰撞,得到所述多个拆解文本对应的目标文本交融表达知识;将所述多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识加载至所述文本表意知识挖掘模块进行表意知识挖掘,得到所述多个拆解文本对应的文本表意知识,并将所述文本表意知识加载至所述类型预测模块进行文本类型预测,得到所述多个拆解文本对应的关键文本支持度。
13.本技术实施例第二方面提供了一种服务器,包括处理器和存储器,所述存储器存储有计算机程序,当所述处理器执行所述计算机程序时,执行以上所述的方法。
14.本技术实施例提供的基于人工智能的数据挖掘方法及服务器,通过将拟处理文本集合进行拆解,得到多个拆解文本,然后对多个拆解文本分别进行离散文本表达知识挖掘,得到过渡离散文本表达知识和收束离散文本表达知识,以及对多个拆解文本分别进行分布文本表达知识挖掘,得到过渡分布文本表达知识和收束分布文本表达知识,再通过多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到多
个拆解文本对应的目标文本交融表达知识,以上采用表达知识碰撞使得获得的目标文本交融表达知识涵盖了离散和分布间彼此填补的信息。接着,通过多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到多个拆解文本对应的文本表意知识,如此,令挖掘到的文本表意知识可以兼顾离散内容和分布内容,并且令挖掘到的文本表意知识可以尽可能维持文本初始特征。接着,依据文本表意知识进行文本类型预测,得到多个拆解文本对应的关键文本支持度,这样可以提升文本类型预测的精确度和可靠性。再然后,依据关键文本支持度从拟处理文本集合中确定多个文本序列,并依据文本表意知识确定多个文本序列对应的整合表意知识;依据多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合,如此,增加了进行文本序列类型预测的精确度和可靠性,增加了获得的相同文本序列集合的精确度和可靠性。
15.在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本技术实施例提供的一种基于人工智能的数据挖掘方法的流程图。
17.图2是本技术实施例提供的数据挖掘装置的功能模块架构示意图。
具体实施方式
18.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
19.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
20.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
21.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
22.本技术实施例中基于人工智能的数据挖掘方法的执行主体为服务器,例如可以是单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。服务器包含计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应的内容。服务器还包括处理器以及存储器,存储器用于存储处理器的可执行指令,处理器执行所述可执行指令来执行本技术实施例提供的基于人工智能的数据挖掘方法。
23.请参照图1,是本技术实施例提供的基于人工智能的数据挖掘方法的流程图,该方法包括以下步骤:步骤s1,获取拟处理文本集合,将拟处理文本集合进行拆解,得到多个拆解文本。
24.其中,拟处理文本集合是需要进行文本挖掘并整理得到相同文本的文本集合,需要说明的是,文本集合的意思是该文本由多个文本篇章或段落等构成,形成的一个文本集合,例如针对电商平台,可以是按照日期进行统计的电商文本日志的组合文本,或者,例如针对政企平台,拟处理文本集合是一系列的业务日志构建的文本组合,又或者,例如针对数据安防领域,拟处理文本集合是多个数据安防报告文本组合在一起的集合,抑或是针对点评平台,拟处理文本集合是多个用户针对同一店铺进行不同菜品点评,形成的点评文本集合。拆解文本是拟处理文本集合中的文本拆解结果,例如按照日志日期、文本章节、文本段落进行拆解得到的各个文本团。这些文本可以是服务器按照预设的周期从终端设备采集并存储下来的,也可以是需要进行上述需求的需求提供方发送给服务器。服务器对拟处理文本集合的拆解,除了可以是按照日志日期、章节分割、段落等,还可以是按照预设的文本长度进行等分的,本技术实施例对此不做限定。
25.步骤s2,对多个拆解文本分别进行离散文本表达知识挖掘,得到多个拆解文本对应的离散文本表达知识,离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识。
26.离散文本表达知识是通过离散型表示方式挖掘到的文本表达知识,文本表达知识是基于ai专家模型进行挖掘得到的特征向量,离散型表示方式可以基于诸如one-hot独热编码、bow词袋模型、tf-idf模型等模型对文本挖掘的方式,其是对文本整体进行编码的过程,获得的文本表达知识表示整个文本的特征信息,无法衡量文本中词之间的关系。过渡离散文本表达知识是在进行收束离散文本表达知识挖掘的过程中获得的表意知识,收束离散文本表达知识是最终挖掘获得的拆解文本对应的离散文本表达知识,表意知识是对文本进行含义解释的特征信息。
27.例如,可以对拆解文本进行多次知识提取操作(如反复进行卷积计算),每次知识提取操作得到过渡离散文本表达知识,将过渡离散文本表达知识确定为后一次知识提取操作的输入数据,直至完成知识提取操作,将末尾一次知识提取操作的结果确定为收束离散文本表达知识。对每一个拆解文本均进行离散文本表达知识挖掘,获得每个拆解文本对各自对应的过渡离散文本表达知识和收束离散文本表达知识。
28.步骤s3,对多个拆解文本分别进行分布文本表达知识挖掘,得到多个拆解文本对应的分布文本表达知识,分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识。
29.分布文本表达知识是通过分布型表示方式挖掘到的表意知识,分布表示方式可以基于诸如n-gram、word2vec、glove、elmo等算法对文本挖掘的方式,其在文本挖掘过程中,考虑到文本中句子词序等上下文信息,具备更强的逻辑表达能力。过渡分布文本表达知识是在收束分布文本表达知识挖掘时挖掘到的表意知识,收束分布文本表达知识是最后挖掘获得的拆解文本对应的表意知识。
30.例如,可以对拆解文本进行多次知识提取操作,每次知识提取操作输出过渡分布文本表达知识,将过渡分布文本表达知识确定为后一次知识提取操作的输入数据直至完成知识提取操作,将末尾一次知识提取操作的结果确定为收束分布文本表达知识。对每个拆解文本都进行分布文本表达知识挖掘,获得每个拆解文本对各自对应的过渡分布文本表达知识和收束分布文本表达知识。
31.步骤s4,依据多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到多个拆解文本对应的目标文本交融表达知识。
32.表达知识碰撞是将过渡离散文本表达知识和对应的过渡分布文本表达知识进行文本知识的交互,互相找补以增加文本分析的可靠性,挖掘出更加完善的表意知识。目标文本交融表达知识是离散表意知识和分布表意知识碰撞之后获得的表意知识。例如,通过拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行融合,获得拆解文本对应的目标文本交融表达知识,对每个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识均进行融合,获得每个拆解文本对应的目标文本交融表达知识。
33.步骤s5,依据多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到多个拆解文本对应的文本表意知识,并依据文本表意知识进行文本类型预测,得到多个拆解文本对应的关键文本支持度。
34.文本表意知识是将离散表意知识、分布表意知识以及文本交融表达知识进行整合后获得的表意知识,每个拆解文本均包含对应的文本表意知识。文本类型预测为对文本进行是否为关键文本的类型预测,预测结果包括关键文本和非关键文本,可以理解,关键文本为表意内容对应的文本,非关键文本为表意内容之外的文本。关键文本支持度是指示对应的拆解文本为关键文本的概率的,关键文本支持度越大,对应的拆解文本是关键文本的概率越大。例如,通过每个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行文本表意知识整合计算,获得整合表意知识后的知识,也就获得每个拆解文本对应的文本表意知识。再通过文本表意知识进行类型预测,确定该拆解文本是关键文本还是非关键文本,确定每个拆解文本对应的关键文本支持度。
35.步骤s6,依据关键文本支持度从拟处理文本集合中确定多个文本序列,并依据文本表意知识确定多个文本序列对应的整合表意知识。
36.文本序列为由多个连续的关键文本进行融合获得的文本组合,该关键文本是关键文本支持度大于预设关键文本支持度的拆解文本,预设关键文本支持度为事先据实而定的拆解文本为关键文本时的数值,整合表意知识代表文本序列的表意知识,是基于各个关键文本对应的文本表意知识融合获得的。例如,将每个拆解文本对应的关键文本支持度与预设关键文本支持度进行比较,当关键文本支持度超过预设关键文本支持度时,该关键文本支持度对应的拆解文本为关键文本。然后依据文本位置顺序将拟处理文本集合中可以相连的关键文本融合为文本序列,得到多个文本序列,接着将文本序列中每个关键文本对应的
文本表意知识进行融合,得到文本序列对应的整合表意知识,对每一个文本序列均执行,得到每个文本序列对应的整合表意知识。
37.步骤s7,依据多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合。
38.文本序列类型预测用于确定文本序列是否是相同文本序列,相同文本序列集合中包括各个相同文本序列,相同文本序列为匹配度大于预设匹配度的文本序列,例如,匹配度大于预设匹配度的多个文本序列时,可以是在点评平台上,针对同一家店铺的同一个菜品不同的点评者进行点评的文本段落集合,或者,可以是在电商平台上,针对同一卖家的同一商品不同的消费者进行的评价的文本集合,或者仍是在电商平台上,针对同一系列的同一单品不同时期的商品描述信息进行整合后得到的文本信息集合。
39.可以通过多个文本序列对应的整合表意知识对多个文本序列进行分团(例如基于预设算法,获取知识间的向量距离来进行相似性划分,预设算法可以参考诸如k-means等聚类算法),得到一个及以上的相同文本序列集合。
40.上述基于人工智能的数据挖掘方法,通过将拟处理文本集合进行拆解,得到多个拆解文本,然后对多个拆解文本分别进行离散文本表达知识挖掘,得到过渡离散文本表达知识和收束离散文本表达知识,以及对多个拆解文本分别进行分布文本表达知识挖掘,得到过渡分布文本表达知识和收束分布文本表达知识,再通过多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到多个拆解文本对应的目标文本交融表达知识,以上采用表达知识碰撞使得获得的目标文本交融表达知识涵盖了离散和分布间彼此填补的信息。接着,通过多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到多个拆解文本对应的文本表意知识,如此,令挖掘到的文本表意知识可以兼顾离散内容和分布内容,并且令挖掘到的文本表意知识可以尽可能维持文本初始特征。接着,依据文本表意知识进行文本类型预测,得到多个拆解文本对应的关键文本支持度,这样可以提升文本类型预测的精确度和可靠性。再然后,依据关键文本支持度从拟处理文本集合中确定多个文本序列,并依据文本表意知识确定多个文本序列对应的整合表意知识;依据多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合,如此,增加了进行文本序列类型预测的精确度和可靠性,增加了获得的相同文本序列集合的精确度和可靠性。
41.作为一种可执行的实施方式,对于步骤s7中,依据多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合,具体可以包括如下步骤:步骤s71,依据多个文本序列对应的整合表意知识进行隐藏映射,得到隐藏映射知识。
42.隐藏映射即通过映射网络中的encoder模块进行编码处理,本技术实施例中提供的映射网络是通过在机器翻译模型的架构上搭建获得的,其中,隐藏映射知识为进行隐藏映射后获得的整合表意知识的编码向量。映射网络的调试过程可以是通过对预设的映射网络进行参数优化,优化达到收敛条件,即完成调试,优化过程中涉及到样本数据及样本数据对应的标记信息,将样本数据加载到映射网络进行编码,获取结果与标记信息之间的损失,通过损失优化相应的参数,反复调试直至网络收敛。当然,本技术实施例中,也可以在开放的途径获取现有的映射网络作为该映射网络。
43.步骤s72,通过隐藏映射知识和多个拆解文本对应的关键文本支持度进行还原映射,得到多个文本序列对应的目标整合表意知识。
44.还原映射为通过映射网络中的decoder模块进行解码操作的过程,例如,从多个拆解文本对应的关键文本支持度中获取到当前文本序列对应的拆解文本的关键文本支持度,再将当前文本序列对应的隐藏映射知识和当前文本序列对应的拆解文本的关键文本支持度加载至映射网络的decoder模块中解码,获得当前文本序列对应的目标整合表意知识。对每个文本序列均执行完毕,得到全部文本序列对应的目标整合表意知识。
45.步骤s73,依据多个文本序列对应的目标整合表意知识对多个文本序列进行类型预测,得到相同文本序列集合。
46.例如,可以通过kmeans算法对多个文本序列对应的目标整合表意知识进行分团,得到分团后的多个文本序列,将各个类型的文本序列确定为相同文本序列,获得该类型的文本序列集合。
47.作为一种实施方式,映射网络的组成可以是沿用经典的机器翻译模型架构,具体可以包括输入、编码模块、解码模块和输出。编码模块即上述的隐藏模块,作为经典配置,其包含6个encoder,与之对应的,解码模块中包括6个decoder。encoder包括multi-head attention 模块和feed forward network 模块,decoder包括masked multi-head attention 模块、multi-head attention 模块和feed forward network 模块,模块间穿插防止网络退化的resnet模块和提高调试速度的normalize模块,通过将多个文本序列对应的整合表意知识加载至隐藏模块中进行处理,获得多个文本序列对应的隐藏映射知识,再将多个文本序列对应的隐藏映射知识以及多个拆解文本对应的关键文本支持度加载至解码模块中进行解码,获得多个文本序列对应的目标整合表意知识。也就是说,通过多个拆解文本对应的关键文本支持度作为解码模块一致的输入数据,可以直接学习文本类型确定的数据,提高映射网络输出表意知识的表意能力。
48.作为一种可执行的实施方式,对于步骤s71,依据多个文本序列对应的整合表意知识进行隐藏映射,得到隐藏映射知识,具体可以包括:挖掘多个拆解文本各自对应的初始文本表达知识,从多个拆解文本各自对应的初始文本表达知识中确定多个文本序列对应的文本序列初始表达知识;将多个文本序列对应的文本序列初始表达知识分别与对应的整合表意知识进行融合,得到多个文本序列对应的目标文本融合表达知识;将多个文本序列对应的目标文本融合表达知识加载至映射网络的隐藏模块中进行处理,获得目标隐藏映射知识。
49.初始文本表达知识为文本最原始的特征信息,文本序列初始表达知识为文本序列对应的初始文本表达知识,是将文本序列对应的多个拆解文本的初始文本表达知识进行融合获得的,目标文本融合表达知识为融合了原始的特征信息后的知识向量,目标隐藏映射知识为融合了原始的特征信息后的隐藏映射知识。
50.例如,挖掘多个拆解文本各自对应的初始文本表达知识,再将每个文本序列对应的拆解文本的初始文本表达知识进行融合,获得每个文本序列对应的文本序列初始表达知识,其中,可以是将每个文本序列对应的拆解文本的初始文本表达知识进行衔尾,知乎将每个文本序列对应的文本序列初始表达知识分别与每个文本序列对应的整合表意知识进行衔尾,获得每个文本序列对应的目标文本融合表达知识,接着将每个文本序列对应的目标
文本融合表达知识逐一加载至映射网络的隐藏模块中进行处理,获得目标隐藏映射知识。
51.基于此,本技术实施例采用将文本序列初始表达知识各自与对应的整合表意知识进行融合后进行处理,可以提高输出的目标隐藏映射知识的精确度和可靠性,以提升获得的目标整合表意知识的精确度和可靠性。
52.作为一种可执行的实施方式,步骤s73中,依据多个文本序列对应的目标整合表意知识对多个文本序列进行类型预测,得到相同文本序列集合,具体可以包括:通过多个文本序列对应的目标整合表意知识确定多个文本序列之间的共性度量结果;依据多个文本序列之间的共性度量结果进行划簇,得到相同文本序列集合。
53.共性度量结果反映的是多个文本序列之间的相似程度,共性度量结果可以基于获取向量间的距离或夹角来评估,距离越小,或夹角越小,则二者的相似程度越高,即共性度量结果越大。例如,通过每个文本序列对应的目标整合表意知识,从多个文本序列对应的目标整合表意知识获取第一目标整合表意知识和第二目标整合表意知识,然后确定第一目标整合表意知识和第二目标整合表意知识之间的共性度量结果,确定全部的目标整合表意知识之间的共性度量结果,之后将全部的共性度量结果进行划簇(分类),将共性度量结果大于预设值的目标整合表意知识对应的文本序列整合为相同文本序列集合。如此一来,通过确定共性度量结果进行划簇,可以不用限制在对中心向量进行确定的过程上,这样可以提升获得的相同文本序列集合的速度、精确度和可靠度。
54.作为一种可执行的实施方式,对于步骤s2中,对多个拆解文本分别进行离散文本表达知识挖掘,得到多个拆解文本对应的离散文本表达知识,离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识,具体可以包括:对多个拆解文本分别进行离散知识提取操作,得到多个拆解文本对应的多个过渡线性知识和收束线性知识;将多个过渡线性知识进行分布维数统一处理,得到多个拆解文本对应的多个过渡离散文本表达知识;将收束线性知识进行分布维数统一处理,得到多个拆解文本对应的收束离散文本表达知识。
55.本技术实施例中,离散知识提取操作是用于获取文本离散表达知识的知识提取操作(例如卷积计算),收束线性知识为末尾一次知识提取操作获得的知识向量,过渡线性知识为除末尾一次知识提取操作外的余下知识提取操作获得的知识向量,分布维数统一处理是将离散文本表达知识转换成和分布文本表达知识相同维数的处理方式。
56.例如,对每个拆解文本各自进行离散知识提取操作,得到每个拆解文本对应的多个过渡线性知识和末尾一次知识提取操作获得的收束线性知识,再将每个过渡线性知识进行分布维数统一处理,得到多个拆解文本对应的多个过渡离散文本表达知识,同时将收束线性知识进行分布维数统一处理,得到多个拆解文本对应的收束离散文本表达知识。
57.作为一种可执行的实施方式,对于步骤s3中,对多个拆解文本分别进行分布文本表达知识挖掘,得到多个拆解文本对应的分布文本表达知识,分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识,可以具体包括:挖掘多个拆解文本各自对应的初始文本表达知识;对多个拆解文本各自对应的初始文本表达知识进行分布知识提取操作,得到多个拆解文本对应的多个过渡分布文本表达知识和收束分布文本表达知识。其中,分布知识提取操作是用于获取文本分布表达知识的知识提取操作例如,挖掘到每个拆解文本各自对应的初始文本表达知识,再对每个初始文本表达知识各自进行多次的分布知识提
取操作(如卷积计算),分布知识提取操作的次数和离散知识提取操作的次数一致,末尾一次分布知识提取操作得到收束分布文本表达知识,剩下的分布知识提取操作得到过渡分布文本表达知识,最后获得多个拆解文本对应的多个过渡分布文本表达知识和收束分布文本表达知识。如此,通过挖掘多个拆解文本各自对应的初始文本表达知识;再通过初始文本表达知识进行分布知识提取操作,得到多个拆解文本对应的多个过渡分布文本表达知识和收束分布文本表达知识,可以增加获得的分布文本表达知识的精确度和可靠性。
58.作为一种可执行的实施方式,过渡离散文本表达知识包括多个,过渡分布文本表达知识包括多个;对于步骤s4中,依据多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到多个拆解文本对应的目标文本交融表达知识,可以具体包括:步骤s41,将多个过渡离散文本表达知识中第一过渡离散文本表达知识与多个过渡分布文本表达知识中对应的第一过渡分布文本表达知识进行融合,得到第一文本融合表达知识,依据第一文本融合表达知识进行知识提取操作,得到第一文本交融表达知识。
59.文本融合表达知识是将知识向量进行拼接或相加获得的,文本交融表达知识是进行表达知识碰撞之后获得的。例如,得到第一过渡离散文本表达知识和对应的第一过渡分布文本表达知识,该第一过渡离散文本表达知识和对应的第一过渡分布文本表达知识均为基于首次知识提取操作(例如通过首个卷积单元)获得的,接着将第一过渡离散文本表达知识和对应的第一过渡分布文本表达知识进行拼接(如在维数上),得到第一文本融合表达知识,最后对第一文本融合表达知识进行知识提取操作获得第一文本交融表达知识。
60.步骤s42,将第一文本交融表达知识、多个过渡离散文本表达知识中第二过渡离散文本表达知识与多个过渡分布文本表达知识中对应的第二过渡分布文本表达知识进行融合,得到第二文本融合表达知识,依据第二文本融合表达知识进行知识提取操作,得到第二文本交融表达知识。
61.例如,执行过渡离散文本表达知识和过渡分布文本表达知识的融合时,将上一次获得的第一文本交融表达知识同时进行融合以得到第二文本融合表达知识,再对第二文本融合表达知识进行知识提取操作(例如基于卷积的),得到第二文本交融表达知识。
62.步骤s43,当多个过渡离散文本表达知识和多个过渡分布文本表达知识均执行完毕,获得目标文本交融表达知识。
63.例如,逐个对每个过渡离散文本表达知识和对应的过渡分布文本表达知识进行表达知识碰撞,得到上次的文本交融表达知识,与当前的过渡离散文本表达知识和过渡分布文本表达知识进行融合,再通过卷积系数对文本融合表达知识进行知识提取操作,获得当前文本交融表达知识,当末尾一次进行表达知识碰撞时,将文本交融表达知识与最终的过渡离散文本表达知识和最终的过渡分布文本表达知识进行融合,得到最终的文本融合表达知识,之后将最终的文本融合表达知识进行知识提取操作,获得目标文本融合表达知识。基于此,通过将过渡离散文本表达知识和对应的过渡分布文本表达知识进行表达知识碰撞,使得离散和分布知识得到互相补充,且使得上层模块获知下层模块的信息,进一步使获得的目标文本融合表达知识准确可靠。
64.作为一种可执行的实施方式,对于步骤s5中,依据多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到
多个拆解文本对应的文本表意知识,并依据文本表意知识进行文本类型预测,得到多个拆解文本对应的关键文本支持度,具体可以包括如下步骤:步骤s51,将多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行融合,得到多个拆解文本对应的目标文本融合表达知识。
65.步骤s52,依据多个拆解文本对应的目标文本融合表达知识进行知识提取操作,得到多个拆解文本对应的线性表达知识。
66.目标文本融合表达知识为将收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行融合后获得的表达知识,线性表达知识为对目标文本融合表达知识进行知识提取操作获得的。
67.例如,逐个将每个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识在维数上进行拼接,获得每个拆解文本对应的目标文本融合表达知识,之后将每个拆解文本对应的目标文本融合表达知识加载至一卷积单元,进行知识提取操作得到每个拆解文本对应的线性表达知识。
68.步骤s53,依据多个拆解文本对应的线性表达知识确定线性表达知识中每个维数下对应的知识向量最大值和知识向量均值。
69.步骤s54,对知识向量最大值和知识向量均值进行和运算,得到线性表达知识中每个维数下对应的表意挖掘知识向量,依据线性表达知识中每个维数下对应的表意挖掘知识向量,得到多个拆解文本对应的表意挖掘知识。
70.知识向量最大值为该维数下对应的全部知识向量中的知识向量最大值,知识向量均值为该维数下对应的全部知识向量的均值,表意挖掘知识向量为挖掘获得的表示文本表意知识的知识向量。
71.例如,逐个确定每个拆解文本对应的表意挖掘知识,获取目下要确定的拆解文本对应的线性表达知识,再确定该线性表达知识中每个维数下对应的知识向量最大值和知识向量均值,即确定每个维数下对应的全部知识向量的知识向量均值和知识向量最大值。接着,对知识向量最大值和知识向量均值进行和运算,得到线性表达知识中每个维数下对应的表意挖掘知识向量,将每个维数下对应的表意挖掘知识向量确定为当前拆解文本对应的表意挖掘知识。
72.步骤s55,将多个拆解文本对应的表意挖掘知识进行激活,得到多个拆解文本对应的文本表意知识。
73.步骤s56,通过多个拆解文本对应的文本表意知识进行关键文本和非关键文本类型预测,得到多个拆解文本对应的关键文本支持度。
74.例如,逐个将每个拆解文本对应的表意挖掘知识通过激活函数(如relu函数)进行激活,得到多个拆解文本对应的文本表意知识,再依据文本表意知识采用归一化指数函数(如softmax函数)进行关键文本和非关键文本类型预测,得到多个拆解文本对应的关键文本支持度。如此,通过确定知识向量最大值与知识向量均值,采用知识向量最大值与知识向量均值得到表意挖掘知识,知识向量最大值可以代表最佳表征信息,知识向量均值可以代表整体均衡信息,令挖掘获得的文本表意知识具备高精确度和可靠性,最后通过文本表意知识进行类型预测,这样增加了获得的关键文本支持度的精确度和可靠性。
75.作为一种可执行的实施方式,基于人工智能的数据挖掘方法还包括:
步骤s10,将拟处理文本集合加载至文本类型预测模块中,通过文本类型预测模块将拟处理文本集合进行拆解,得到多个拆解文本。
76.步骤s20,通过文本类型预测模块对多个拆解文本分别进行离散文本表达知识挖掘,得到多个拆解文本对应的离散文本表达知识,离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识;对多个拆解文本分别进行分布文本表达知识挖掘,得到多个拆解文本对应的分布文本表达知识,分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识。
77.步骤s30,通过文本类型预测模块对多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到多个拆解文本对应的目标文本交融表达知识。
78.步骤s40,通过文本类型预测模块对多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到多个拆解文本对应的文本表意知识,并依据文本表意知识进行文本类型预测,得到多个拆解文本对应的关键文本支持度。
79.文本类型预测模块用于对文本集合进行关键信息和非关键信息类型预测,其是事先调试获得的,该文本类型预测模块的基础架构可以是cnn、rnn、fcnn等,具体地,文本类型预测模块可以通过文本集合样本和携带的标记信息进行调试,例如,获取拟处理文本集合,将拟处理文本集合加载至文本类型预测模块中,文本类型预测模块可以包含两个子模块,通过两个子模块同时挖掘拟处理文本集合对应的收束分布文本表达知识和收束离散文本表达知识,同时进行表达知识碰撞,令挖掘获得的过渡分布文本表达知识和过渡离散文本表达知识进行表达知识碰撞,获得目标文本交融表达知识,之后基于获得的收束分布文本表达知识、收束离散文本表达知识和目标文本交融表达知识挖掘表意知识,通过挖掘获得的表意知识进行文本类型预测。基于此,通过文本类型预测模块来进行文本类型预测,得到多个拆解文本对应的关键文本支持度,可以提升文本类型预测的速度。
80.作为一种可执行的实施方式,文本类型预测模块包括离散文本表达知识挖掘子模块、分布文本表达知识挖掘子模块、表达知识碰撞模块、文本表意知识挖掘模块和类型预测模块;基于人工智能的数据挖掘方法还可以包括:步骤s100,将拟处理文本集合加载至文本类型预测模块中,通过文本类型预测模块将拟处理文本集合进行拆解,得到多个拆解文本。
81.步骤s200,将多个拆解文本加载至离散文本表达知识挖掘子模块中进行分布文本表达知识挖掘,获得过渡离散文本表达知识和收束离散文本表达知识。
82.步骤s300,并将多个拆解文本加载至分布文本表达知识挖掘子模块中进行分布文本表达知识挖掘,获得过渡分布文本表达知识和收束分布文本表达知识。
83.步骤s400,并将多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识加载至表达知识碰撞模块中进行表达知识碰撞,得到多个拆解文本对应的目标文本交融表达知识。
84.步骤s500,将多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识加载至文本表意知识挖掘模块进行表意知识挖掘,得到多个拆解文本对应的文本表意知识,并将文本表意知识加载至类型预测模块进行文本类型预测,
得到多个拆解文本对应的关键文本支持度。
85.离散文本表达知识挖掘子模块用于对文本的离散文本表达知识进行挖掘,分布文本表达知识挖掘子模块用于对文本的分布文本表达知识进行挖掘。表达知识碰撞模块用于对过渡分布文本表达知识和过渡离散文本表达知识进行表达知识碰撞。文本表意知识挖掘模块用于挖掘文本的表意知识,类型预测模块用于进行关键信息和非关键信息的类别预测。
86.例如,将多个拆解文本加载至离散文本表达知识挖掘子模块中进行分布文本表达知识挖掘,也就是采用离散文本表达知识挖掘子模块中的卷积单元输出离散文本表达知识,其中末尾的卷积单元输出收束离散文本表达知识,而其余的卷积单元输出过渡离散文本表达知识,以及将多个拆解文本加载至分布文本表达知识挖掘子模块中进行分布文本表达知识挖掘,也就是采用分布文本表达知识挖掘子模块中的卷积单元输出分布文本表达知识,其中末尾的卷积单元输出收束分布文本表达知识,而其余的卷积单元输出过渡分布文本表达知识。可以理解,离散文本表达知识挖掘子模块和分布文本表达知识挖掘子模块中,卷积次数一致。采用表达知识碰撞模块对过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,获得目标文本交融表达知识,再通过文本表意知识挖掘模块进行文本表意知识挖掘,再依据类型预测模块进行文本类型预测,获得多个拆解文本对应的关键文本支持度。
87.作为一种实施方式,文本类型预测模块可以包括一个主干网络和两个分别对应离散和分布表达的分支网络,文本类型预测模块获取拟处理文本集合,分别加载到两个分支网络,进行多次卷积、池化后得到收束离散文本表达知识和收束分布文本表达知识,收束分布文本表达知识和收束离散文本表达知识具有相同维数。
88.作为一种可执行的实施方式,文本类型预测模块的调校过程包括如下步骤:步骤t1,获取文本集合样本和携带的标记信息。
89.其中,文本集合样本为调校时采用的文本集合,标记信息为文本集合样本对应指示性信息,例如指示关键信息或非关键信息,文本集合样本每个文本均可以携带标记信息。
90.步骤t2,将文本集合样本加载至待调试文本类型预测模块中,通过待调试文本类型预测模块将文本集合样本进行拆解,得到各个调试拆解文本。
91.步骤t3,通过待调试文本类型预测模块对各个调试拆解文本分别进行离散文本表达知识挖掘,得到各个调试拆解文本对应的原始离散文本表达知识,原始离散文本表达知识包括原始过渡离散文本表达知识和原始收束离散文本表达知识;对各个调试拆解文本分别进行分布文本表达知识挖掘,得到各个调试拆解文本对应的原始分布文本表达知识,原始分布文本表达知识包括原始过渡分布文本表达知识和原始收束分布文本表达知识。
92.步骤t4,通过待调试文本类型预测模块对各个调试拆解文本对应的原始过渡离散文本表达知识和原始过渡分布文本表达知识进行表达知识碰撞,得到各个调试拆解文本对应的原始文本交融表达知识。
93.步骤t5,通过待调试文本类型预测模块对各个调试拆解文本对应的原始收束离散文本表达知识、原始收束分布文本表达知识和原始文本交融表达知识进行表意知识挖掘,得到各个调试拆解文本对应的原始文本表意知识,并依据原始文本表意知识进行文本类型预测,得到各个调试拆解文本对应的原始关键文本支持度。
94.调试拆解文本为调试时拆解获得的拆解文本,原始离散文本表达知识为通过待优化的系数挖掘获得的离散文本表达知识。原始分布文本表达知识为通过待优化的系数挖掘获得的分布文本表达知识,原始关键文本支持度为通过待优化的系数预测获得的关键文本支持度。例如,基于神经网络建立待调试文本类型预测模块,再通过待调试文本类型预测模块对文本集合样本进行首次文本类型预测,获得各个调试拆解文本对应的原始关键文本支持度,待调试文本类型预测模块进行文本类型预测的和调试完成的文本类型预测模块的过程是一样的。
95.步骤t6,依据各个调试拆解文本对应的原始关键文本支持度和文本集合样本携带的标记信息确定误差信息,得到误差结果,依据误差结果优化待调试文本类型预测模块,得到优化文本类型预测模块。
96.步骤t7,将优化文本类型预测模块确定为待调试文本类型预测模块,迭代进行优化的过程直至收敛,得到文本类型预测模块。
97.基于此,通过文本集合样本和携带的标记信息对待调试文本类型预测模块进行调试,获得文本类型预测模块,独自搭建文本类型预测模块调试,可以针对性调试以保证调试的准确度,从而提升获得的文本类型预测模块的精确度和可靠性,最终提升文本集合处理的精确度和可靠性。
98.例如,搭建待调试的文本集合处理网络,采用调试样本对待调试的文本集合处理网络进行调试得到文本集合处理网络,采用文本集合处理网络将拟处理文本集合进行拆解,得到多个拆解文本,对多个拆解文本分别进行离散文本表达知识挖掘,得到多个拆解文本对应的离散文本表达知识,离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识,对多个拆解文本分别进行分布文本表达知识挖掘,得到多个拆解文本对应的分布文本表达知识,分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识,依据多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到多个拆解文本对应的目标文本交融表达知识,依据多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到多个拆解文本对应的文本表意知识,并依据文本表意知识进行文本类型预测,得到多个拆解文本对应的关键文本支持度,依据关键文本支持度从拟处理文本集合中确定多个文本序列,并依据文本表意知识确定多个文本序列对应的整合表意知识,依据多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合。
99.作为一种实施方式,该基于人工智能的数据挖掘方法通过服务器执行,该方法包括:步骤s1000,获取拟处理文本集合,将拟处理文本集合加载至文本类型预测模块中,通过文本类型预测模块将拟处理文本集合进行拆解,得到多个拆解文本,文本类型预测模块包括离散文本表达知识挖掘子模块、分布文本表达知识挖掘子模块、表达知识碰撞模块、文本表意知识挖掘模块和类型预测模块。
100.步骤s2000,将多个拆解文本加载至离散文本表达知识挖掘子模块中进行离散知识提取操作,得到多个拆解文本对应的过渡线性知识和收束线性知识,将过渡线性知识和收束线性知识进行分布维数统一处理,得到多个拆解文本对应的过渡离散文本表达知识和标离散文本表达知识。
101.步骤s3000,提取多个拆解文本各自对应的初始文本表达知识,将多个拆解文本各自对应的初始文本表达知识加载至分布文本表达知识挖掘子模块中进行分布知识提取操作,得到多个拆解文本对应的过渡分布文本表达知识和收束分布文本表达知识。同时将过渡离散文本表达知识与过渡分布文本表达知识进行融合,得到第一文本融合表达知识,依据第一文本融合表达知识进行知识提取操作,得到目标文本交融表达知识。
102.步骤s4000,将多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识加载至文本表意知识挖掘模块中进行融合,得到多个拆解文本对应的目标文本融合表达知识,依据多个拆解文本对应的目标文本融合表达知识进行知识提取操作,得到多个拆解文本对应的线性表达知识,依据多个拆解文本对应的线性表达知识确定线性表达知识中每个维数下对应的知识向量最大值和知识向量均值,以及对知识向量最大值和知识向量均值进行和运算,得到线性表达知识中每个维数下对应的表意挖掘知识向量,依据线性表达知识中每个维数下对应的表意挖掘知识向量,得到多个拆解文本对应的表意挖掘知识。
103.步骤s5000,将文本表意知识加载至类型预测模块进行关键文本和非关键文本类型预测,得到多个拆解文本对应的关键文本支持度。依据多个拆解文本对应的关键文本支持度从拟处理文本集合中确定多个文本序列,并依据文本表意知识确定多个文本序列对应的整合表意知识。
104.步骤s6000,将多个文本序列对应的整合表意知识加载至映射网络的隐藏模块进行隐藏映射,得到多个文本序列对应的隐藏映射知识,以及将多个文本序列对应的隐藏映射知识和对应的关键文本支持度加载至映射网络的解码模块进行还原映射,获得多个文本序列对应的目标整合表意知识。
105.步骤s7000,通过多个文本序列对应的目标整合表意知识确定多个文本序列之间的共性度量结果,依据多个文本序列之间的共性度量结果进行划簇,获得相同文本序列集合。
106.相关技术内容已经在前述的其他实施方式中进行说明,此处不再进行赘述。
107.基于与图1中所示方法相同的原理,本技术实施例中还提供了一种数据挖掘装置10,该数据挖掘装置10可以是运行于服务器中的一个计算机程序(包括程序代码),也可以是包含在服务器中的一个实体装置,如图2所示,该装置10包括:文本拆解模块11,用于获取拟处理文本集合,将所述拟处理文本集合进行拆解,得到多个拆解文本。
108.离散知识挖掘模块12,用于对所述多个拆解文本分别进行离散文本表达知识挖掘,得到所述多个拆解文本对应的离散文本表达知识,所述离散文本表达知识包括过渡离散文本表达知识和收束离散文本表达知识。
109.分布知识挖掘模块13,用于对所述多个拆解文本分别进行分布文本表达知识挖掘,得到所述多个拆解文本对应的分布文本表达知识,所述分布文本表达知识包括过渡分布文本表达知识和收束分布文本表达知识。
110.知识碰撞模块14,用于依据所述多个拆解文本对应的过渡离散文本表达知识和过渡分布文本表达知识进行表达知识碰撞,得到所述多个拆解文本对应的目标文本交融表达知识。
111.支持度确定模块15,用于依据所述多个拆解文本对应的收束离散文本表达知识、收束分布文本表达知识和目标文本交融表达知识进行表意知识挖掘,得到所述多个拆解文本对应的文本表意知识,并依据所述文本表意知识进行文本类型预测,得到所述多个拆解文本对应的关键文本支持度。
112.整合模块16,用于依据所述关键文本支持度从所述拟处理文本集合中确定多个文本序列,并依据所述文本表意知识确定所述多个文本序列对应的整合表意知识。
113.预测模块17,用于依据所述多个文本序列对应的整合表意知识进行文本序列类型预测,得到相同文本序列集合。
114.数据挖掘装置10可用于执行上述基于人工智能的数据挖掘方法,其具体的原理和实现过程已经在上述实施例中进行介绍,此处不再赘述。
115.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
116.以上所述仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
117.本技术实施例还提供一种包含指令的计算机可读存储介质,该指令用于被数据挖掘服务的处理器执行,以实现上述方法实施例中的基于人工智能的数据挖掘方法。
118.一种实现举例,上述的处理器可以为中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
119.一种实现举例,上述的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,ram)可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,dr ram)。
120.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关
系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,其中a,b可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
121.本技术中,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
122.在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
123.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
124.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
125.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1