一种数据处理方法及数据处理装置与流程

文档序号:34365889发布日期:2023-06-04 21:09阅读:58来源:国知局
一种数据处理方法及数据处理装置与流程

本技术实施例涉及人工智能领域,尤其涉及一种数据处理方法及数据处理装置。


背景技术:

1、近年来,人工智能(artificial intelligence,ai)的相关技术在各行各业得到了越来越广泛的应用。其中,深度学习技术是一种基于深层神经网络的算法的ai技术,通过模拟人脑的工作机制来进行数据的处理。目前,常采用ai模型(例如:深度学习模型)来完成各种应用场景的任务,ai模型也可以称为ai任务模型。

2、目前的ai技术中,ai模型需要大量的样本数据进行训练,目前的一些技术方案常常仅采用数据类型较为单一的样本数据对ai模型进行训练。例如,ai技术应用在医疗领域的临床决策支持系统(clinical decision support system,cdss)中时,cdss中基于深度学习的疾病诊断模型训练的所需的样本数据的来源往往仅采用电子病历,样本数据的类型是电子病历中的文本。由于样本数据来源和类型单一,导致疾病诊断模型的预测准确率低,辅助临床决策效果差。

3、在一些场景中,用于ai模型训练的样本数据可以采用具有不同的数据来源和不同的数据类型。然而,目前样本数据用于ai模型的训练时,由于对于不同来源和不同数据类型的样本数据不能进行较好的表征,使得在训练ai模型的过程中,ai模型不能学习到样本数据中的特征,从而导致训练得到的ai任务模型的任务预测准确率低。

4、因此,如何对来自不同来源和不同数据类型的样本数据进行表征,使得采用经过表征后的数据训练得到的ai任务模型提高任务的预测准确率,是当前急需解决的技术问题。


技术实现思路

1、本技术实施例提供了一种数据处理方法以及数据处理装置,用于提升ai任务模型的预测准确率。

2、本技术实施例第一方面提供了一种数据处理的方法。该方法由计算机设备执行,也可以由计算机设备的部件,例如计算机设备的处理器、芯片或芯片系统等执行,还可以由能实现全部或部分设备功能的逻辑模块或软件实现。以计算机设备为例,该数据处理方法包括:计算机设备获取多种数据,多种数据中具有不同的数据来源和不同的数据类型,数据的来源与所要训练的任务类型相关,包括人产生的数据或机器产生的数据,数据的类型包括文本、数值或图像。计算机设备对多种数据进行知识抽取获得知识图谱,知识图谱包括多个知识实体以及多个知识实体之间的关联关系,知识实体包括多种数据中提取出的关键要素,多个知识实体包括不同的数据类型。计算机设备利用与每个知识实体的数据类型对应的知识表征算法对每个知识实体进行知识表征,且对知识图谱中多个知识实体之间的关系进行权重的初始化,获得向量图,向量图用于训练人工智能ai任务模型。

3、本技术实施例中计算机设备用于训练ai任务模型的样本数据为多种来源和多种类型的数据,同时,计算机设备通过不同数据类型所对应的知识表征算法将抽象的知识图谱表征为计算机设备可识别的向量图。计算机设备基于多种来源和多种类型的数据所获得的向量图对ai任务模型进行训练,提升了ai任务模型的预测准确性。

4、一种可能的实施方式中,计算机设备对多种数据进行知识抽取获得知识图谱的过程中,计算机设备基于不同的知识层面对多种数据进行知识抽取,从而获得多知识层面的知识图谱。例如,计算机设备对多种医疗数据进行知识抽取获得治疗领域的知识图谱时,可以根据表征症状层面、基因层面或微生物层面等多个知识层面进行知识抽取,从而获得具备多个知识层面关联的知识图谱。

5、本技术实施例中计算机设备获取的知识图谱为具有多个知识层面相互关联的知识图谱,基于多个知识层面的知识图谱对ai任务模型进行训练,由于知识谱图涉及多个知识层面,因此,提升知识图谱的覆盖面,进一步提升了ai任务模型的预测准确性。

6、一种可能的实施方式中,来自不同知识层面的知识实体之间包括关联关系,关联关系从多种数据中获得,例如,计算机设备根据多种数据的语义信息分析得到知识实体的之间的关系。或者,关联关系根据预置的规则获得,例如计算机设备中预先存储有基于领域知识确定知识关联规则,计算机设备基于预置的知识关联规则建立不同层面的知识实体之间的关联关系。

7、本技术实施例中计算机设备获取多种数据自身存在的关联,以及根据预置规则建立同一层面或不同层面知识实体之间的关联关系,从而充分挖掘了不同知识层面的知识实体之间的内在联系,多种获取关联关系的方法充分挖掘了知识实体之间的关联关系,提升了用于训练ai任务模型的数据量。

8、一种可能的实施方式中,计算机设备对每个知识实体进行知识表征的过程中,计算机设备根据每个知识实体的数据类型,根据预置关系从预置算法库中确定与知识实体的数据类型对应的知识表征算法,计算机设备根据对应的知识表征算法对知识实体进行知识表征,获得知识实体对应的表征向量。例如,当知识实体的数据类型为文本时,计算机设备根据文本类型与知识表征算法的预置关系,从预置算法库选择知识表征算法,文本类型对应的知识表征算法例如指示图谱嵌入算法(knowledge graph embedding,kge)算法、来自变换器的双向编码器表示(bidirectional encoder representations fromtransformers,bert)算法或词向量(word2vec)算法。

9、本技术实施例中,计算机设备根据知识实体的数据类型选择从预置算法库中选择对应的知识表征算法,从而提升了知识实体和关联关系的表征效率。

10、一种可能的实施方式中,计算机设备根据每个知识实体的数据类型确定用户输入的与数据类型对应的知识表征算法,根据对应的知识表征算法对知识实体进行知识表征,获得知识实体对应的表征向量。

11、本技术实施例中知识表征算法可以是用户定义的知识表征算法,从而提升了对不同知识表征算法的适用性。

12、一种可能的实施方式中,ai任务模型为用于进行疾病诊断的ai模型,多种数据包括以下数据中的至少两种:病历数据、影像检查报告、基因调控表达网络和代谢网络。

13、本技术实施例中的数据处理方法可以应用于医疗领域,训练的ai任务模型可以进行疾病诊断的ai任务模型,多种来源的样本数据训练疾病诊断模型,从而提升了疾病诊断模型的诊断准确率。

14、一种可能的实施方式中,计算机设备根据向量图对ai任务模型进行训练获得训练完成的ai任务模型。

15、本技术实施例中计算机设备通过知识图谱表征之后的得到向量图对ai任务模型进行训练,提升了ai任务模型训练的可实现性。

16、一种可能的实施方式中,计算机设备根据向量图对ai任务模型进行训练过程中,计算机设备更新向量图中的权重。

17、本技术实施例中计算机设备能够不断更新向量图中的权重,从而提升训练后的ai任务模型的准确性。

18、一种可能的实施方式中,计算机设备利用训练完成的ai任务模型进行任务预测获得预测结果,并且基于更新后的向量图对任务预测对应的知识图谱中的关键知识实体和/或关键关联关系进行标识,获得可解释知识图谱。

19、本技术实施例中计算机设备能够标识任务预测中所应用到的知识图谱的关键知识实体和/或关键关联关系,提升了模型预测结果的可解释性。

20、一种可能的实施方式中,计算机设备通过图形用户界面gui输出可解释知识图谱。

21、本技术实施例中计算机设备通过图形用户界面gui输出可解释知识图谱,提升了方案的可实现性。

22、本技术实施例第二方面提供了一种数据处理装置,该数据处理装置包括接口单元和处理单元。其中,接口单元用于获取多种数据,多种数据中的各种数据具有不同的来源和不同的数据类型。处理单元用于对多种数据进行知识抽取,获得知识图谱,知识图谱包括多个知识实体以及多个知识实体之间的关联关系,多个知识实体包括不同的数据类型。处理单元还用于利用与每个知识实体的数据类型对应的知识表征算法对每个知识实体进行知识表征,且对知识图谱中多个知识实体之间的关系进行权重的初始化,获得向量图,向量图用于训练人工智能ai任务模型。

23、一种可能的实施方式中,处理单元具体用于基于不同的知识层面对多种数据进行知识抽取,获得多知识层面的知识图谱。

24、一种可能的实施方式中,来自不同知识层面的知识实体之间包括关联关系,关联关系从多种数据中获得,或者,关联关系根据预置的规则获得。

25、一种可能的实施方式中,处理单元具体用于根据每个知识实体的数据类型,根据预置关系从预置算法库中确定与知识实体的数据类型对应的知识表征算法,根据对应的知识表征算法对知识实体进行知识表征,获得知识实体对应的表征向量。

26、一种可能的实施方式中,根据每个知识实体的数据类型确定用户输入的与数据类型对应的知识表征算法,根据对应的知识表征算法对知识实体进行知识表征,获得知识实体对应的表征向量。

27、一种可能的实施方式中,ai任务模型为用于进行疾病诊断的ai模型,多种数据包括以下数据中的至少两种:病历数据、影像检查报告、基因调控表达网络和代谢网络。

28、一种可能的实施方式中,处理单元还用于根据向量图对ai任务模型进行训练,获得训练完成的ai任务模型。

29、一种可能的实施方式中,处理单元具体用于更新向量图中的权重。

30、一种可能的实施方式中,处理单元还用于利用训练完成的ai任务模型进行任务预测,获得预测结果,并基于更新后的向量图对任务预测对应的知识图谱中的关键知识实体和/或关键关联关系进行标识,获得可解释知识图谱。

31、一种可能的实施方式中,处理单元还用于通过图形用户界面gui输出可解释知识图谱。

32、本技术实施例中第三方面提供了一种计算机设备,该计算机设备包括处理器,处理器与存储器耦合,存储器用于存储指令,当指令被处理器执行时,以使得计算机设备执行上述第一方面或第一方面任意一种可能的实施方式所述的方法。

33、本技术实施例中第四方面一种计算机可读存储介质,其上存储有指令,指令被执行时,以使得计算机执行上述第一方面或第一方面任意一种可能的实施方式所述的方法。

34、本技术实施例中第五方面一种计算机程序产品,计算机程序产品中包括指令,指令被执行时,以使得计算机实现上述第一方面或第一方面任意一种可能的实施方式所述的方法。

35、可以理解,上述提供的数据处理装置、计算机设备、计算机可读介质或计算机程序产品等所能达到的有益效果可参考对应的方法中的有益效果,此处不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1