一种信息处理方法及相关设备与流程

文档序号:27753167发布日期:2021-12-03 20:13阅读:132来源:国知局
一种信息处理方法及相关设备与流程

1.本技术涉及通信技术领域,尤其涉及一种信息处理方法及相关设备。


背景技术:

2.人工智能(artificial intelligence,ai)技术在图像处理与自然语言处理领域有着非常成功的应用。例如,将ai技术应用于网络层(如网络优化,移动性管理,资源分配等),或者将ai技术应用于物理层(如信道编译码,信道预测、接收机等)等方面。ai实体可以部署在接入网中以提高接入网的处理能力(如提高资源分配效率等),但是目前并未定义接入网中的ai实体与用户设备(user equipment,ue)之间的基础交互方式,无法高效将ai技术应用于无线接入网中。


技术实现要素:

3.本技术实施例提供一种信息处理方法及相关设备,该信息处理方法可以将ai技术应用于无线接入网,有利于提高无线接入网的处理能力。
4.第一方面,本技术实施例提供一种信息处理方法,可以应用于接入网中的第一ai实体。其中,第一ai实体可以接收终端设备发送的第二ai模型信息,该第二ai模型信息不包括所述终端设备的用户数据。第一ai实体根据第二ai模型信息,更新第一ai模型信息。第一ai实体向终端设备发送更新后的第一ai模型信息。
5.可见,上述方法流程定义了一种第一ai实体与终端设备之间的基础交互方式。其中,第一ai实体和终端设备均具备ai训练能力,那么第一ai实体可以基于终端设备发送第二ai模型进行训练并更新第一ai模型,并将更新后的第一ai模型发送给终端设备。
6.其中,终端设备发送的第二ai模型信息不包括终端设备的用户数据,有利于实现终端设备的隐私保护。上述训练交互可以更新第一ai实体的第一ai模型,有利于提高第一ai实体和终端设备的处理能力。
7.在一种可能的设计中,第一ai实体还可以接收所述终端设备发送的请求消息,该请求消息用于请求第一ai模型信息。第一ai实体向终端设备发送第一ai模型信息。
8.可见,上述方法流程定义了另一种第一ai实体与终端设备之间的基础交互方式。其中,当终端设备具备ai推理能力时,第一ai实体接收终端设备的请求消息,并向终端设备发送第一ai模型信息。对应的,终端设备接收到第一ai模型信息后,可以根据待决策的数据和ai模型进行推理,得到ai决策信息。
9.在一种可能的设计中,第一ai实体接收终端设备发送的请求消息之前,第一ai实体还可以接收终端设备的ai信息,该ai信息包括ai能力参数。其中,ai能力参数用于指示终端设备是否具备ai推理能力和/或ai训练能力。
10.在一种可能的设计中,若所述ai能力参数指示所述终端设备具备ai推理能力,所述第一ai实体接收所述终端设备发送的ai决策信息和状态信息,所述ai决策信息是所述终端设备将所述状态信息输入所述第二ai模型进行推理得到的,所述状态信息是所述终端设
备根据观察信息得到的。
11.可见,当终端设备具备ai推理能力时,终端设备可以得到ai决策信息,并将该ai决策信息发送给第一ai实体,以使第一ai实体获取终端设备的ai决策信息,有利于第一ai实体进行ai模型的更新。
12.在一种可能的设计中,所述第一ai实体接收所述终端设备的ai信息,所述ai信息包括ai更新参数;
13.若所述ai更新参数指示定时ai更新或事件触发ai更新,所述第一ai实体接收反馈信息,所述反馈信息用于指示进行ai训练使用的数据。
14.在一种可能的设计中,第一ai实体接收终端设备的ai信息,该ai信息包括ai更新参数。若ai更新参数指示定时ai更新或事件触发ai更新,第一ai实体接收反馈信息,该反馈信息用于指示进行ai训练使用的数据。
15.可见,终端设备的ai信息中的ai更新参数可以指示终端设备进行ai更新。对应的,第一ai实体可以接收终端设备发送的反馈信息,该反馈信息可以用于第一ai实体的训练更新,有利于提高第一ai实体的处理能力。
16.在一种可能的设计中,第一ai实体根据ai训练数据,更新第一ai模型。其中,所述ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
17.在一种可能的设计中,反馈信息包括奖励信息;奖励信息用于更新所述第一ai模型。
18.在一种可能的设计中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
19.可见,本技术实施例扩展了一种深度强化学习的流程,第一ai实体可以监控系统的性能指标,有利于更新第一ai模型。
20.第二方面,本技术实施例提供一种信息处理方法,应用于终端设备。其中,终端设备向第一ai实体发送请求消息,该请求消息用于请求第一ai模型信息。终端设备接收第一ai实体发送的第一ai模型信息。终端设备将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息。其中,状态信息基于观察信息确定,观察信息指示进行ai决策使用的数据。
21.可见,终端设备自身具备ai推理能力时,终端设备可以从第一ai实体获取第一ai模型信息,并根据第一ai模型信息确定终端设备的第二ai模型。终端设备可以将进行ai决策使用的数据输入第二ai模型进行推理,从而得到ai决策信息。通过终端设备和第一ai实体之间的交互,完整了终端设备实现ai推理功能的流程,有利于提升终端设备的处理能力。
22.在一种可能的设计中,终端设备向第一ai实体发送请求消息之前,终端设备还可以向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数。其中,ai能力参数指示该终端设备具备ai推理能力。
23.可见,当终端设备自身具备ai推理能力时,终端设备可以通过与第一ai实体之间的交互通知第一ai实体。
24.在一种可能的设计中,终端设备还可以向第一ai实体发送ai决策信息和状态信息。
25.可见,当终端设备自身具备ai推理能力时,终端设备可以通过与第一ai实体之间的交互将推理得到的ai决策信息可以发送给第一ai实体。
26.在一种可能的设计中,终端设备的ai信息包括ai能力参数和/或ai更新参数。若ai更新参数指示定时ai更新或事件触发ai更新,终端设备可以向第一ai实体发送反馈信息,该反馈信息用于指示进行ai训练使用的数据。
27.可见,当终端设备的ai更新参数指示需要ai更新时,终端设备可以通过与第一ai实体之间的交互通知第一ai实体也进行ai训练更新数据。
28.在一种可能的设计中,若ai能力参数指示终端设备具备ai训练能力,终端设备根据ai训练数据,获取第二ai模型。其中,ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
29.可见,当终端设备具备ai训练能力时,终端设备可以通过自身的训练更新本地的第二ai模型。
30.在一种可能的设计中,终端设备向第一ai实体发送第二ai模型信息。终端设备接收第一ai实体发送的更新后的第一ai模型信息,更新后的第一ai模型信息是第一ai实体根据第二ai模型信息确定的。
31.可见,当终端设备具备ai训练能力时,终端设备可以通过与第一ai实体之间的交互向第一ai实体发送本地的第二ai模型信息,以使第一ai实体根据第二ai模型信息更新第一ai模型信息。并且,终端设备向第一ai实体发送的第二ai模型信息与终端设备本身的数据无关,有利于终端设备的隐私保护。
32.在一种可能的设计中,反馈信息包括奖励信息;奖励信息用于更新第一ai模型。
33.在一种可能的设计中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
34.可见,本技术实施例扩展了一种深度强化学习的流程,若终端设备具备ai训练能力,可以监控系统的性能指标,有利于更新本地的第二ai模型。
35.第三方面,本技术实施例提供一种信息处理方法,可以应用于接入网中的第一ai实体。其中,第一ai实体可以接收终端设备发送的观察信息,该观察信息指示进行ai决策使用的数据。第一ai实体根据观察信息和第一ai模型,确定终端设备的ai决策信息,并将该ai决策信息发送给终端设备。
36.可见,上述方法流程定义了另一种第一ai实体与终端设备之间的基础交互方式。其中,第一ai实体具备ai推理能力,可以根据终端设备发送的进行ai决策使用的数据以及自身的第一ai模型,确定终端设备的ai决策信息。也就是说,接入网中的第一ai实体实现了将ai技术应用于无线接入网,有利于提高无线接入网的处理能力。
37.在一种可能的设计中,第一ai实体在接收终端设备发送的观察信息之前,还可以接收终端设备的ai信息,该ai信息包括ai能力参数。其中,ai能力参数用于指示终端设备是否具备ai推理能力和/或ai训练能力。
38.在一种可能的设计中,若所述终端设备的ai能力参数指示所述终端设备无ai能力,所述第一ai实体接收所述终端设备发送的观察信息。
39.可见,若终端设备不具备ai推理能力,终端设备可以通过第一ai实体实现相关的
ai功能。
40.在一种可能的设计中,第一ai实体可以对观察信息进行预处理,得到对应的状态信息。第一ai实体再将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息。
41.可见,第一ai实体在获取终端设备的ai决策信息的过程中,先要将观察信息转换为ai模型可以处理的状态信息,才能得到ai决策信息。
42.第四方面,本技术实施例提供一种信息处理方法,可以应用于终端设备。其中,终端设备向第一ai实体发送观察信息,该观察信息指示进行ai决策使用的数据。终端设备接收第一ai实体发送的该终端设备的ai决策信息,并根据该ai决策信息执行决策。
43.可见,终端设备可以通过与第一ai实体之间的交互,来获取终端设备的ai决策信息,实现相应的ai功能。
44.在一种可能的设计中,终端设备向第一ai实体发送观察信息之前,终端设备还可以向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数,其中,该ai能力参数指示所述终端设备无ai能力。
45.在一种可能的设计中,终端设备的ai决策信息是第一ai实体将状态信息输入第一ai模型进行推理得到的;状态信息是第一ai实体根据观察信息得到的。
46.可见,当终端设备无ai能力时,可以通过与第一ai实体之间的交互,来获取终端设备的ai决策信息。
47.第五方面,本技术实施例提供一种第一ai实体,该第一ai实体包括智能决策模块。其中,智能决策模块用于接收终端设备发送的第二ai模型信息,第二ai模型信息不包括终端设备的用户数据。智能决策模块还用于根据第二ai模型信息,更新第一ai模型信息。其中,第一ai模型信息为第一ai实体的ai模型信息。智能决策模块还用于向终端设备发送更新后的第一ai模型信息。
48.在一种可能的设计中,智能决策模块还用于接收终端设备发送的请求消息,该请求消息用于请求第一ai模型信息。智能决策模块接收该请求消息后,可以向终端设备发送第一ai模型信息。
49.在一种可能的设计中,第一ai实体还包括预处理模块。其中,预处理模块用于接收终端设备的ai信息,该ai信息包括ai能力参数。
50.在一种可能的设计中,若ai能力参数指示终端设备具备ai推理能力,智能决策模块还用于接收终端设备发送的ai决策信息和状态信息。其中,ai决策信息是终端设备将状态信息输入第二ai模型进行推理得到的,状态信息是终端设备根据观察信息得到的,观察信息指示进行ai决策使用的数据。
51.在一种可能的设计中,预处理模块还用于接收终端设备的ai信息,该ai信息包括ai更新参数。其中,第一ai实体还可以包括数据收集与训练模块。若ai更新参数指示定时ai更新或事件触发ai更新,数据收集与训练模块用于接收反馈信息,该反馈信息用于指示进行ai训练使用的数据。
52.在一种可能的设计中,智能决策模块还用于根据ai训练数据,更新第一ai模型。其中,ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
53.在一种可能的设计中,反馈信息包括奖励信息,奖励信息用于更新所述第一ai模型。
54.在一种可能的设计中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
55.第六方面,本技术实施例提供一种终端设备,该终端设备包括收发模块和处理模块。其中,收发模块用于向第一ai实体发送请求消息,该请求消息用于请求第一ai模型信息。收发模块还用于接收第一ai实体发送的第一ai模型信息。处理模块用于将状态信息输入第二ai模型进行推理,得到终端设备的ai决策信息;其中,状态信息基于观察信息确定;观察信息指示进行ai决策使用的数据;第二ai模型是终端设备根据第一ai模型信息确定的。
56.在一种可能的设计中,收发模块还用于向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数,其中,ai能力参数指示终端设备具备ai推理能力。
57.在一种可能的设计中,收发模块还用于向第一ai实体发送ai决策信息和状态信息。
58.在一种可能的设计中,终端设备的ai信息包括ai能力参数和/或ai更新参数。其中,若ai更新参数指示定时ai更新或事件触发ai更新,收发模块还用于向第一ai实体发送反馈信息,该反馈信息用于指示进行ai训练使用的数据。
59.在一种可能的设计中,若ai能力参数指示终端设备具备ai训练能力,处理模块还用于根据ai训练数据,获取第二ai模型。其中,ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
60.在一种可能的设计中,收发模块还用于向第一ai实体发送第二ai模型信息。收发模块还可以接收第一ai实体发送的更新后的第一ai模型信息,更新后的第一ai模型信息是第一ai实体根据第二ai模型信息确定的。
61.在一种可能的设计中,反馈信息包括奖励信息。其中,奖励信息用于更新所述第一ai模型。
62.在一种可能的设计中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
63.第七方面,本技术实施例提供一种第一ai实体,该第一ai实体包括预处理模块和智能决策模块。其中,预处理模块用于接收终端设备发送的观察信息,该观察信息指示进行ai决策使用的数据。智能决策模块用于根据观察信息和第一ai模型,确定终端设备的ai决策信息。智能决策模块还用于向终端设备发送ai决策信息。
64.在一种可能的设计中,预处理模块还用于接收终端设备的ai信息,该ai信息包括ai能力参数。
65.在一种可能的设计中,若终端设备的ai能力参数指示终端设备无ai能力,预处理模块用于接收终端设备发送的观察信息。
66.在一种可能的设计中,预处理模块还用于对观察信息进行预处理,得到对应的状态信息。智能决策模块还用于将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息。
67.第八方面,本技术实施例提供一种终端设备,该终端设备包括收发模块和处理模
块。其中,收发模块用于向第一ai实体发送观察信息,该观察信息指示进行ai决策使用的数据。收发模块还用于接收第一ai实体发送的终端设备的ai决策信息。处理模块用于根据ai决策信息执行决策。
68.在一种可能的设计中,收发模块还用于向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数。其中,ai能力参数指示终端设备无ai能力。
69.在一种可能的设计中,终端设备的ai决策信息是第一ai实体将状态信息输入第一ai模型进行推理得到的;状态信息是第一ai实体根据观察信息得到的。
70.第九方面,本技术实施例提供一种第一ai实体,该实体具有实现第一方面所提供的信息处理方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
71.第十方面,本技术实施例提供一种终端设备,该设备具有实现第二方面所提供的信息处理方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
72.第十一方面,本技术实施例提供一种第一ai实体,该实体具有实现第三方面所提供的信息处理方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
73.第十二方面,本技术实施例提供一种终端设备,该设备具有实现第四方面所提供的信息处理方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
74.第十三方面,本技术实施例提供一种通信系统,该通信系统包括上述第五方面、第七方面、第九方面或第十一方面提供的第一ai实体,以及第六方面、第八方面、第十方面或第十二方面提供的终端设备。
75.第十四方面,本技术实施例提供一种计算机可读存储介质,该可读存储介质包括程序或指令,当所述程序或指令在计算机上运行时,使得计算机执行第一方面或第一方面中任一种可能实现方式中的方法。
76.第十五方面,本技术实施例提供一种计算机可读存储介质,该可读存储介质包括程序或指令,当所述程序或指令在计算机上运行时,使得计算机执行第二方面或第二方面中任一种可能实现方式中的方法。
77.第十六方面,本技术实施例提供一种计算机可读存储介质,该可读存储介质包括程序或指令,当所述程序或指令在计算机上运行时,使得计算机执行第三方面或第三方面中任一种可能实现方式中的方法。
78.第十七方面,本技术实施例提供一种计算机可读存储介质,该可读存储介质包括程序或指令,当所述程序或指令在计算机上运行时,使得计算机执行第四方面或第四方面中任一种可能实现方式中的方法。
79.第十八方面,本技术实施例提供一种芯片或者芯片系统,该芯片或者芯片系统包括至少一个处理器和接口,接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以进行第一方面或第一方面的任一种可能的实现方式中任一项所描述的方法。
80.第十九方面,本技术实施例提供一种芯片或者芯片系统,该芯片或者芯片系统包
括至少一个处理器和接口,接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以进行第二方面或第二方面的任一种可能的实现方式中任一项所描述的方法。
81.第二十方面,本技术实施例提供一种芯片或者芯片系统,该芯片或者芯片系统包括至少一个处理器和接口,接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以进行第三方面或第三方面的任一种可能的实现方式中任一项所描述的方法。
82.第二十一方面,本技术实施例提供一种芯片或者芯片系统,该芯片或者芯片系统包括至少一个处理器和接口,接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以进行第四方面或第四方面的任一种可能的实现方式中任一项所描述的方法。
83.其中,芯片中的接口可以为输入/输出接口、管脚或电路等。
84.上述方面中的芯片系统可以是片上系统(system on chip,soc),也可以是基带芯片等,其中基带芯片可以包括处理器、信道编码器、数字信号处理器、调制解调器和接口模块等。
85.在一种可能的实现中,本技术中上述描述的芯片或者芯片系统还包括至少一个存储器,该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储模块,例如,寄存器、缓存等,也可以是该芯片的存储模块(例如,只读存储器、随机存取存储器等)。
86.第二十二方面,本技术实施例提供一种计算机程序或计算机程序产品,包括代码或指令,当代码或指令在计算机上运行时,使得计算机执行第一方面或第一方面中任一种可能实现方式中的方法。
87.第二十三方面,本技术实施例提供一种计算机程序或计算机程序产品,包括代码或指令,当代码或指令在计算机上运行时,使得计算机执行第二方面或第二方面中任一种可能实现方式中的方法。
88.第二十四方面,本技术实施例提供一种计算机程序或计算机程序产品,包括代码或指令,当代码或指令在计算机上运行时,使得计算机执行第三方面或第三方面中任一种可能实现方式中的方法。
89.第二十五方面,本技术实施例提供一种计算机程序或计算机程序产品,包括代码或指令,当代码或指令在计算机上运行时,使得计算机执行第四方面或第四方面中任一种可能实现方式中的方法。
附图说明
90.图1为一种智能体与环境之间的交互的示意图;
91.图2为一种马尔可夫决策过程的示意图;
92.图3a为本技术实施例提供的一种网络架构的示意图;
93.图3b为本技术实施例提供的一种5g ran架构的示意图;
94.图4为本技术实施例提供的一种ran架构的示意图;
95.图5为本技术实施例提供的一种信息处理方法的流程示意图;
96.图6为本技术实施例提供的一种终端设备无ai能力时的信息处理的流程图;
97.图7为本技术实施例提供的另一种信息处理方法的流程示意图;
98.图8为本技术实施例提供的一种终端设备具备ai推理能力时的信息处理的流程图;
99.图9为本技术实施例提供的另一种信息处理方法的流程示意图;
100.图10为本技术实施例提供的一种联邦学习的流程示意图;
101.图11为本技术实施例提供的一种ai训练的流程示意图;
102.图12为本技术实施例提供的一种drl在线学习的流程示意图;
103.图13为本技术实施例提供的一种决策早停技术的流程示意图;
104.图14为本技术实施例提供的一种drl算法部署在小区的应用示意图;
105.图15为本技术实施例提供的一种虚拟小区辅助训练的示意图;
106.图16为本技术实施例提供的一种训练终端部署在真实小区的示意图;
107.图17为本技术实施例提供的一种第一ai实体的结构示意图;
108.图18为本技术实施例提供的另一种第一ai实体的结构示意图;
109.图19为本技术实施例提供的另一种第一ai实体的结构示意图;
110.图20为本技术实施例提供的另一种第一ai实体的结构示意图;
111.图21为本技术实施例提供的一种终端设备的结构示意图;
112.图22为本技术实施例提供的另一种终端设备的结构示意图;
113.图23为本技术实施例提供的另一种终端设备的结构示意图;
114.图24为本技术实施例提供的另一种终端设备的结构示意图。
具体实施方式
115.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
116.在本技术实施例的描述之前,首先对相关概念进行阐述。
117.人工智能(ai)技术在图像处理与自然语言处理领域有着非常成功的应用,目前,学术界在将ai技术应用于网络层(如网络优化,移动性管理,资源分配等)和物理层(如信道编译码,信道预测、接收机等)等方面均有大量研究。
118.人工智能(artificial intelligence,ai)技术在图像处理与自然语言处理领域有着非常成功的应用。例如,将ai技术应用于网络层(如网络优化,移动性管理,资源分配等),或者将ai技术应用于物理层(如信道编译码,信道预测、接收机等)等方面。其中,比较常用的ai技术有监督学习和强化学习等。
119.其中,监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练。监督学习的目标是给定一个训练集,学习训练集中输入和输出的映射关系。其中,训练集为正确的输入与输出的映射关系的集合。监督学习方法是目前研究较为广泛的一种机器学习方法,举例来说,监督学习方法包括神经网络传播算法、决策树学习算法等。
120.其中,强化学习是智能体(agent)与环境(environment)以交互的方式进行学习。请参见图1,图1为一种智能体与环境之间的交互的示意图。其中,智能体可以根据环境反馈的状态(state),对环境做出动作(action),从而获得奖励(reward)及下一个时刻的状态,使智能体可以在一段时间内积累最大的奖赏。
121.强化学习不同于监督学习,主要表现在无需训练集,强化学习中由环境提供的强化信号对产生动作的好坏进行评价(通常采用标量信号),而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少,智能体需要靠自身的经历进行学习。通过这种方式,智能体在行动-评价的环境中获得知识,改进行动方案以适应环境。
122.常见的强化学习算法有q学习(q-learning),策略梯度(policy gradient),演员-批评家(actor-critic)等。例如,目前常用的强化学习算法为深度强化学习(deepreinforcementlearning,drl),其主要将强化学习与深度学习结合,采用神经网络对策略/价值函数进行建模,从而适应更大输入/输出维度。
123.ai技术中通常可以采用多种数学模型进行推理,以获取ai决策。其中,数学模型可以包括但不限于马尔可夫决策过程、神经网络等模型。例如,请参见图2,图2为一种马尔可夫决策过程(markov decision processes,mdp)的示意图。其中,马尔可夫决策过程是一种分析决策问题的数学模型,其假设环境具有马尔可夫性质(环境的未来状态的条件概率分布仅依赖于当前状态),决策者通过周期性地观察环境的状态(如图2中的s0、s1等),根据当前环境的状态做出决策(如图2中的a0、a1等),与环境交互后得到新的状态及奖励(如图2中的r0、r1等),如图2所示。
124.随着未来移动通信网络技术的演进,新无线接入技术(new radio access technology,nr)对接入网的架构进行了重新的定义。请参见图3a,图3a为本技术实施例提供的一种网络系统的示意图。其中,该网络系统包括核心网(5gc)、接入网(ng-ran)以及终端设备。其中,5gc与ng-ran通过ng接口进行信息交互;ng-ran中的接入网设备(例如gnb)之间可以通过xn接口进行信息交互。终端设备可以与接入网设备通过无线链路相连接,实现终端设备与接入网设备之间的信息交互。
125.其中,网络系统可以包括但不限于:全球移动通信系统(global system for mobile communications,gsm)、宽带码分多址系统(wideband code division multiple access,wcdma)、长期演进系统(long term evolution,lte)、新一代无线接入技术(new radio access technology,nr)中的增强型移动宽带(enhanced mobile broadband,embb)场景、超可靠低时延通信(ultra-reliable low latency communications,urllc)场景和海量机器类通信(massive machine type communications,mmtc)场景、窄带物联网系统(narrow band-internet of things,nb-iot)等。
126.其中,接入网设备可以是任意一种具有无线收发功能的设备,为覆盖范围内的终端设备提供无线通信服务。接入网设备可以包括但不限于:长期演进(long term evolution,lte)系统中的演进型基站(nodeb或enb或e-nodeb,evolutional nodeb),新一代无线接入技术(new radio access technology,nr)中的基站(gnodeb或gnb)或收发点(transmission receiving point/transmission reception point,trp),3gpp后续演进的基站,wifi系统中的接入节点,无线中继节点,无线回传节点,车联网、d2d通信、机器通信中承担基站功能的设备,卫星等。
127.其中,终端设备可以是一种具有无线收发功能的设备,或者终端设备也可以是一种芯片。所述终端设备可以是用户设备(user equipment,ue)、手机(mobile phone)、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality,vr)终端设备、增强现实(augmented reality,ar)终端设备、车载终端设备、远程医疗(remote medical)中的无线
终端、智能电网(smart grid)中的无线终端、可穿戴终端设备、车联网、d2d通信、机器通信中的终端等。
128.可选的,请参见图3b,图3b为本技术实施例提供的一种5g ran的架构示意图。其中,ng ran中的接入网设备(例如gnb)可以包括集中式模块(central unit,cu)和分布式模块(distribute unit)。cu和du之间可以通过f1接口进行信息交互,如图3b所示。
129.可见,日益成熟的ai技术将对未来移动通信网络技术的演进产生重要的推动作用。例如,ai实体可以部署在接入网中以提高接入网的处理能力(如提高资源分配效率等),但是目前并未定义接入网中的ai实体与用户设备(user equipment,ue)之间的基础交互方式,无法高效将ai技术应用于无线接入网中。
130.本技术实施例提供一种信息处理方法,该信息处理方法可以将ai技术应用于无线接入网,有利于提高无线接入网的处理能力。
131.其中,该信息处理方法可以应用于本技术实施例提供的一种ran架构中。请参见图4,图4为本技术实施例提供的一种ran架构。其中,该ran架构中增加了第一ai实体(ai module),该并定义了第一ai实体与gnb之间可以通过a1接口进行信息交互,如图4所示。需要注意的是,本实施例所述的第一ai实体可以位于边缘/云接入网中,有利于通过边缘计算/云计算实现相应的ai功能。
132.可选的,第一ai实体还可以进一步拆分为第一ai实体-集中式模块(am-cu)和第一ai实体-分布式模块(am-du)。gnb也可以在物理上拆分为gnb-cu和gnb-du。其中,am-cu与gnb-cu之间定义了通过a1-c接口进行信息交互,am-du与gnb-du之间定义了通过a1-d接口进行信息交互,如图4所示。
133.其中,该ai接口的通信内容可以包括但不限于ai模型的上传/下载,数据的上传/下载,gnb与第一ai实体之间的信息交互(如第一ai实体中的性能跟踪模块可以监控gnb的性能数据)等。可选的,a1接口按照功能拆分为a1-c与a1-d接口,可以对应gnb-cu和gnb-du的功能划分,各个接口的通信内容也不相同。例如,a1-d接口传输涉及到物理层(physical,phy)、介质访问控制(media access control,mac)层和无线链路控制(radio link control,rlc)层的消息;a1-c接口传输涉及到更高层(如分组数据汇聚协议(packet data convergence protocol,pdcp)层)的消息。
134.下面将结合具体的实施例进行描述。
135.请参见图5,图5为本技术实施例提供的一种信息处理方法的流程示意图。其中,图5中的信息处理方法流程由第一ai实体和终端设备之间的交互实现,可以包括以下步骤:
136.s501,终端设备向第一ai实体发送观察信息;对应的,第一ai实体接收终端设备发送的观察信息;
137.s502,第一ai实体根据观察信息和第一ai模型,确定终端设备的ai决策信息;
138.s503,第一ai实体向终端设备发送ai决策信息;对应的,终端设备接收第一ai实体发送的ai决策信息。
139.本实施例中定义了当终端设备无ai能力时,第一ai实体与终端设备之间的一种基础交互方式。其中,终端设备是否具备ai能力可以通过终端设备的ai信息来指示。终端设备的ai信息可以包括但不限于以下参数:ai能力参数(aicapabilityclass)、ai更新参数(aiupdatetype)和ai交互参数(aiinteractiontype)等。
140.其中,ai能力参数用于指示终端设备是否具备ai能力。具体的,ai能力参数可以通过具体的参数值来指示终端设备是否具备ai能力。
141.例如,当aicapabilityclass的参数值为class 0时,表示终端设备无ai能力。也就是说,该终端设备不具备ai推理和/或ai训练能力,即终端设备不能实现ai功能。
142.又例如,当aicapabilityclass的参数值为class 1时,表示终端设备具备ai推理能力。也就是说,该终端设备可以实现部分的ai功能,如获取ai决策。
143.又例如,当aicapabilityclass的参数值为class 2时,表示终端设备具备ai训练能力。也就是说,该终端设备可以实现部分的ai功能,如对ai模型进行训练,以获取更优的ai模型。
144.又例如,当aicapabilityclass的参数值为class 3时,表示终端设备具备ai推理能力和ai训练能力。也就是说,该终端设备可以实现ai功能,如对ai模型进行训练,以获取更优的ai模型,从而获取更优的ai决策。
145.需要注意的是,上述aicapabilityclass的参数值仅为一种示例,aicapabilityclass的参数值还可以是其他形式,例如采用二进制数表示,本实施例不作限定。
146.其中,ai更新参数用于指示终端设备是否进行ai更新。ai更新是指对数据进行更新。例如,若采用的ai算法为强化学习算法,那么终端设备可以向第一ai实体发送反馈信息,以使第一ai实体进行数据更新。具体的,ai更新参数也可以通过具体的参数值来指示是否进行ai更新。
147.例如,当aiupdatetype的参数值为type 0时,表示不进行ai更新。
148.又例如,当aiupdatetype的参数值为type 1时,表示通过事件触发进行ai更新。也就是说,当存在外部事件触发时,例如,由于环境变化导致ai模型不适配,可以通过长期kpi恶化事件触发ai更新。
149.又例如,当aiupdatetype的参数值为type 2时,表示定时触发进行ai更新。举例来说,系统可以设置一个时间参数,该时间参数可以指示每隔一个预设的时间段,系统将触发进行ai更新。
150.需要注意的是,上述aiupdatetype的参数值仅为一种示例,aiupdatetype的参数值还可以是其他形式,例如采用二进制数表示,本实施例不作限定。
151.其中,ai交互参数用于指示终端设备与第一ai实体之间的交互内容。本实施例中的终端设备与第一ai实体之间的交互内容可以包括但不限于数据、模型等。
152.终端设备和第一ai实体之间交互的数据是指用于进行ai推理和/或进行ai训练的数据,可以包括但不限于状态信息、观察信息等。
153.例如,当第一ai实体采用的是强化学习算法时,状态信息可以是如图1所示的强化学习算法中的环境反馈的状态。终端设备和第一ai实体之间交互的模型是指用于进行ai推理和/或进行ai训练的模型,根据第一ai实体采用的ai算法对应不同的ai模型,本实施例不作限定。
154.具体的,ai交互参数可以通过具体的参数值来指示终端设备与第一ai实体之间的交互内容。
155.例如,当aiinteractiontype的参数值为type 0时,表示终端设备和第一ai实体之
间的交互内容包括上传数据和/或下载数据。
156.又例如,当aiinteractiontype的参数值为type 1时,表示终端设备和第一ai实体之间的交互内容包括上传数据和/或下载模型。
157.又例如,当aiinteractiontype的参数值为type 2时,表示终端设备和第一ai实体之间的交互内容包括上传模型和/或下载模型。
158.需要注意的是,上述aiinteractiontype的参数值仅为一种示例,aiinteractiontype的参数值还可以是其他形式,例如采用二进制数表示,本实施例不作限定。
159.可选的,在终端设备向第一ai实体发送观察信息之前,终端设备可以向第一ai实体发送终端设备的ai信息。其中,终端设备的ai信息包括可以包括上文实施例所述的ai能力参数、ai更新参数或ai交互参数中的一种或多种。
160.例如,当终端设备与第一ai实体建立通信连接后,终端设备可以向第一ai实体发送业务请求消息(例如资源分配请求消息),该业务请求消息中可以携带终端设备的ai信息,以使第一ai实体知晓终端设备是否具备ai能力。
161.其中,第一ai实体为接入网中新增的一种实体,该第一ai实体具备ai推理以及ai训练等ai功能。具体的,第一ai实体按照功能可以划分为多个功能模块,包括智能决策模块(intelligent policy function,ipf)、数据收集与训练模块(data and training function,dtf)、预处理模块(pre-processing function,ppf)、性能跟踪模块(performance monitoring function,pmf)等模块,各个模块分别用于执行相应的功能。
162.可选的,本实施例中的s501,终端设备向第一ai实体发送观察信息,可以是终端设备向第一ai实体的预处理模块发送观察信息。
163.其中,观察信息指示进行ai决策使用的数据。也就是说,观察信息是提供给ai决策使用的数据。例如,当终端设备向接入网请求资源调度时,终端设备向预处理模块发送的观察信息可以包括终端设备的吞吐量等数据。
164.可选的,本实施例中的s502,第一ai实体根据观察信息和第一ai模型,确定终端设备的ai决策信息,可以是第一ai实体的智能决策模块执行的。
165.其中,第一ai模型为第一ai实体中进行ai推理和/或ai训练的模型,也就是说,第一ai模型为边缘/云中的ai模型。根据采用的ai算法的不同,第一ai模型可以包括多种类型。例如,当采用的ai算法为深度强化学习时,第一ai模型可以是全连接神经网络模型。
166.可选的,本实施例中的s502还可以是第一ai实体的预处理模块和智能决策模块分别执行的,包括以下两个步骤:
167.预处理模块对观察信息进行预处理,得到对应的状态信息;
168.智能决策模块将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息。
169.其中,由于第一ai模型不能直接对观察信息进行处理,那么预处理模块可以先对观察信息进行预处理(例如,对数据进行归一化处理),得到状态信息。
170.其中,状态信息为采用ai模型进行推理时可以直接使用的数据,例如,状态信息可以指如图2所示的马尔可夫决策过程中的系统状态(如s0、s1等),也可以指经过预处理的数据(隐马尔可夫模型中状态无法直接得到)。
171.智能决策模块可以将状态信息输入第一ai模型进行推理。例如,当第一ai实体采用的是强化学习算法时,智能决策模块可以是如图1所示的强化学习算法中的智能体,可以对环境做出动作,即得到终端设备的ai决策信息。
172.终端设备的ai决策信息是第一ai实体根据进行ai决策使用的数据进行ai推理得到的结果。
173.例如,当第一ai实体采用的是强化学习算法时,ai决策信息即为智能体输出的动作。具体来说,当终端设备向接入网请求资源调度时,第一ai实体进行ai推理得到的资源分配结果即终端设备的ai决策信息。
174.需要注意的是,相较于传统的资源分配方法,第一ai实体将ai技术应用于接入网中的资源分配,可以更针对性地为对应的终端设备分配资源,从而有利于优化整体网络性能。
175.可选的,本实施例中的s503,第一ai实体向终端设备发送ai决策信息,可以是第一ai实体的智能决策模块向终端设备发送ai决策信息。
176.可选的,请参见图6,图6为本技术实施例提供的一种终端设备无ai能力时的信息处理的流程图。其中,由于终端设备无ai能力,那么终端设备可以选择向边缘/云的第一ai实体请求ai决策。
177.需要注意的是,终端设备在采用图6所示的信息处理方法获取ai决策的时延较大,该方法适用于对时延不敏感的业务。
178.s601,终端设备向预处理模块发送观察信息,观察信息指示进行ai决策使用的数据;对应的,预处理模块接收终端设备发送的观察信息;
179.s602,预处理模块对观察信息进行预处理,得到对应的状态信息;
180.s603,预处理模块向智能决策模块发送状态信息;对应的,智能决策模块接收预处理模块发送的状态信息;
181.s604,智能决策模块将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息;
182.s605,智能决策模块向终端设备发送ai决策信息;对应的,终端设备接收智能决策模块发送的ai决策信息;
183.s606,终端设备根据ai决策信息执行决策。
184.上述s601至s606为终端设备的aiupdatetype的参数值为type 0时的整体处理流程。可选的,当aiupdatetype的参数值为type 1或type 2时,图6所示的信息处理流程还包括ai训练数据收集的过程,包括以下步骤:
185.s607,智能决策模块将状态信息和ai决策信息发送给数据收集与训练模块;
186.s608,数据收集与训练模块接收反馈信息。
187.其中,反馈信息用于指示进行ai训练使用的数据。根据ai算法的不同,数据收集与训练模块接收的反馈信息也不相同。
188.例如,若第一ai实体采用的ai算法为强化学习,那么数据收集与训练模块接收终端设备或性能跟踪模块发送的奖励信息。那么s608可以包括两个并行的步骤s608a和s608b。其中,s608a为终端设备向数据收集与训练模块发送反馈信息;s608b为性能跟踪模块向数据收集与训练模块发送反馈信息。
189.又例如,若第一ai实体采用的ai算法为监督学习,那么数据收集与训练模块接收终端设备发送的标签信息。
190.需要注意的是,s607与s606在执行时并没有先后顺序,也就是说,s606与s607可以同时执行。
191.本技术实施例提供一种信息处理方法,该方法定义了一种第一ai实体与终端设备之间的基础交互方式。当终端设备无ai能力时,终端设备可以通过接入网中的第一ai实体来实现ai功能,得到终端设备的ai决策信息。也就是说,接入网中的第一ai实体实现了将ai技术应用于无线接入网,有利于提高无线接入网的处理能力。
192.请参见图7,图7为本技术实施例提供的另一种信息处理方法的流程示意图。其中,图7中的信息处理方法流程由第一ai实体和终端设备之间的交互实现,可以包括以下步骤:
193.s701,终端设备向第一ai实体发送请求消息;对应的,第一ai实体接收终端设备发送的请求消息;
194.s702,第一ai实体向终端设备发送第一ai模型信息;对应的,终端设备接收第一ai实体发送的第一ai模型信息;
195.s703,终端设备将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息。
196.本实施例中定义了当终端设备具备ai推理能力时,第一ai实体与终端设备之间的一种基础交互方式。也就是说,当终端设备的aicapabilityclass参数值为class 1时,终端设备可以实现ai推理,获取ai决策。
197.其中,由于终端设备只具备ai推理能力,而不具备ai训练能力,那么终端设备需要向第一ai实体发送请求消息以获取ai模型。其中,该请求消息用于向第一ai实体请求第一ai模型信息。第一ai模型信息可以是第一ai模型,也可以是第一ai模型的相关参数。
198.例如,当第一ai模型为神经网络时,第一ai模型信息可以是一个整体的神经网络,也可以是神经网络的相关参数(如该神经网络的层数,神经元的数目等)。
199.可选的,上述s701和s702的执行可以根据终端设备的ai更新参数来确定。也就是说,若aiupdatetype的参数值为type 0,则s701和s702只在初始化的时候执行一次。
200.若aiupdatetype的参数值为type1,则s701和s702根据事件触发执行,例如,性能跟踪模块监控到系统性能发生恶化,则触发更新等。
201.若aiupdatetype的参数值为type2,则s701和s702定时执行。
202.可选的,本实施例中的终端设备具备ai推理能力,那么该终端设备可以包括多个ai功能模块。例如,该终端设备包括预处理模块和智能决策模块,用于实现ai推理过程。
203.需要注意的是,终端设备也可以通过本地的第二ai实体来实现ai推理功能。其中,本地的第二ai实体为与终端设备的物理上的距离较近的ai实体,可以是终端设备的外接设备,本实施例不作限定。
204.下面以终端设备自身包括多个ai功能模块为例进行描述。
205.请参见图8,图8为本技术实施例提供的一种终端设备具备ai推理能力时的信息处理的流程图。其中,终端设备具有ai推理能力,即终端设备至少包括智能决策模块。终端设备可以向边缘/云的第一ai实体请求第一ai模型信息,并在本地完成ai推理,得到ai决策信息。
206.需要注意的是,终端设备在采用图8所示的信息处理方法获取ai决策信息的时延较小,该方法适用于对时延敏感的业务。
207.为了便于描述,图8所示的实施例中的终端设备包括的ai功能模块分别称为第二模块,例如,终端设备的智能决策模块称为第二智能决策模块。图8所示的实施例中的第一ai实体包括的ai功能模块分别称为第一模块,例如,第一ai实体的智能决策模块称为第一智能决策模块。该信息处理的流程可以包括以下步骤:
208.s801,第二智能决策模块向第一智能决策模块发送请求消息;对应的,第一智能决策模块接收第二智能决策模块发送的请求消息;
209.s802,第一智能决策模块向第二智能决策模块发送第一ai模型信息;对应的,第二智能决策模块接收第一智能决策模块发送的第一ai模型信息;
210.s803,第二预处理模块获取观察信息;
211.s804,第二预处理模块对观察信息进行预处理,得到对应的状态信息;
212.s805,第二预处理模块向第二智能决策模块发送状态信息;对应的,第二智能决策模块接收第二预处理模块发送的状态信息;
213.s806,第二智能决策模块将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息;
214.s807,终端设备根据ai决策信息执行决策。
215.上述s801至s807为终端设备的aiupdatetype的参数值为type 0时的整体处理流程。可选的,当aiupdatetype的参数值为type 1或type 2时,图8所示的信息处理流程还包括ai训练数据收集的过程,包括以下步骤:
216.s808,第二智能决策模块将状态信息和ai决策信息发送给第一数据收集与训练模块;
217.s809,第一数据收集与训练模块接收反馈信息。
218.其中,反馈信息用于指示进行ai训练使用的数据。根据ai算法的不同,数据收集与训练模块接收的反馈信息也不相同。
219.例如,若第一ai实体采用的ai算法为强化学习,那么第一数据收集与训练模块接收终端设备或性能跟踪模块发送的奖励信息。那么s809可以包括两个并行的步骤s809a和s809b。其中,s809a为终端设备向第一数据收集与训练模块发送反馈信息;s809b为第一性能跟踪模块向第一数据收集与训练模块发送反馈信息。
220.又例如,若第一ai实体采用的ai算法为监督学习,那么第一数据收集与训练模块接收终端设备发送的标签信息。那么s809为第一数据收集与训练模块接收终端设备发送的标签信息。
221.需要注意的是,s807与s808在执行时并没有先后顺序,也就是说,s807与s808可以同时执行。
222.可选的,当本地的第二ai实体是终端设备的外接设备时,在s806之后,上述处理流程还可以包括以下步骤:
223.s8071,第二智能决策模块向终端设备发送终端设备的ai决策信息;
224.s808a,终端设备根据ai决策信息执行决策。
225.其中,s8071表示该步骤在s806之后执行,替代原s807。s808a表示该步骤与s808无
先后执行顺序,即s808a可以与s808同时执行。
226.下面以一个具体的示例对图8所述的终端设备与第一ai实体之间交互的流程以及交互的信息进行详细的描述。其中,本示例中的终端设备实现的ai功能为使用ai进行信道译码。那么上述s801至s809具体可以包括以下步骤:
227.第二智能决策模块向第一智能决策模块发送请求消息,该请求消息用于请求信道译码模型;
228.第一智能决策模块向第二智能决策模块发送信道译码模型信息;
229.第二智能决策模块根据该信道译码模型信息,确定终端设备的信道译码模型;
230.第二预处理模块接收信号,该信号为待译码的数据;
231.第二预处理模块对该信号进行预处理,得到该信号的对数似然比;
232.第二预处理模块向第二智能决策模块发送该信号的对数似然比;
233.第二智能决策模块将该信号的对数似然比输入终端设备的信道译码模型进行推理,得到该信号的译码数据;
234.终端设备使用该信号的译码数据。
235.可选的,若终端设备的aiupdatetype的参数值为type 1或type 2,还包括以下步骤:
236.第二智能决策模块将该信号的对数似然比和该信号的译码数据发送给第一数据收集与训练模块;
237.第一数据收集与训练模块接收标签信息,该标签信息包括正确的译码数据;或者,第一数据收集与训练模块接收奖励信息,当正确译码时该奖励信息为1,译码失败时该奖励信息为0。
238.本技术实施例提供一种信息处理方法,该方法定义了另一种第一ai实体与终端设备之间的基础交互方式。当终端设备具备ai推理能力时,终端设备可以根据第一ai模型进行推理得到终端设备的ai决策信息,从而实现相应的ai功能。
239.请参见图9,图9为本技术实施例提供的另一种信息处理方法的流程示意图。其中,图9中的信息处理方法流程由第一ai实体和终端设备之间的交互实现,可以包括以下步骤:
240.s901,终端设备向第一ai实体发送第二ai模型信息;对应的,第一ai实体接收终端设备发送的第二ai模型信息;
241.s902,第一ai实体根据第二ai模型信息,更新第一ai模型信息;
242.s903,第一ai实体向终端设备发送更新后的第一ai模型信息;对应的,终端设备接收第一ai实体发送的更新后的第一ai模型信息。
243.本实施例中定义了当终端设备具备ai训练能力时,第一ai实体与终端设备之间的一种基础交互方式。也就是说,当终端设备的aicapabilityclass参数值为class 2时,终端设备可以训练ai模型。
244.其中,第二ai模型信息为终端设备或第二ai实体中的ai模型信息。类似于第一ai模型信息,第二ai模型信息可以是第二ai模型,也可以是第二ai模型的相关参数,本实施例不作限定。
245.其中,第一ai模型和/或第二ai模型都是对应的第一数据收集与训练模块和/或第二数据收集与训练模块通过训练得到的。例如,当第一ai模型和/或第二ai模型采用的是神
经网络时,可以采用神经网络的训练方式对第一ai模型和/或第二ai模型进行训练。
246.举例来说,数据收集与训练模块可以随机初始化一个神经网络,每一次的训练为用已有数据从随机的神经元的权重矩阵和偏置向量中得到新的神经网络的过程。在训练过程中,可以采用损失函数(loss function)对神经网络的输出结果进行评价,并将误差反向传播,通过梯度下降的方法可以迭代优化,直至损失函数达到最小值。也就是说,数据收集与训练模块可以通过上述迭代优化的过程对ai模型进行训练,得到更优的ai模型。
247.可选的,第二ai模型信息不包括终端设备的用户数据。也就是说,终端设备向第一ai实体发送的第二ai模型信息与终端设备本身的数据无关,有利于终端设备的隐私保护。
248.可选的,第二ai模型信息也可以包括终端设备的用户数据,以使训练后的ai模型更优,有利于获取更适用的ai决策信息。
249.在一种示例中,请参见图10,图10为本技术实施例提供的一种联邦学习的流程示意图。其中,图10所示的联邦学习流程为当终端设备具备ai训练能力时,第一ai实体与终端设备之间的一种基础交互方式的具体应用的示例。该联邦学习流程包括以下步骤:
250.s1001,第二智能决策模块向第二数据收集与训练模块发送ai训练数据请求消息;
251.s1002,第二数据收集与训练模块向第二智能决策模块发送第二ai训练数据;
252.s1003,第二智能决策模块根据第二ai训练数据,训练第二ai模型;
253.s1004,第二智能决策模块向第一数据收集与训练模块发送第二ai模型信息;
254.s1005,第一智能决策模块向第一数据收集与训练模块发送ai训练数据请求消息;
255.s1006,第一数据收集与训练模块向第一智能决策模块发送第一ai训练数据;
256.s1007,第一智能决策模块根据第一ai训练数据,训练第一ai模型;
257.s1008,第一智能决策模块向第二智能决策模块发送训练后的第一ai模型信息。
258.其中,第一ai训练数据是指第一ai实体中的ai训练数据,第二ai训练数据是指终端设备中的ai训练数据。第一ai模型是指第一ai实体中的ai模型,第二ai模型是指终端设备中的ai模型。
259.其中,第二智能决策模块向第一数据收集与训练模块发送第二ai模型信息的步骤可以是定时触发的。也就是说,一个或多个本地的终端设备可以定时向云端上传一个或多个第二ai模型信息,云端可以保存本地上传的第二ai模型信息。
260.当云端的第一ai实体训练更新第一ai模型后,第一ai实体可以将训练后的第一ai模型信息下发给本地。本地再对第一ai模型进行训练更新,以此循环。该循环流程可以是无限循环,也可以是设置一个阈值(如损失函数),当损失函数小于阈值时停止循环,联邦学习流程结束。
261.在一种示例中,当终端设备具备ai训练能力时,终端设备也可以进行本地的ai训练。也就是说,上述ai训练交互流程可以是终端设备内部的模块之间的交互,通过ai训练获取第二ai模型信息。
262.类似的,由于第一ai实体具备ai训练能力,上述ai训练交互流程也可以是第一ai实体内部的模块之间的交互,通过ai训练获取第一ai模型信息。
263.下面对终端设备进行本地训练,或者第一ai实体进行云端训练进行详细的举例说明。
264.请参见图11,图11为本技术实施例提供的一种ai训练的流程示意图。为了便于描
述,图10中的智能决策模块和/或数据收集与训练模块可以指代第一/第二智能决策模块,和/或,第一/第二数据收集与训练模块。
265.类似的,图11中的ai训练数据和/或ai模型可以指代第一/第二ai训练数据,和/或,第一/第二ai模型。
266.s1101,智能决策模块向数据收集与训练模块发送ai训练数据请求消息;
267.s1102,数据收集与训练模块向智能决策模块发送ai训练数据;
268.s1103,智能决策模块根据ai训练数据,训练ai模型。
269.其中,ai训练数据可以包括但不限于ai决策信息、状态信息或反馈信息等。例如,当上述ai训练流程是终端设备内部的ai训练流程时,第二智能决策模块可以根据状态信息,更新第二ai模型。又例如,当上述ai训练流程是第一ai实体内部的ai训练流程时,第一智能决策模块可以根据ai决策信息,更新第一ai模型。
270.在一种示例中,当终端设备具备ai推理能力和ai训练能力时,终端设备可以通过内部模块的实现ai推理和ai训练的过程。也就是说,当终端设备的aicapabilityclass参数值为class 3时,终端设备可以训练ai模型,并且进行ai推理,得到ai决策信息。
271.其中,终端设备进行ai推理和ai训练的过程即为将前文实施例中的终端设备进行ai推理的过程与终端设备进行ai训练的过程进行结合得到,具体可以参考前文图8和图11所示的实施例中的详细描述,在此不再赘述。
272.本技术实施例提供一种信息处理方法,该方法定义了另一种第一ai实体与终端设备之间的基础交互方式。当终端设备具备ai训练能力时,终端设备可以对本地的第一ai模型进行训练更新,也可以与云端的第一ai实体进行交互,训练更新第一ai模型,从而使ai模型更适用于不同的应用场景。
273.基于上文实施例中的描述,下面对本技术实施例所述的信息处理方法应用于不同场景时的具体实现方式进行详细的描述。
274.在一种示例中,假设终端设备或第一ai实体采用的ai算法为drl。在drl中,系统的奖励(reward)函数可以作为指示算法最终收敛的性能指标。其中,drl在线学习流程可以由终端设备和第一ai实体之间的交互实现,也可以是具备ai推理能力和/或ai训练能力的终端设备的内部模块实现的。
275.下面以终端设备和第一ai实体之间的交互实现为例进行详细的描述。
276.请参见图12,图12为本技术实施例提供的一种drl在线学习的流程示意图。该drl在线学习流程包括以下步骤:
277.s1201,第一数据收集与训练模块向第一性能跟踪模块发送奖励函数请求消息;
278.s1202,第一性能跟踪模块向第一数据收集与训练模块发送奖励函数;
279.s1203a,终端设备向第一数据收集与训练模块发送奖励信息;
280.s1203b,第一性能跟踪模块向第一数据收集与训练模块发送奖励函数更新指示信息;
281.s1204,第一数据收集与训练模块根据奖励信息更新奖励函数。
282.其中,第一性能跟踪模块可以监控系统的长期关键绩效指标(key performance indicator,kpi),该kpi可以用于指导第一数据收集与训练模块生成奖励函数r(θ,φ)。其中,r表示奖励;目标参数θ为终端设备执行ai决策信息得到的性能数据,如吞吐量、丢包率
等。其中,目标参数的权重值φ为第一ai实体根据一个或多个终端设备的性能数据确定的,用于指示不同短期kpi的权重。也就是说,目标参数的权重值φ可以是第一ai实体中的第一性能跟踪模块对系统中的所有终端设备的性能进行长期监测得到的。
283.其中,s1203a和s1203b无先后执行顺序,即s1203a可以与s1203b同时执行。
284.可选的,s1203b可以是定时发生,也可以是环境变化等因素导致ai模型不适配,从而触发奖励函数更新。例如,长期kpi恶化触发奖励函数的自适应过程中,可以是第一数据收集与训练模块向第一性能跟踪模块发送奖励函数请求消息,以请求奖励函数的更新。
285.下面通过一个具体的示例来说明在drl调度的过程中,系统如何自适应地调整奖励函数。
286.假设奖励函数为r(θ,φ)=α
×
thp+β
×
jfi+γ
×
pdr,其中,目标参数θ={thp,jfi,pdr}即包含三类性能数据,分别表示吞吐量、公平性参数和丢包率。φ={α,β,γ}即包含上述三类性能数据的权重,假设初始值φ={1,1,1}。若系统运行一段时间后由于突发事件,导致pmf监测到公平性恶化,则触发奖励函数更新,以使上述三类性能数据的权重更新为φ={1,2,1}。
287.在一种示例中,假设终端设备或第一ai实体采用的ai算法为drl。为了避免drl在线学习中探索对系统造成灾难性的影响,本技术实施例提供一种决策早停技术,该决策早停技术可以通过性能跟踪模块对系统性能进行预测,并判断是否会出现灾难性的性能损失,从而及早避免探索对系统造成灾难性的影响。
288.请参见图13,图13为本技术实施例提供的一种决策早停技术的流程示意图。其中,该决策早停技术流程可以由终端设备和第一ai实体之间的交互实现,也可以是具备ai推理能力和/或ai训练能力的终端设备的内部模块实现的。
289.也就是说,图13中的多个ai功能模块可以是云端的第一ai实体中的功能模块,也可以是本地的终端设备内部或外接的第二ai实体中的功能模块,本实施例不作限定。
290.s1301,终端设备向预处理模块发送观察信息;
291.s1302,预处理模块对观察信息进行预处理,得到对应的状态信息;
292.s1303,预处理模块向智能决策发送状态信息;
293.s1304,智能决策模块进行模型推理得到终端设备的ai决策信息;
294.s1305,性能跟踪模块对系统性能进行预测,获得决策掩码信息和/或惩罚信息;
295.s1306,性能跟踪模块向智能决策模块发送决策掩码信息;
296.s1307,智能决策模块根据决策掩码信息对ai决策信息进行掩码处理,得到掩码处理后的ai决策信息;
297.s1308a,性能跟踪模块向数据收集与训练模块发送状态信息、决策掩码信息和惩罚信息中的一种或多种;
298.s1308b,智能决策模块向终端设备发送掩码处理后的ai决策信息;
299.s1309a,终端设备根据掩码处理后的ai决策信息执行决策;
300.s1309b,智能决策模块向数据收集与训练模块发送状态信息及掩码处理后的ai决策信息;
301.s1310,终端设备向数据收集与训练模块发送反馈信息。
302.其中,性能跟踪模块需要具备长期性能预测能力。例如,性能跟踪模块需要根据系
统目前状态和模型所做的决策,判断是否会出现灾难性的性能损失。
303.可选的,本实施例所述的决策早停技术还可以包括模型同步的步骤。也就是说,在终端设备向预处理模块发送观察信息之前,还可以包括以下步骤:智能决策模块向性能跟踪模块发送ai模型信息。
304.其中,模型同步的步骤,以及s1308a这两个步骤是否需要取决于性能跟踪模块的预测能力。也就是说,若性能跟踪模块的预测能力较强,那么上述模型同步以及s1308a这两个步骤均为可选的步骤。
305.其中,决策掩码信息用于对ai决策信息进行掩码处理,以使降低系统性能的部分被处理掉。例如,若接入系统的某一个或多个用户将显著降低系统性能,那么性能跟踪模块可以将该一个或多个用户的ai决策的权重降至最低,那么该一个或多个用户将不再执行对应的ai决策。决策掩码信息可以直接根据预测结果得到,也可以通过性能跟踪模块内的备份算法得到。
306.可选的,性能跟踪模块进行预测获得决策掩码信息和/或惩罚信息后,还可以将决策掩码信息和/或惩罚信息作为一个训练样本,将该训练样本发送给数据收集与训练模块。
307.可见,相较于没有决策早停的方案,图13所述的决策早停方案中一次采样将获得两组训练样本,提高了drl的采样效率。
308.下面以drl调度过程为例来说明图13所述的决策早停方案。
309.例如,系统针对5个用户的调度决策,drl产生的决策权重可能是{1.5,1.1,1.2,0.2,0}。但是在一种可能的情况下,用户0和用户4的预计吞吐量为0,那么在这种情况下调度用户0和/或用户4必然会带来系统资源的浪费。
310.性能跟踪模块在预测到这种情况之后,可以产生决策掩码,例如该5个用户的决策掩码分别为{0,1,1,1,0}。根据上述决策掩码,性能跟踪模块可以得到进行掩码处理后的决策权重分别为{0,1.1,1.2,0.2,0}。那么根据该决策权重信息,系统将会调度用户2。可见,该调度有利于降低系统资源的浪费,优化系统的整体性能。
311.在一种示例中,本技术实施例提供一种drl算法部署在小区的应用示例。当drl算法在各个小区部署上线后,该drl算法可以分为两个阶段:智能体的模仿学习阶段和智能体在线强化学习阶段,如图14所示。其中,本示例所述的智能体可以是第一ai实体,也可以是具备ai推理能力和/或ai训练能力的本地的第二ai实体。
312.其中,智能体的模仿学习阶段为第一阶段。该第一阶段中,智能体需要训练数据对智能体进行初始化训练。例如,基站采用传统调度算法进行初始化训练,并且保存整个调度过程中的轨迹信息,使得基站可以根据保存的轨迹信息进行监督学习,从而实现对基站进行初始化训练。
313.可选的,为了解决强化学习需要大量交互数据的问题,本技术实施例提出智能体的模仿学习阶段可以是一种虚拟小区(virtualcell,vcell)辅助训练的过程。其中,第一ai实体可以获取小区的基础真实信息,用于训练生成vcell。其中,小区的基础真实信息可以包括但不限于小区内的终端设备的位置信息、移动性信息、业务信息、信道信息等相关信息。vcell一般由神经网络构成。
314.例如,在智能体的模仿学习阶段,第一ai实体可以采用生成对抗网络(generativeadversarial networks,gan)算法。其中,gan的训练过程的原理是先固定生成
网络并训练鉴别网络,使之能区分真实数据与虚拟数据;随后固定鉴别网络,训练生成网络,使生成网络生成的虚拟数据与真实数据尽量相似,然后交替直至收敛。
315.基于上述原理,第一ai实体可以获取真实数据与生成网络得到的虚拟数据,交替训练鉴别网络和生成网络。例如,第一ai实体可以获取小区内的终端设备的位置信息、移动性信息、业务信息、信道信息等相关信息,并将上述相关信息输入生成网络得到虚拟数据。第一ai实体中的数据收集与训练模块可以对虚拟数据进行训练,即根据虚拟数据交替训练鉴别网络和生成网络,从而生成vcell,如图15所示。
316.可选的,vcell可以进一步分解为多个虚拟用户设备(virtual ue,vue)和虚拟环境(virtual environment,venv)。其中vue用于对ue进行建模,venv用于对环境进行建模。例如,vue可以采用multi-agentgan算法,确定ue的位置信息、移动性信息和业务信息等。又例如,venv可以采用conditional gan算法,根据ue位置信息、地形信息、天气信息等生成对应的传输信道。
317.其中,智能体的在线强化学习阶段为第二阶段。该第二阶段中,智能体可以与已完成训练的vcell进行交互。其中,由于与vcell交互的代价和风险远小于和真实小区进行交互,那么vcell的引入将会大大提高智能体的收敛速度。
318.可选的,智能体也可以进行在线训练。也就是说,本示例中的智能体可以根据如图12和13所示的深度强化学习流程进行在线训练。具体的实现流程请参考图12和图13所示的实施例中的描述,在此不再赘述。
319.可选的,本技术实施例还提供一种训练终端,用于辅助drl算法的在线训练。举例来说,请参见图16,图16为本技术实施例提供的一种训练终端部署在真实小区的示意图。其中,在真实小区内可以部署多个和/或多种训练终端(training ue,tue),各个tue可以与智能体之间进行交互,交互的方式可以包括但不限于通过模仿学习进行交互、通过强化学习进行交互等,如图16所示。
320.其中,tue具有以下特点:直接与强化学习算法交互;可以在空闲时获取大量训练样本;可以对小区内非通信可感知的数据进行采集;可以提供增强覆盖服务;可以是固定位置的设备,也可以是移动的设备。也就是说,tue可以是本技术实施例所述的终端设备包括的类型中的任意一种或多种。
321.例如,tue具备在空闲时获取大量训练样本的特点,那么tue可以在夜晚采集大量的训练样本。又例如,tue具备对小区内非通信可感知的数据进行采集的特点,那么tue可以采集天气信息,地形信息,阻挡物信息等可以作为训练样本的数据,并用于vcell建模。再例如,tue具备提供增强覆盖服务的特点,那么tue还可以是小站,无人机等设备。
322.可见,tue可以有效获取训练数据且不影响实际业务,显著提高训练效率。
323.以下结合图17至图24详细说明本技术实施例的相关设备。
324.本技术实施例提供一种第一ai实体,如图17所示。该第一ai实体用于实现上述方法实施例中的第一ai实体所执行的方法,具体包括预处理模块1701和智能决策模块1702。
325.其中,预处理模块1701用于接收终端设备发送的观察信息,该观察信息指示进行ai决策使用的数据。智能决策模块1702用于根据观察信息和第一ai模型,确定终端设备的ai决策信息。智能决策模块1702还用于向终端设备发送ai决策信息。
326.在一种实现方式中,预处理模块1701还用于接收终端设备的ai信息,该ai信息包
括ai能力参数。
327.在一种实现方式中,若终端设备的ai能力参数指示终端设备无ai能力,预处理模块1701用于接收终端设备发送的观察信息。
328.在一种实现方式中,预处理模块1701还用于对观察信息进行预处理,得到对应的状态信息。智能决策模块1702还用于将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息。
329.示例性的,上述预处理模块1701可以用于执行图5中的s501和图6中的s601至s603,智能决策模块1702用于执行图5中的s502和s503,以及图6中的s604、s605和s607。
330.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
331.在一种实现方式中,图17中的各个模块所实现的相关功能可以通过收发器和处理器来实现。请参见图18,图18是本技术实施例提供的一种第一ai实体的结构示意图,该第一ai实体可以为具有执行本技术实施例所述的信息处理功能的设备(例如芯片)。
332.该第一ai实体可以包括收发器1801、至少一个处理器1802和存储器1803。其中,收发器1801、处理器1802和存储器1803可以通过一条或多条通信总线相互连接,也可以通过其它方式相连接。
333.其中,收发器1801可以用于发送信息,或者接收信息。可以理解的是,收发器1801是统称,可以包括接收器和发送器。例如,接收器用于接收终端设备发送的观察信息。又例如,发送器用于向终端设备发送ai决策信息。
334.在一种实现方式中,收发器1801可以用于实现图17所示的预处理模块和智能决策模块的部分或全部功能。
335.其中,处理器1802可以用于对信息进行处理。例如,处理器1802可以调用存储器1803中存储的程序代码,实现根据观察信息和第一ai模型,确定终端设备的ai决策信息。
336.其中,处理器1802可以包括一个或多个处理器,例如该处理器1802可以是一个或多个中央处理器(central processing unit,cpu),网络处理器(network processor,np),硬件芯片或者其任意组合。在处理器1802是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu。
337.在一种实现方式中,处理器1802可以用于实现图17所示的预处理模块和智能决策模块的部分或全部功能。
338.其中,存储器1803用于存储程序代码等。存储器1803可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,ram);存储器1803也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom),快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);存储器1803还可以包括上述种类的存储器的组合。
339.其中,上述处理器1802和存储器1803可以通过接口耦合,也可以集成在一起,本实施例不作限定。
340.上述收发器1801和处理器1802可以用于实现本技术实施例中的信息处理方法,其中,具体实现方式如下:
341.收发器1801用于接收终端设备发送的观察信息,该观察信息指示进行ai决策使用
的数据。处理器1802用于根据观察信息和第一ai模型,确定终端设备的ai决策信息。收发器1801还用于向终端设备发送ai决策信息。
342.在一种实现方式中,收发器1801还用于接收终端设备的ai信息,该ai信息包括ai能力参数。
343.在一种实现方式中,若终端设备的ai能力参数指示终端设备无ai能力,收发器1801用于接收终端设备发送的观察信息。
344.在一种实现方式中,处理器1802还用于对观察信息进行预处理,得到对应的状态信息,再将状态信息输入第一ai模型进行推理,得到终端设备的ai决策信息。
345.示例性的,上述收发器1801可以用于执行图5中的s501和s503,以及图6中的s601、s603和s605,处理器1802用于执行图5中的s502,以及图6中的s602和s604。
346.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
347.本技术实施例提供另一种第一ai实体,如图19所示。该第一ai实体用于实现上述方法实施例中的第一ai实体所执行的方法,具体包括智能决策模块1901、预处理模块1902、数据收集与训练模块1903和性能跟踪模块1904。其中,智能决策模块1901用于接收终端设备发送的第二ai模型信息,第二ai模型信息不包括终端设备的用户数据。智能决策模块1901还用于根据第二ai模型信息,更新第一ai模型信息;第一ai模型信息为第一ai实体的ai模型信息。智能决策模块1901还用于向终端设备发送更新后的第一ai模型信息。
348.在一种实现方式中,智能决策模块1901还用于接收终端设备发送的请求消息,该请求消息用于请求第一ai模型信息。智能决策模块1901还用于向终端设备发送第一ai模型信息。
349.在一种实现方式中,预处理模块1902用于接收终端设备的ai信息,该ai信息包括ai能力参数。
350.在一种实现方式中,若ai能力参数指示终端设备具备ai推理能力,智能决策模块1901还用于接收终端设备发送的ai决策信息和状态信息;其中,ai决策信息是终端设备将状态信息输入第二ai模型进行推理得到的,状态信息是终端设备根据观察信息得到的;观察信息指示进行ai决策使用的数据。
351.在一种实现方式中,预处理模块1902还用于接收终端设备的ai信息,该ai信息包括ai更新参数。若ai更新参数指示定时ai更新或事件触发ai更新,数据收集与训练模块1903用于接收反馈信息,该反馈信息用于指示进行ai训练使用的数据。
352.在一种实现方式中,智能决策模块1901还用于根据ai训练数据,更新第一ai模型;其中,ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
353.在一种实现方式中,反馈信息包括奖励信息;奖励信息用于更新所述第一ai模型。
354.在一种实现方式中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
355.在一种实现方式中,性能跟踪模块1904用于向数据收集与训练模块1903发送奖励信息。
356.示例性的,上述智能决策模块1901可以用于执行图9中的s901至s903,以及图10中
的s1005至s1008,预处理模块1902用于执行前文实施例中的接收终端设备的ai信息的步骤,数据收集与训练模块1903用于执行图8中的s809a和s809b,图12中的s1203a、s1203b和s1204,图13中的s1309b和s1310。
357.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
358.在一种实现方式中,图19中的各个模块所实现的相关功能可以通过收发器和处理器来实现。请参见图20,图20是本技术实施例提供的一种第一ai实体的结构示意图,该第一ai实体可以为具有执行本技术实施例所述的信息处理功能的设备(例如芯片)。
359.其中,第一ai实体可以包括收发器2001、至少一个处理器2002和存储器2003。其中,收发器2001、处理器2002和存储器2003可以通过一条或多条通信总线相互连接,也可以通过其它方式相连接。
360.其中,收发器2001可以用于发送信息,或者接收信息。可以理解的是,收发器2001是统称,可以包括接收器和发送器。例如,接收器用于接收终端设备发送的第二ai模型信息。又例如,发送器用于向终端设备发送更新后的第一ai模型信息。
361.在一种实现方式中,收发器2001可以用于实现图19所示的智能决策模块1901、预处理模块1902、数据收集与训练模块1903和性能跟踪模块1904的部分或全部功能。
362.其中,处理器2002可以用于对信息进行处理。例如,处理器2002可以调用存储器2003中存储的程序代码,实现根据第二ai模型信息,更新第一ai模型信息。
363.其中,处理器2002可以包括一个或多个处理器,例如该处理器2002可以是一个或多个中央处理器(central processing unit,cpu),网络处理器(network processor,np),硬件芯片或者其任意组合。在处理器2002是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu。
364.在一种实现方式中,处理器2002可以用于实现图19所示的智能决策模块1901、预处理模块1902、数据收集与训练模块1903和性能跟踪模块1904的部分或全部功能。
365.其中,存储器2003用于存储程序代码等。存储器2003可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,ram);存储器2003也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom),快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);存储器2003还可以包括上述种类的存储器的组合。
366.其中,上述处理器2002和存储器2003可以通过接口耦合,也可以集成在一起,本实施例不作限定。
367.上述收发器2001和处理器2002可以用于实现本技术实施例中的信息处理方法,其中,具体实现方式如下:
368.收发器2001,用于接收终端设备发送的第二ai模型信息,第二ai模型信息不包括终端设备的用户数据;
369.处理器2002,用于根据第二ai模型信息,更新第一ai模型信息;第一ai模型信息为第一ai实体的ai模型信息;
370.收发器2001还用于向终端设备发送更新后的第一ai模型信息。
371.在一种实现方式中,收发器2001还用于:
372.接收终端设备发送的请求消息,该请求消息用于请求第一ai模型信息;
373.向终端设备发送第一ai模型信息。
374.在一种实现方式中,收发器2001还用于:
375.接收终端设备的ai信息,该ai信息包括ai能力参数。
376.在一种实现方式中,若ai能力参数指示终端设备具备ai推理能力,收发器2001还用于:
377.接收终端设备发送的ai决策信息和状态信息;其中,ai决策信息是终端设备将状态信息输入第二ai模型进行推理得到的,状态信息是终端设备根据观察信息得到的;观察信息指示进行ai决策使用的数据。
378.在一种实现方式中,收发器2001还用于接收终端设备的ai信息,该ai信息包括ai更新参数;
379.若ai更新参数指示定时ai更新或事件触发ai更新,收发器2001还用于接收反馈信息,该反馈信息用于指示进行ai训练使用的数据。
380.在一种实现方式中,处理器2002还用于:
381.根据ai训练数据,更新第一ai模型;其中,ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
382.在一种实现方式中,反馈信息包括奖励信息;奖励信息用于更新所述第一ai模型。
383.在一种实现方式中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
384.示例性的,上述收发器1801可以用于执行图9中的s901和s903,图10中的s1004,图12中的s1201至s1203a,以及图13中的s1301和s1308b。处理器1802用于执行图9中的s902,图10中的s1005至s1007,以及图12中s1204。
385.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
386.本技术实施例提供一种终端设备,如图21所示。该终端设备用于实现上述方法实施例中的终端设备所执行的方法,具体包括收发模块2101和处理模块2102。其中,收发模块2101用于向第一ai实体发送观察信息,该观察信息指示进行ai决策使用的数据。收发模块2101还用于接收第一ai实体发送的终端设备的ai决策信息。处理模块2102用于根据ai决策信息执行决策。
387.在一种实现方式中,收发模块2101还用于向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数,其中,ai能力参数指示终端设备无ai能力。
388.在一种实现方式中,终端设备的ai决策信息是第一ai实体将状态信息输入第一ai模型进行推理得到的;状态信息是第一ai实体根据观察信息得到的。
389.示例性的,上述收发模块2101可以用于执行图5中的s501和s503,图6中的s601和s605。处理模块2102用于执行图6中的s606。
390.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
391.在一种实现方式中,图21中的各个模块所实现的相关功能可以通过收发器和处理
器来实现。请参见图22,图22是本技术实施例提供的一种终端设备的结构示意图,该终端设备可以为具有执行本技术实施例所述的信息处理功能的设备(例如芯片)。
392.其中,终端设备可以包括收发器2201、至少一个处理器2202和存储器2203。其中,收发器2201、处理器2202和存储器2203可以通过一条或多条通信总线相互连接,也可以通过其它方式相连接。
393.其中,收发器2201可以用于发送信息,或者接收信息。可以理解的是,收发器2201是统称,可以包括接收器和发送器。例如,接收器用于接收第一ai实体发送的终端设备的ai决策信息。又例如,发送器用于向第一ai实体发送观察信息。
394.在一种实现方式中,收发器2201可以用于实现图21所示的收发模块2101的部分或全部功能。
395.其中,处理器2202可以用于对信息进行处理。例如,处理器2202可以调用存储器2203中存储的程序代码,实现根据ai决策信息执行决策。
396.其中,处理器2202可以包括一个或多个处理器,例如该处理器2202可以是一个或多个中央处理器(central processing unit,cpu),网络处理器(network processor,np),硬件芯片或者其任意组合。在处理器2202是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu。
397.在一种实现方式中,处理器2201可以用于实现图21所示的处理模块2102的部分或全部功能。
398.其中,存储器2203用于存储程序代码等。存储器2203可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,ram);存储器2203也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom),快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);存储器2203还可以包括上述种类的存储器的组合。
399.其中,上述处理器2202和存储器2203可以通过接口耦合,也可以集成在一起,本实施例不作限定。
400.上述收发器2201和处理器2202可以用于实现本技术实施例中的信息处理方法,其中,具体实现方式如下:
401.收发器2201用于向第一ai实体发送观察信息,该观察信息指示进行ai决策使用的数据。收发器2201还用于接收第一ai实体发送的终端设备的ai决策信息。处理器2202用于根据ai决策信息执行决策。
402.在一种实现方式中,收发器2201还用于向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数,其中,ai能力参数指示终端设备无ai能力。
403.在一种实现方式中,终端设备的ai决策信息是第一ai实体将状态信息输入第一ai模型进行推理得到的;状态信息是第一ai实体根据观察信息得到的。
404.示例性的,上述收发器2201可以用于执行图5中的s501和s503,图6中的s601和s605。处理器2202用于执行图6中的s606。
405.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
406.本技术实施例提供另一种终端设备,如图23所示。该终端设备用于实现上述方法
实施例中的终端设备所执行的方法,具体包括收发模块2301和处理模块2302。其中,收发模块2301用于向第一ai实体发送请求消息,该请求消息用于请求第一ai模型信息。收发模块2301还用于接收第一ai实体发送的第一ai模型信息。处理模块2302用于将状态信息输入第二ai模型进行推理,得到终端设备的ai决策信息;其中,状态信息基于观察信息确定;观察信息指示进行ai决策使用的数据;第二ai模型是终端设备根据第一ai模型信息确定的。
407.在一种实现方式中,收发模块2301还用于向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数,其中,ai能力参数指示终端设备具备ai推理能力。
408.在一种实现方式中,收发模块2301还用于向第一ai实体发送ai决策信息和状态信息。
409.在一种实现方式中,终端设备的ai信息包括ai能力参数和/或ai更新参数;收发模块2301还用于若ai更新参数指示定时ai更新或事件触发ai更新,向第一ai实体发送反馈信息,该反馈信息用于指示进行ai训练使用的数据。
410.在一种实现方式中,处理模块2302还用于若ai能力参数指示终端设备具备ai训练能力,根据ai训练数据,获取第二ai模型;其中,ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
411.在一种实现方式中,收发模块2301还用于向第一ai实体发送第二ai模型信息。收发模块2301还用于接收第一ai实体发送的更新后的第一ai模型信息,更新后的第一ai模型信息是第一ai实体根据第二ai模型信息确定的。
412.在一种实现方式中,反馈信息包括奖励信息;奖励信息用于更新所述第一ai模型。
413.在一种实现方式中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
414.示例性的,上述收发模块2301可以用于执行图7中的s701和s702,图8中的s801和s802,图9中的s901和s903,图10中的s1004和s1008,图12中的s1203a,图13中的s1301和s1308b。处理模块2302用于执行图7中的s703,图8中的s803、s804和s808,图10中的s1003,图13中的s1309a。
415.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
416.在一种实现方式中,图23中的各个模块所实现的相关功能可以通过收发器和处理器来实现。请参见图24,图24是本技术实施例提供的一种终端设备的结构示意图,该终端设备可以为具有执行本技术实施例所述的信息处理功能的设备(例如芯片)。
417.其中,终端设备可以包括收发器2401、至少一个处理器2402和存储器2403。其中,收发器2401、处理器2402和存储器2403可以通过一条或多条通信总线相互连接,也可以通过其它方式相连接。
418.其中,收发器2401可以用于发送信息,或者接收信息。可以理解的是,收发器2401是统称,可以包括接收器和发送器。例如,接收器用于接收第一ai实体发送的第一ai模型信息。又例如,发送器用于向第一ai实体发送请求消息。
419.在一种实现方式中,收发器2401可以用于实现图23所示的收发模块2301的部分或全部功能。
420.其中,处理器2402可以用于对信息进行处理。例如,处理器2402可以调用存储器2403中存储的程序代码,实现根据ai决策信息执行决策。
421.其中,处理器2402可以包括一个或多个处理器,例如该处理器2402可以是一个或多个中央处理器(central processing unit,cpu),网络处理器(network processor,np),硬件芯片或者其任意组合。在处理器2402是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu。
422.在一种实现方式中,处理器2402可以用于实现图23所示的处理模块2302的部分或全部功能。
423.其中,存储器2403用于存储程序代码等。存储器2403可以包括易失性存储器(volatilememory),例如随机存取存储器(random access memory,ram);存储器2403也可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,rom),快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);存储器2403还可以包括上述种类的存储器的组合。
424.其中,上述处理器2402和存储器2403可以通过接口耦合,也可以集成在一起,本实施例不作限定。
425.上述收发器2401和处理器2402可以用于实现本技术实施例中的信息处理方法,其中,具体实现方式如下:
426.收发器2401用于向第一ai实体发送请求消息,该请求消息用于请求第一ai模型信息。收发器2401还用于接收第一ai实体发送的第一ai模型信息。处理器2402用于将状态信息输入第二ai模型进行推理,得到终端设备的ai决策信息;其中,状态信息基于观察信息确定;观察信息指示进行ai决策使用的数据;第二ai模型是终端设备根据第一ai模型信息确定的。
427.在一种实现方式中,收发器2401还用于向第一ai实体发送终端设备的ai信息,该ai信息包括ai能力参数,其中,ai能力参数指示终端设备具备ai推理能力。
428.在一种实现方式中,收发器2401还用于向第一ai实体发送ai决策信息和状态信息。在一种实现方式中,终端设备的ai信息包括ai能力参数和/或ai更新参数。若ai更新参数指示定时ai更新或事件触发ai更新,收发器2401还用于向第一ai实体发送反馈信息,该反馈信息用于指示进行ai训练使用的数据。
429.在一种实现方式中,收发器2401还用于若ai能力参数指示终端设备具备ai训练能力,根据ai训练数据,获取第二ai模型;其中,ai训练数据包括ai决策信息、状态信息或反馈信息中的一种或多种。
430.在一种实现方式中,收发器2401还用于向第一ai实体发送第二ai模型信息。收发器2401还用于接收第一ai实体发送的更新后的第一ai模型信息,更新后的第一ai模型信息是第一ai实体根据第二ai模型信息确定的。
431.在一种实现方式中,反馈信息包括奖励信息;奖励信息用于更新所述第一ai模型。
432.在一种实现方式中,奖励信息是根据奖励函数确定的。其中,奖励函数是根据目标参数θ和目标参数的权重值φ确定的。目标参数为终端设备执行ai决策信息得到的性能数据,目标参数的权重值是第一ai实体根据一个或多个终端设备的性能数据确定的。
433.示例性的,上述收发器2401可以用于执行图7中的s701和s702,图8中的s801和
s802,图9中的s901和s903,图10中的s1004和s1008,图12中的s1203a,图13中的s1301和s1308b。处理器2402用于执行图7中的s703,图8中的s803、s804和s808,图10中的s1003,图13中的s1309a。
434.可理解,以上所示的各个模块所执行的方法仅为示例,对于该各个模块具体所执行的步骤可参照上文介绍的方法。
435.本技术实施例提供一种通信系统,该通信系统包括前述实施例所述的终端设备和第一ai实体。
436.本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有程序或指令,当所述程序或指令在计算机上运行时,使得计算机执行本技术实施例中的信息处理方法。
437.本技术实施例提供一种芯片或者芯片系统,该芯片或者芯片系统包括至少一个处理器和接口,接口和至少一个处理器通过线路互联,至少一个处理器用于运行计算机程序或指令,以进行本技术实施例中的信息处理方法。
438.其中,芯片中的接口可以为输入/输出接口、管脚或电路等。
439.上述方面中的芯片系统可以是片上系统(system on chip,soc),也可以是基带芯片等,其中基带芯片可以包括处理器、信道编码器、数字信号处理器、调制解调器和接口模块等。
440.在一种实现方式中,本技术中上述描述的芯片或者芯片系统还包括至少一个存储器,该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储模块,例如,寄存器、缓存等,也可以是该芯片的存储模块(例如,只读存储器、随机存取存储器等)。
441.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
442.计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本技术实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
443.计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(digital video disc,dvd))、或者半导体介质(例如,固态硬盘(solid state disk,ssd))等。
444.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
445.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1