软件定义光网络中收发机的配置方法及装置与流程

文档序号：19282740发布日期：2019-11-29 23:08阅读：194来源：国知局

本发明涉及光通信技术领域，尤其涉及一种软件定义光网络中收发机的配置方法及装置。

背景技术：

软件定义光网络(softwaredefinedopticalnetwork，sdon)的架构实现了由控制功能与传送功能的紧耦合到控制功能与运营功能的紧耦合、以连接过程为核心的闭合控制到以组网过程为核心的开放控制的模式转变，代表了未来光网络技术与应用新的发展方向。sdon方案有很多优点，比如，能够解决异构网络之间的互联互通问题、灵活性高和对光网络资源的虚拟化管理等。虽然sdon技术研究还处于起步阶段，但作为软件定义网络(softwaredefinednetwork，sdn)与光网络结合的热门技术，已经得到了国内外各大运营商和设备商的高度重视。

目前，高清视频、虚拟现实和云计算等新兴业务导致了光网络中带宽需求的不断增长。由于不同的终端用户类型、高度时变的业务请求、不同的传输距离和传输质量，光网络状态是复杂和动态变化的。因此，根据实时光网络状态按需配置光网络中的收发机至关重要，这会显著影响光网络延迟和频谱资源利用率。

现有技术中，光网络中的控制器收集不同配置动作下光信号的传输性能以建立静态查找表，其中的传输性能通常为光信噪比(opticalsignalnoiseratio，osnr)。在实际配置中，根据光信噪比需求，在表中查找符合光信噪比需求的配置动作，并根据配置动作对收发机进行配置。

但随着光网络状态的变化，光网络状态的种类将会大大增加，此时需要建立不同光网络状态下的多份静态查找表，在实际配置的过程中，结合光网络状态和光信噪比需求，找到对应的静态查找表，并在该表中查找符合光信噪比需求的配置动作，并根据配置动作对收发机进行配置。这一过程不仅非常耗时，还会占用较多资源。

技术实现要素：

本发明实施例提供一种软件定义光网络中收发机的配置方法及装置，用以解决现有的软件定义光网络中收发机配置方法耗时且占用较多资源的问题。

第一方面，本发明实施例提供一种软件定义光网络中收发机的配置方法，包括：

将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果；

根据所述输出结果，从预设的配置动作集中确定目标配置动作，并根据所述目标配置动作对所述软件定义光网络中的收发机进行配置；

其中，所述决策网络基于训练网络得到；

所述训练网络根据训练集训练得到，所述训练集包括多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；

所述样本标签集包括所述样本配置动作对应的样本即时奖励和样本配置后网络状态。

进一步地，将软件定义光网络的配置前网络状态输入至决策网络，之前还包括：

获取多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；

将每个样本配置前网络状态及对应的样本配置动作和样本标签集作为一个训练样本；

得到多个训练样本，将所述多个训练样本作为训练集，通过所述训练集对训练网络进行训练；

每对所述训练网络训练预设次数，将所述训练网络的模型参数传递给所述决策网络。

进一步地，通过所述训练集对所述训练网络进行训练，包括：

对于任意一个训练样本，将所述训练样本中的样本配置前网络状态输入至所述训练网络，得到所述训练网络输出的与预设的样本配置动作集中多个样本配置动作一一对应的多个期望即时奖励和多个期望配置后网络状态；

基于损失函数，根据所述多个期望即时奖励、所述多个期望配置后网络状态和所述样本标签集，获取所述训练网络的损失值；

基于误差反向传播算法更新所述训练网络的模型参数。

进一步地，将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果，包括：

将软件定义光网络的配置前网络状态输入至所述决策网络，获取所述决策网络输出的与所述配置动作集中多个配置动作一一对应的多个预测即时奖励和多个预测配置后网络状态；

将所述多个预测即时奖励和所述多个预测配置后网络状态作为所述输出结果。

进一步地，根据所述输出结果，从所述决策网络的配置动作集中确定目标配置动作，包括：

根据每个配置动作对应的预测即时奖励和预测配置后网络状态，计算每个配置动作对应的期望奖励；

得到与多个配置动作一一对应的多个期望奖励，并从所述多个期望奖励中，确定最大期望奖励；

将所述最大期望奖励对应的配置动作作为所述目标配置动作。

进一步地，根据所述目标配置动作对所述软件定义光网络中的收发机进行配置，之后还包括：

获取配置后网络的实际即时奖励和实际网络状态；

将所述配置前网络状态作为新的样本配置前网络状态，将所述目标配置动作作为新的样本配置动作，将所述实际即时奖励和所述实际网络状态组合作为新的样本标签集；

将所述新的样本配置前网络状态、所述新的样本配置动作和所述新的样本标签集作为训练样本，添加至所述训练集中。

第二方面，本发明实施例提供一种软件定义光网络中收发机的配置装置，包括：

输入模块，用于将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果；

配置模块，用于根据所述输出结果，从预设的配置动作集中确定目标配置动作，并根据所述目标配置动作对所述软件定义光网络中的收发机进行配置；

其中，所述决策网络基于训练网络得到；

所述训练网络根据训练集训练得到，所述训练集包括多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；

所述样本标签集包括所述样本配置动作对应的样本即时奖励和样本配置后网络状态。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的软件定义光网络中收发机的配置方法及装置，通过持续对训练网络进行训练，并基于训练网络得到决策网络，以将软件定义光网络的配置前网络状态输入至决策网络，根据决策网络的输出结果，从预设的配置动作集中确定目标配置动作，并根据目标配置动作对软件定义光网络中的收发机进行配置，节省了配置时间，并降低了资源占用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种软件定义光网络中收发机的配置方法流程图；

图2为本发明实施例提供的一种软件定义光网络中收发机的配置装置的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种软件定义光网络中收发机的配置方法流程图，该方法的执行主体为软件定义光网络中收发机的配置装置，例如控制器，如图1所示，该方法包括：

步骤101，将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果；

步骤102，根据所述输出结果，从预设的配置动作集中确定目标配置动作，并根据所述目标配置动作对所述软件定义光网络中的收发机进行配置；

具体地，配置前网络状态指的是在对软件定义光网络中收发机(发射机和接收机)进行配置之前，软件定义光网络的网络状态。网络状态可以包括物理层状态和网络层状态，其中，物理层状态可以包括光信噪比(opticalsignalnoiseratio，osnr)、色散(chromaticdispersion，cd)、损伤、q因子和误码率(biterrorrate，ber)等，网络层状态可以包括归一化业务量、业务请求(源节点和目的节点、占用带宽)和业务所需服务质量(qualityofservic，qos)等。举个例子，本发明实施例中的配置前网络状态可以为osnr15db，归一化业务量0.5。

预设的配置动作集包括多个配置动作，其中，配置动作指的是对软件定义光网络中收发机进行配置的配置策略。配置策略可以是配置收发机的波特率、调制格式、前向纠错(forwarderrorcorrection，fec)编码开销等。其中，波特率为7gbaud、8gbaud、14gbaud或16gbaud，调制格式为qpsk或16qam，fec编码开销为7％或23％。本发明实施例中的配置动作集可包括4*2*2＝16个配置动作，分别为不同波特率、不同调制格式和不同fec编码开销的排列组合，举个例子，配置动作集中的一个配置动作可以为：波特率7gbaud，调制格式qpsk，fec编码开销7％。

将配置前网络状态输入至训练后的决策网络，可获取决策网络的输出结果，例如，输出结果可以为：在配置前网络状态下，通过配置动作集中的多个配置动作分别对收发机进行配置，预测得到配置后的收发机与多个配置动作一一对应的多个性能优劣程度。可以理解的是，性能优劣程度可以用来衡量配置动作的好坏，性能越优，则代表配置动作越好。举个例子，在“osnr15db，归一化业务量0.5”这个配置前网络状态下，通过配置动作集中的16个不同的配置动作分别对收发机进行配置，即，根据16个不同的配置动作分别对收发机进行16次不同的配置，预测得到配置后的收发机与16个不同的配置动作一一对应的16个性能优劣程度。

其中，所述决策网络基于训练网络得到，需要说明的是，训练网络为与决策网络模型结构完全一致的神经网络模型，此时，决策网络基于训练网络得到指的是：决策网络的模型参数基于训练网络的模型参数得到。例如，训练网络每训练预设次数，将自身的模型参数传递给决策网络，以使得决策网络的模型参数与训练网络的模型参数一致。

所述训练网络根据训练集训练得到，所述训练集包括多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集。

需要说明的是，样本配置前网络状态与配置前网络状态的定义类似，可包括上述的物理层状态和网络层状态，此处不再赘述。

所述样本标签集包括所述样本配置动作对应的样本即时奖励和样本配置后网络状态。

其中，样本即时奖励根据配置后的收发机的传输性能计算得到，其中，传输性能指的是时延、占用带宽、阻塞率、丢包率、吞吐量和时延抖动等。样本即时奖励rt的计算公式为：

rt＝f1(td,△f)；

其中，td为时延，△f为占用带宽，f1为映射函数。

样本配置后网络状态指的是在对软件定义光网络中收发机进行配置之后，软件定义光网络的网络状态，其与样本配置前网络状态中包含的信息种类相同，此处不再赘述。

输出结果为：在配置前网络状态下，通过配置动作集中的多个配置动作分别对收发机进行配置，预测得到配置后的收发机与多个配置动作一一对应的多个性能优劣程度，例如与配置动作集中的16个配置动作一一对应的16个性能优劣程度，则从配置动作集中选取最优性能对应的配置动作作为目标配置动作，并根据该目标配置动作对软件定义光网络中的收发机进行配置。

本发明实施例提供的软件定义光网络中收发机的配置方法，通过持续对训练网络进行训练，并基于训练网络得到决策网络，以将软件定义光网络的配置前网络状态输入至决策网络，根据决策网络的输出结果，从预设的配置动作集中确定目标配置动作，并根据目标配置动作对软件定义光网络中的收发机进行配置，节省了配置时间，并降低了资源占用。

基于上述任一实施例，将软件定义光网络的配置前网络状态输入至决策网络，之前还包括：

步骤001，获取多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；

步骤002，将每个样本配置前网络状态及对应的样本配置动作和样本标签集作为一个训练样本；

步骤003，得到多个训练样本，将所述多个训练样本作为训练集，通过所述训练集对训练网络进行训练；

步骤004，每对所述训练网络训练预设次数，将所述训练网络的模型参数传递给所述决策网络。

具体地，本发明实施例为训练网络的训练过程，具体训练过程如下：

首先，获取多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集。获取方式可以为：

将当前网络状态作为样本配置前网络状态，并将该状态输入至决策网络，根据决策网络的输出结果确定对收发机进行配置的动作；然后，根据该动作对收发机进行配置，并在配置后，获取配置后网络的实际即时奖励和实际网络状态，并将样本配置前网络状态作为一个样本配置前网络状态、将对收发机进行配置的动作作为一个样本配置动作、将实际即时奖励和实际网络状态组合作为一个样本标签集；最后，将一个样本配置前网络状态，对应的一个样本配置动作和对应的一个样本标签集作为一个训练样本。

然后，根据上述方法，可得到多个训练样本。

最后，将多个训练样本依次输入至训练网络，根据训练网络的每一次输出结果对训练网络模型参数进行调整，以多训练网络进行多次训练。

需要说明的是，训练网络一直持续不停地进行训练。

每对所述训练网络训练预设次数，例如每训练200次，将训练网络的模型参数传递给所述决策网络。

基于上述任一实施例，通过所述训练集对所述训练网络进行训练，包括：

基于损失函数，根据所述多个期望即时奖励、所述多个期望配置后网络状态和所述样本标签集，获取所述训练网络的损失值；

基于误差反向传播算法更新所述训练网络的模型参数。

具体地，本发明实施例中的训练网络包括：一个输入层、2个全连接层(fc1、fc2)、一个输出层。其中，输入层、fc1、fc2、输出层依次连接。输入层的输入为样本配置前网络状态和样本配置动作集，fc1、fc2分别有60、80个神经元节点，fc1的所有神经元节点与fc2的神经元节点进行全连接，输出层输出：在样本配置前网络状态下，对收发机执行样本配置动作集中每个样本配置动作后，配置后的收发机的期望即时奖励和期望配置后网络状态。由于样本配置动作集包括多个样本配置动作，因此，本发明实施例可得到与多个样本配置动作一一对应的多个期望即时奖励和多个期望配置后网络状态。

损失函数可以为交叉熵损失函数，根据多个期望即时奖励、多个期望配置后网络状态和样本标签集中的多个样本即时奖励和样本配置后网络状态，可计算得到损失值。

在计算得到损失值之后，可利用误差反向传播算法更新训练网络的模型参数，以完成本次训练。

基于上述任一实施例，本发明实施例对决策网络的使用过程进行说明，即，

将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果，包括：

将所述多个预测即时奖励和所述多个预测配置后网络状态作为所述输出结果。

具体地，将软件定义光网络的配置前网络状态输入至决策网络，决策网络输出：在配置前网络状态下，对收发机执行配置动作集中每个配置动作后，配置后的收发机的预测即时奖励和预测配置后网络状态。由于配置动作集包括多个配置动作，因此，本发明实施例可得到与多个配置动作一一对应的多个预测即时奖励和多个预测配置后网络状态。

将这多个预测即时奖励和多个预测配置后网络状态作为决策网络的输出结果。

基于上述任一实施例，本发明实施例对训练后的决策网络的使用过程进行进一步说明，即，根据所述输出结果，从所述决策网络的配置动作集中确定目标配置动作，包括：

根据每个配置动作对应的预测即时奖励和预测配置后网络状态，计算每个配置动作对应的期望奖励；

得到与多个配置动作一一对应的多个期望奖励，并从所述多个期望奖励中，确定最大期望奖励；

将所述最大期望奖励对应的配置动作作为所述目标配置动作。

具体地，期望奖励r的计算公式为：

r＝f2(r1,r2)；

其中，r1为预测即时奖励，r2为预测配置后网络状态，f2为映射函数。

通过上述计算公式，可以得到与多个配置动作一一对应的多个期望奖励，将这多个期望奖励中的最大期望奖励对应的配置动作作为目标配置动作，从而根据该目标配置动作对软件定义光网络中的收发机进行配置。

需要说明的是，在本发明实施例，还可不将最大期望奖励对应的配置动作作为目标配置动作，而将除去最大期望奖励之外的其他期望奖励作为目标配置动作，目的是为了使训练样本更多样化，避免陷入局部最优。本发明实施例对此不作具体限定。

基于上述任一实施例，根据所述目标配置动作对所述软件定义光网络中的收发机进行配置，之后还包括：

获取配置后网络的实际即时奖励和实际网络状态；

将所述新的样本配置前网络状态、所述新的样本配置动作和所述新的样本标签集作为训练样本，添加至所述训练集中。

具体地，在根据目标配置动作对收发机进行配置后，获取配置后网络的实际即时奖励和实际网络状态，并将配置前网络状态作为新的样本配置前网络状态，将目标配置动作作为新的样本配置动作，将实际即时奖励和实际网络状态组合作为新的样本标签集，并将新的样本配置前网络状态、新的样本配置动作和新的样本标签集作为训练样本，添加至训练集中，以对训练集进行更新，进而通过更新后的训练集对训练网络进行训练。

基于上述任一实施例，图2为本发明实施例提供的一种软件定义光网络中收发机的配置装置的结构示意图，如图2所示，该装置包括：

输入模块201，用于将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果；配置模块202，用于根据所述输出结果，从预设的配置动作集中确定目标配置动作，并根据所述目标配置动作对所述软件定义光网络中的收发机进行配置；其中，所述决策网络基于训练网络得到；所述训练网络根据训练集训练得到，所述训练集包括多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；所述样本标签集包括所述样本配置动作对应的样本即时奖励和样本配置后网络状态。

本发明实施例提供的装置，具体执行上述各方法实施例流程，具体请详见上述各方法实施例的内容，此处不再赘述。本发明实施例提供的装置，通过持续对训练网络进行训练，并基于训练网络得到决策网络，以将软件定义光网络的配置前网络状态输入至决策网络，根据决策网络的输出结果，从预设的配置动作集中确定目标配置动作，并根据目标配置动作对软件定义光网络中的收发机进行配置，节省了配置时间，并降低了资源占用。

基于上述任一实施例，本发明实施例提供的装置，还包括：

获取模块，用于获取多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；组合模块，用于将每个样本配置前网络状态及对应的样本配置动作和样本标签集作为一个训练样本；训练模块，用于得到多个训练样本，将所述多个训练样本作为训练集，通过所述训练集对训练网络进行训练；传递模块，用于每对所述训练网络训练预设次数，将所述训练网络的模型参数传递给所述决策网络。

图3为本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(communicationsinterface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储在存储器303上并可在处理器301上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果；根据所述输出结果，从预设的配置动作集中确定目标配置动作，并根据所述目标配置动作对所述软件定义光网络中的收发机进行配置；其中，所述决策网络基于训练网络得到；所述训练网络根据训练集训练得到，所述训练集包括多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；所述样本标签集包括所述样本配置动作对应的样本即时奖励和样本配置后网络状态。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：将软件定义光网络的配置前网络状态输入至决策网络，获取所述决策网络的输出结果；根据所述输出结果，从预设的配置动作集中确定目标配置动作，并根据所述目标配置动作对所述软件定义光网络中的收发机进行配置；其中，所述决策网络基于训练网络得到；所述训练网络根据训练集训练得到，所述训练集包括多个样本配置前网络状态以及每个样本配置前网络状态对应的样本配置动作和样本标签集；所述样本标签集包括所述样本配置动作对应的样本即时奖励和样本配置后网络状态。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张民;李进;王丹石;崔思恒;吕宏伟;徐易兰;李帅
技术所有人：北京邮电大学
我是此专利的发明人

上一篇：单泵浦光纤参量放大器及对其进行优化增益的方法与流程
上一篇：一种非互易磁光太赫兹波束扫描器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。