-
文中从阻塞率、资源利用率、策略熵、价值损失和运行时间及收敛速度五个方面评价DeepRWA算法的性能。并与现有的算法KSP-FF对比,验证所提出算法的有效性,借鉴参考文献[16]的参数设置,KSP-FF算法的备选路径设为5条,即K=5,下面实验中KSP-FF参数均采用上述设置。
-
仿真实验采用如图4所示的14节点NSFNET拓扑,链路间的数字代表节点间的距离(单位:km)。实验采用动态的业务模型,业务服从泊松分布,服务时间遵循指数分布,具体参数如表1所示,软件配置操作系统选用Ubuntu16.04,GPU为NVIDIAGeforce1080 Ti,CPU为i7-6700 k,程序设计采用python3.7,tensorflow版本为1.14.0。
Parameters Value Average arrival time of dynamic service/s 1/12 Continuing times of dynamic service/s 13 Available wavelength of channel 18 Table 1. Serve parameters of simulation experiment
-
(1)阻塞率
动态RWA问题的目标是最小化阻塞率,对比了DeepRWA算法和KSP-FF算法阻塞率指标随业务数变化情况。图5给出了上述两种算法随着业务数增加的变化曲线。从图5可以看出,业务请求数较小时DeepRWA阻塞率较大,为0.16左右。这是因为业务请求数较少时,DeepRWA训练次数较少,没有学习到理想的路由与波长分配策略。当业务请求数达到370000个后,经训练的DeepRWA路由和波长分配方案的阻塞率降到0.01,比KSP-FF算法的阻塞概率近似低0.06。原因是KSP-FF寻找路由只考虑最短路径,遇到无可用波长的链路就会发生阻塞;而DeepRWA在选路过程中考虑路径的跳数及波长占用情况,综合考虑选择一条路径,尽可能避开了拥塞链路。因此,DeepRWA较KSP-FF算法具有更低的(业务)阻塞率。
(2)资源利用率
资源利用率表示被业务利用的资源占总资源的比例,资源利用率越大,代表网络中被充分利用,算法性能会更好。图6比较了DeepRWA算法和KSP-FF算法资源利用率随业务数变化的性能曲线。从图6可以看出,DeepRWA算法资源利用率在训练过程中逐步提高最后趋于稳定。起初资源利用率较低且波动较大,因为随着业务请求数增多,要想服务这些业务,就要不断地分配波长,网络的资源利用率必然呈上升趋势。在训练过程中,业务数较小时资源利用率为0.51,当业务数达到150000后,DeepRWA资源利用率上升至0.59,表1中设定的18个波长平均有10.6个波长被利用;而在KSP-FF算法下,设定的18个波长中平均有10.1个波长被利用。可见DeepRWA的路由和波长策略使光网络中资源利用率超过了KSP-FF算法。图7表示实验环境的其它参数不变,资源利用率随着信道波长数变化关系曲线图。随着信道波长数增加,资源利用率逐渐降低。由于业务强度一定,当信道波长数增加时,链路间空闲信道明显增加。根据资源利用率的定义,它会逐渐降低,使网络拥塞问题有所改善。
(3)策略熵
图8描绘了DeepRWA算法随着业务强度增加策略熵的变化曲线,熵值的变化可以反映所提出的算法是否进行了有效的学习。熵值越大说明算法得到的路由和波长策略不确定性越强;策略熵收敛表明算法的随机性降到最低,模型已经训练完成。当业务强度较小时,熵值较大,生成的路由与波长决策随机性较大;随着业务请求数量的增加,当该算法通过3000000个业务请求后,策略熵收敛,熵值从1.5下降至0.15,说明DeepRWA已经学习到一些规则并可以做出随机性相对较小的路由与波长决策。
(4)价值损失
价值损失函数用于计算价值神经网络预估值和真实值的差距,从而指导下一步的训练向正确的方向进行。价值损失描述的是累积收益与价值函数预测值的接近程度,用于评价算法的优劣。图9描述了价值损失随着训练过程的变化曲线,训练过程中价值损失逐渐降低,训练逐渐稳定。当业务数较少时,选择的路由与波长策略的预测值与累积收益差距较大。随着业务数的增加,训练后算法的预测值逐渐接近于累积收益,当通过450000个业务请求后训练算法的价值损失减少至2.5左右,预测值和累积收益比较接近,表明采取的路由与波长策略比较合适。
(5)运行时间及收敛速度
运行时间是衡量算法时间复杂度的评价指标,运行时间越短表明算法的时间复杂度越小、适应性越好。针对单个业务请求,在业务服从泊松分布、到达率和服务时长的设置同表1时,对比了DeepRWA算法和KSP-FF算法运行时间随波长数变化情况,如图10(a)所示。由图10(a)可知,当信道波长数增加时,两种算法运行时间均明显增加。因为当信道波长数增加时,路由与波长分配策略复杂度增加。但是,随波长数增加,DeepRWA算法运行时间增长的速度明显慢于KSP-FF。当信道中包含18个波长时,与KSP-FF算法相比,DeepRWA算法运行时间增加了0.12 ms;当信道中包含的波长数增加至45时,两种算法的运行时间大致相同;之后,DeepRWA算法运时间优势逐渐明显,当信道中包含的波长数增加至58时,与KSP-FF算法相比,DeepRWA算法运行时间减少了0.07 ms。因此,DeepRWA较KSP-FF算法更适应于波长数较多的光网络。
算法的收敛速度反应了智能体使网络达到最低阻塞率需要的训练时长,也即算法收敛需要的业务数量。使用多线程训练神经网络,线程数的不同也会影响网络收敛速度。文中采用A3C算法,业务服从泊松分布,到达率、服务时长和信道波长数的设置同表1,仿真得到算法收敛所需业务数随线程数变化曲线如图10(b)所示,可以看出当线程数增加时,算法训练至收敛需要的业务数呈指数式减少。当线程数为2时,算法需要690000个业务进行训练;当线程数增加至8时,算法收敛所需的业务数已减少至190000。由此可知,在CPU/GPU支持的最大线程范围内,增加线程数可以明显减少算法的训练时间。
Optimization of routing and wavelength optimization algorithm for optical transport network based on reinforcement learning
doi: 10.3788/IRLA20220084
- Received Date: 2022-02-07
- Rev Recd Date: 2022-07-23
- Publish Date: 2022-11-30
-
Key words:
- optical transport network /
- routing and wavelength optimization /
- reinforcement learning /
- routing selection /
- wavelength assignment
Abstract: Aiming at the routing and wavelength problems of dynamic services in optical transport network, a deep routing wavelength assignment algorithm based on reinforcement learning is proposed. The algorithm is based on a software defined network architecture, flexibly adjusts and controls the optical transport network through reinforcement learning, and realizes the optimization of the optical network routing wavelength assignment strategy. For the problem of routing selection, combined with the wavelength usage on the link, the A3C algorithm is used to select the appropriate route to minimize the blocking rate; for the problem of wavelength assignment, the first fit algorithm is used to select the wavelength. Considering multiple indicators such as blocking rate, resource utilization, policy entropy, value loss, execution time, and speed of algorithm convergence, the 14-node NSFNET network topology simulation experiment is implemented. The results show that when the channel contains 18 wavelengths, compared with the traditional KSP-FF algorithm, the blocking rate of this routing wavelength assignment algorithm is reduced by 0.06, and the resource utilization rate is increased by 0.02, but the execution time is increased. When the number of wavelengths exceeds 45, compared with KSP-FF, the proposed algorithm maintains the blocking rate and resource utilization, while the execution time begins to decrease. When the number of wavelengths is 58, compared with KSP-FF, the proposed algorithm's execution time is reduced by 0.07 ms. It can be seen that the proposed algorithm optimizes the routing and wavelength assignment.