专利 一种面向GPU集群的动态资源调度方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210382828.2 (22)申请日 2022.04.12 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人胡海洋　宋建飞　傅懋钟　李忠金　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师朱亚冠 (51)Int.Cl. G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称一种面向GPU集群的动态资源调度方法 (57)摘要本发明公开一种面向GPU集群的动态资源调度方法。构建资源 ‑时间模型和资源 ‑性能模型；进行分布式深度学习任务的动态资源方案决策；根据任务的最优方案执行物理资源节点分配；在动态资源调度算法每次执行任务调度流程前，将分析已运行任务情况，决定是否进行资源迁移：调度器执行调度算法选择新的任务至GPU 集群运行。本发明综合考虑了任务自身的完成时间和用户截至完成时间，根据GPU集群负载情况和任务运行情况可实时动态调度GPU工作，有效减少了深度学习训练任务完成时间，最大化截止时间保证率并有效地提高了GP U集群工作效率和 GPU集群节点的资源利用率。权利要求书4页说明书10页附图3页 CN 114647515 A 2022.06.21 CN 114647515 A 1.一种面向GPU集群的动态资源调度方法，其特征在于包括以下步骤：步骤(1)、基于分布式机器学习的Ring ‑Allreduce通信架构下的DNN模型迭代特征和 GPU设备间的带宽差异，构建资源‑时间模型：所述资源 ‑时间模型包括如下： (1.1)分布式深度学习任务在某个资源方案下的实际运行时间Trun表示如下： Trun＝Tstep×Nstep×Nepoch 式(1) 其中， Tstep是DNN模型训练一个批次大小的数据集所花费的时间， Nstep是DNN模型在一个迭代回合中可输入的一个批次大小的数据集个数， Nepoch表示迭代回合； (1.2)Tstep由单个CPU设备上的计算时间Tcal、 CPU与CPU设备间的通信时间Tcomm所组成，其计算公式如下： Tstep＝Tcal+Tcomm 式(2) (1.4)Nstep会随着资源方案所包含的GPU总数不同而发生变化，数量越多，则Nstep则相应地减少； Nstep、 DNN模型训练数据集大小Sdataset、批次大小Sbatch和GPU总数NGPU在分布式数据并行训练过程中的关系如下：其中， NGPU由资源方案上每个节点的cused累加得到， cused表示训练任务在单个节点上被使用的GPU数量； (1.5)通过将DNN模型放置在单个GPU设备上进行若干批次的迭代并记录对应的运行时间，由于不涉及多设备通信，因此该运行时间仅包含将单个GPU设备上的计算时间表示如下：其中， T′step是若干次迭代的运行时间， N ′step是相应的迭代次数； (1.6)如果不存在通信时间，那么任务的运行时间和资源方案所包含的GPU总数将为正比关系，即随着GPU总数上升，任务的运行时间将会成比例下降.而存在通信时间时，则会导致运行效率的下降； Ri ng‑Allreduce通信架构下的通信时间Tcomm表示如下：其中， BW是两GPU设备之间的带宽速度，如果两GPU设备处于同一个节点上，则BW就是节点内GPU设备之间的带宽，如果两GPU设备处于不同节点，则BW 就是节点间的网络带宽；步骤(2)、基于资源方案使用的资源数量、任务运行时间和任务截止时间构建资源 ‑性能模型： (2.1)截止时间建模： (2.1.1)设用户对于任务的截止时间需求由任务到达时间、任务优先级以及任务最大运行时间所组成，其中最大运行时间是任务仅在单个 GPU设备上的运行时间，定义若干任务优先级，将优先级转换为任务的期望运行时间Texp，其计算公式表示如下：其中， α 对应任务优先级，表示任务在单个GPU设备上运行的时间；权　利　要　求　书 1/4 页 2 CN 114647515 A 2(2.1.2)设任务的到达时间和运行开始时间分别为Tarr和Tstart，则任务的截止时间Tdl和运行结束时间Tend则可分别表示为： Tdl＝Tarr+Texp 式(7) Tend＝Tstart+Trun 式(8) (2.1.3)当任务的截至时间Tdl和运行结束时间Tend满足下述的式(9)时，说明任务结束时满足用户的截止时间需求： Tend＜Tdl 式(9) (2.2)当资源方案所持有的GPU设备都位于同一节点上时，其带宽速度为GPU设备之间的直连带宽，而当资源方案所持有的GPU设备位于不同节点上时，其带宽速度则为节点和节点之间的网络带宽；由式(5)可知，在NGPU和Nparam不变时， Tcomm随着BW的减少而增加，将式(2) 和式(3)代入式(1)中，并要求多机分布式训练的时间比单机训练的运行时间要来得短，则可以得到如下不等式：其中，不等式前半部分和后半部分分别为DNN模型在多个节点和单个节点上训练一个迭代回合的时间，化简式(10)可得： Tcomm＜(NGPU‑1)×Tcal 式(11) 当DNN模型在进行多机分布式训练时， Tcomm、 NGPU和Tcal只有符合式(10)才能达到模型训练加速的目的； (2.3)为衡量任务在不同资源方案下的性能，并在满足截至时间需求的多个资源方案中选择运行效率最高的资源方案，充分发挥资源性能，将资源 ‑性能模型的性能公式定义为： (2.3)为衡量任务在不同资源方案下的性能，并在满足截至时间需求的多个资源方案中选择运行效率最高的资源方案，充分发挥资源性能，将资源 ‑性能模型的性能公式定义为：其中Tdl表示任务的截至时间；步骤(3)、在步骤(1)、 (2)基础上进行分布式深度学习任务的动态资源方案决策：为等待队列中的每个任务基于集群空闲资源和资源布局生成可用资源方案列表，根据资源‑性能模型并结合集群节点负载情况，确定每个任务的最优资源方案；步骤(4)、在步骤(3)的基础上，根据任务的最优方案执行物理资源节点分配；步骤(5)、在动态资源调度算法每次执行任务调度流程前，将分析已运行任务情况，决定是否进行资源迁移；步骤(6)、调度器执行调度算法选择新的任务至GPU集群运行。 2.如权利要求1所述的一种面向GPU集群的动态资源调度方法，其特征在于步骤(1)中所述Ring ‑Allreduce通信架构包括互相通信的GPU集群的若干节点，每个节点中包括多个 CPU和GPU，同一个节点上的GPU设备借助高速串行计算机扩展总线标准PCIe和快速通道互联QPI进行通信，其中GPU和GPU 间采用PCIe通信， GPU和CPU 间采用PCIe通信， CPU和CPU 间采用QPI通信； GPU集群中的节点与节点之间则借助无线宽带技术进行通信。权　利　要　求　书 2/4 页 3 CN 114647515 A 3

专利 一种面向GPU集群的动态资源调度方法

专利一种面向GPU集群的动态资源调度方法