(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210382828.2
(22)申请日 2022.04.12
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 胡海洋 宋建飞 傅懋钟 李忠金
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱亚冠
(51)Int.Cl.
G06F 9/50(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种面向GPU集群的动态资源调度方法
(57)摘要
本发明公开一种面向GPU集群的动态资源调
度方法。 构建资源 ‑时间模型和资源 ‑性能模型;
进行分布式深度学习任务的动态资源 方案决策;
根据任务的最优方案
执行物理资源节点分
配; 在动态资源调度算法每次执行任务调度流程
前, 将分析已运行任务情况, 决定是否进行资源
迁移: 调度器执行调度算法选择新的任务至GPU
集群运行。 本发 明综合考虑了任务自身的完成时
间和用户截至完成时间, 根据GPU集群负载情况
和任务运行情况可实时动态调度GPU工作, 有效
减少了深度学习训练任务完成时间, 最大化截止
时间保证率并有效地提高了GP U集群工作效率和
GPU集群节点的资源利用率。
权利要求书4页 说明书10页 附图3页
CN 114647515 A
2022.06.21
CN 114647515 A
1.一种面向GPU集群的动态资源调度方法, 其特 征在于包括以下步骤:
步骤(1)、 基于分布式机器学习的Ring ‑Allreduce通信架构下的DNN模型迭代特征和
GPU设备间的带宽 差异, 构建 资源‑时间模型:
所述资源 ‑时间模型包括如下:
(1.1)分布式深度学习任务在某个资源方案下的实际运行时间Trun表示如下:
Trun=Tstep×Nstep×Nepoch 式(1)
其中, Tstep是DNN模型训练一个批次大小的数据集所花费的时间, Nstep是DNN模型在一个
迭代回合中可输入的一个批次大小的数据集个数, Nepoch表示迭代回合;
(1.2)Tstep由单个CPU设备上的计算时间Tcal、 CPU与CPU设备间的通信时间Tcomm所组成,
其计算公式如下:
Tstep=Tcal+Tcomm 式(2)
(1.4)Nstep会随着资源方案所包含的GPU总数不同而发生变化, 数量越多, 则Nstep则相应
地减少; Nstep、 DNN模型训练数据集大小Sdataset、 批次大小Sbatch和GPU总数NGPU在分布式数据
并行训练过程中的关系如下:
其中, NGPU由资源方案上每个节点的cused累加得到, cused表示训练任务在单个节点上被
使用的GPU数量;
(1.5)通过将DNN模型放置在 单个GPU设备上进行若干批次的迭代并记录对应的运行 时
间, 由于不涉及多设备通信, 因此该运行时间仅包含将单个GPU设备上的计算时间表示如
下:
其中, T′step是若干次迭代的运行时间, N ′step是相应的迭代次数;
(1.6)如果不存在通信时间, 那么任务的运行时间和资源方案所包含的GPU总数将为正
比关系, 即随着GPU总数上升, 任务的运行时间将会成比例下降.而存在通信时间时, 则会导
致运行效率的下降; Ri ng‑Allreduce通信架构下的通信时间Tcomm表示如下:
其中, BW是两GPU设备之间 的带宽速度, 如果两GPU设备处于同一个节点上, 则BW就是节
点内GPU设备之间的带宽, 如果两GPU设备处于不同节点, 则BW 就是节点间的网络带宽;
步骤(2)、 基于资源方案使用的资源数量、 任务运行时间和任务截止时间构建资源 ‑性
能模型:
(2.1)截止时间建模:
(2.1.1)设用户对于任务的截止时间需求由任务到达时间、 任务优先级以及任务最大
运行时间所 组成, 其中最大运行时间是任务仅在单个 GPU设备上的运行时间, 定义若干任务
优先级, 将优先级转换为任务的期望运行时间Texp, 其计算公式表示如下:
其中, α 对应任务优先级,
表示任务在单个GPU设备 上运行的时间;权 利 要 求 书 1/4 页
2
CN 114647515 A
2(2.1.2)设任 务的到达时间和运行开始时间分别为Tarr和Tstart, 则任务的截止时间Tdl和
运行结束时间Tend则可分别表示 为:
Tdl=Tarr+Texp 式(7)
Tend=Tstart+Trun 式(8)
(2.1.3)当任务的截至时间Tdl和运行结束时间Tend满足下述的式(9)时, 说明任务结束
时满足用户的截止时间需求:
Tend<Tdl 式(9)
(2.2)当资源方案所持有的GPU设备都位于同一节点上时, 其带宽速度为GPU设备之间
的直连带宽, 而当资源方案所持有的GPU设备位于不同节点上时, 其带宽速度则为节点和节
点之间的网络 带宽; 由式(5)可知, 在NGPU和Nparam不变时, Tcomm随着BW的减少而增加, 将式(2)
和式(3)代入式(1)中, 并要求多机分布式训练的时间比单机训练的运行时间要来得短, 则
可以得到如下不 等式:
其中, 不等式前半部分和后半部分分别为DNN模型在多个节点和单个节点上训练一个
迭代回合的时间, 化简式(10)可 得:
Tcomm<(NGPU‑1)×Tcal 式(11)
当DNN模型在进行多机分布式训练时, Tcomm、 NGPU和Tcal只有符合式(10)才能达到模型训
练加速的目的;
(2.3)为衡量任务在不同资源方案下的性能, 并在满足截至时间需求的多个资源方案
中选择运行效率最高的资源方案, 充分发挥资源性能, 将资源 ‑性能模型的性能公式定义
为:
(2.3)为衡量任务在不同资源方案下的性能, 并在满足截至时间需求的多个资源方案
中选择运行效率最高的资源方案, 充分发挥资源性能, 将资源 ‑性能模型的性能公式定义
为:
其中Tdl表示任务的截至时间;
步骤(3)、 在步骤(1)、 (2)基础上进行分布式深度学习任务的动态资源方案决策:
为等待队列中的每个任务基于集群空闲资源和资源布局生成可用资源方案列表, 根据
资源‑性能模型并结合 集群节点负载情况, 确定每 个任务的最优资源方案;
步骤(4)、 在步骤(3)的基础上, 根据任务的最优方案
执行物理资源节点分配;
步骤(5)、 在动态资源调度算法每次执行任务调度流程前, 将分析已运行任务情况, 决
定是否进行资源迁移;
步骤(6)、 调度器执 行调度算法选择新的任务至GPU集群运行。
2.如权利要求1所述的一种面向GPU集群的动态资源调度方法, 其特征在于步骤(1)中
所述Ring ‑Allreduce通信架构包括互相通信的GPU集群的若干节点, 每个节点中包括多个
CPU和GPU, 同一个节点上的GPU设备借助高速串行计算机扩展总线标准PCIe和快速通道互
联QPI进行通信, 其中GPU和GPU 间采用PCIe通信, GPU和CPU 间采用PCIe通信, CPU和CPU 间采
用QPI通信; GPU集群中的节点与节点之间则借助无线宽带技 术进行通信。权 利 要 求 书 2/4 页
3
CN 114647515 A
3
专利 一种面向GPU集群的动态资源调度方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:14:08上传分享