(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210535352.1
(22)申请日 2022.05.17
(71)申请人 南京邮电大 学
地址 210003 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 亓晋 陈孟玺 孙雁飞 许斌
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 母秋松
(51)Int.Cl.
G06F 9/50(2006.01)
G06F 9/48(2006.01)
G06F 9/455(2006.01)
(54)发明名称
一种面向共享式GPU集群下的容器调度方法
及装置
(57)摘要
本发明公开了一种面向共享式GPU集群下的
容器调度方法及装置, 获取Pod创建请求, 根据
Pod创建请求中Pod创建信息对Pod进行校验获得
Pod标记, 并根据Pod创建信息获取Pod总的所需
资源信息; 根据Pod创建信息中Pod业务优先级标
签和Pod总的所需资源信息对Pod进行排序, 获得
调度队列队头的待调度Pod; 根据待调度Pod的
Pod创建信息中Pod所需的CPU标签、 内存标签与
GPU标签, Pod标记和集群节点状态信息, 对节点
进行过滤, 获得Pod可调度节点; 根据Pod可调度
节点的数量和待调度Pod的Pod标记, 计算Pod对
应可调度节点的得分, 根据得分待调度Pod匹配
最优的Pod可调度节点。 本发明提高任务处理效
率及节点内资源的利用率。 既考虑负载均衡, 又
提高资源利用率, 且避免出现CP U、 内存消耗不均
衡。
权利要求书4页 说明书12页 附图4页
CN 114968566 A
2022.08.30
CN 114968566 A
1.一种面向共享式GPU集群下的容器调度方法, 其特 征在于: 包括如下步骤:
获取Pod创建请求, 根据Pod创建请求中Pod创建信息对Pod进行校验获得Pod标记, 并根
据Pod创建信息获取Pod总的所需资源信息;
根据Pod创建信息中Pod业务优先级标签和 Pod总的所需资源信息对Pod进行排序, 获得
调度队列队头的待调度Pod;
根据待调度Pod的Pod创建信息中Pod所需的CPU标签、 内存标签与GPU标签, Pod标记和
集群节点状态信息, 对节点进行 过滤, 获得Pod可调度节点;
根据Pod可调度节点的数量和待调度Pod的Pod标记, 计算Pod对应可调度节点的得分,
根据得分待调度Pod匹配最优的Pod可调度节点。
2.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所
述获取Pod创建请求, 根据Pod创建请求中Pod创建信息对Pod进 行校验获得Pod标记, 并根据
Pod创建信息获取Pod总的所需资源信息, 包括:
获取Pod创建请求中Pod创 建信息的GPU标签, 若Pod不包含GPU标签, 则Pod标记为非需
求GPU资源Pod; 若Pod包 含GPU标签, 则Pod标记为需要GPU资源Pod;
根据Pod创建信息的各个容器运行所需的资源信息, 对所有容器 中同类资源进行累加,
得出Pod总的所需资源信息 。
3.根据权利要求2所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所
述Pod总的所需资源信息包括: GUP资源申请量、 CPU资源申请量、 内存资源申请量、 GPU显存
申请量。
4.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所
述根据Pod创建信息中Pod业务优 先级标签和Pod总的所需资源信息对Pod进 行排序, 获得调
度队列队头的待调度Pod, 包括:
根据Pod业 务优先级标签数值对Pod进行从高到底排序;
如果n个待调度Pod中存在m个Pod之间Pod业务优先级标签数值差小于预设阈值, m<n,
对m个Pod筛 选GPU资源申请量, 将GPU资源申请量少的Pod优先排序;
如果GPU资源申请量相同时, 筛 选CPU资源申请量, 将CPU资源申请量少的Pod优先排序;
如果CPU资源申请量相同时, 筛选内存资源申请量, 将内存资源申请量少的Pod优先排
序;
如果GPU、 CPU、 内存资源申请量都相同, 不变动排序顺序;
排序最高的Pod为调度队列队头的待调度Pod。
5.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所
述根据待调度Po d的Pod创建信息中Pod所需的CPU标签、 内存标签与 GPU标签, Po d标记和集
群节点状态信息, 对节点进行 过滤, 获得Pod可调度节点, 包括:
获取待调度Pod的Pod所需的CPU标签、 内存标签与GPU标签;
获取当前集群下所有节点状态, 并获取空闲节点资源信 息, 空闲节点资源信息包括: 节
点所持有的CPU时钟频率、 CPU 使用率、 可用内存、 GPU 核心数、 GPU时钟频率、 GPU 使用率;
遍历集群中的所有空闲节点, 当节点所持有的CPU时钟频率大于待调度Pod的CPU时钟
频率标签值时, 则将该节点标记为可调度节点, 节点可调度标签值标记为1, 否则标记为0;
遍历所有可调度节点标签值为1的节点, 当节点所持有的可用内存值大于待调度Pod的权 利 要 求 书 1/4 页
2
CN 114968566 A
2内存标签值, 则持续将该节点可调度标签值标记为1, 否则将其标记为0;
若待调度Pod为非需求GPU资源Pod, 则将所有可调度节点标签值为1的节点作为Pod可
调度节点;
若待调度Pod为需求GPU资源Pod, 则遍历所有可调度节点标签值为1的节点, 当节点所
持有的GPU核心数大于GPU数量标签值, 且节点GPU可用显存总值大于GPU显存标签值时, 将
节点作为Pod可调度节点。
6.根据权利要求5所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 还
包括:
检查所有Pod可调度节点的请求卷和节点上其他Pod使用的卷是否冲突, 如果存在冲
突, 则过滤该Pod可调度节点。
7.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所
述根据Pod可调度节点的数量和待调度Pod的Pod标记, 计算Pod对应可调度节点的得分, 根
据得分待调度Pod匹配最优的Pod可调度节点, 包括:
当Pod可调度节点数量 等于1, 将该 可调度节点作为 最佳节点;
当Pod可调度节点数量大于1, 若待调度Pod的Pod标记为非需要GPU资源Pod, 计算非需
求GPU资源Pod对应可调度节点的得分Score1, 选择得分最高节点作为最佳节点, 并将待调
度Pod与最佳节点进行绑定;
非需求GPU资源Pod对应可调度节点的得分Score1计算公式如下:
其中,
为CPU、 内存资源均衡第一得分的权重,
为
G PU空 闲 率得分的 权重 ,
为 C PU 、 内 存资 源 均衡 第一得分 ,
GPU空闲率得分;
所述
其中,
表示待调度Pod的CPU资源申请量,
表示可
调度节点内剩余空闲CPU总量之和,
表示待调度Pod 的内存资源申请
量,
表示可调度节点内剩余空闲内存资源之和, abs(*)表示取绝对
值;
所述
计算公式如下:
(2)
其中 ,
表示可调度节点内剩余空闲GPU显存总量之和,权 利 要 求 书 2/4 页
3
CN 114968566 A
3
专利 一种面向共享式GPU集群下的容器调度方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:14:08上传分享