【32300XLa172】【持续更新】aiOnK8s-gpu训练-volcano调度-cilium-ebpf源码解析- 392_392
课程目录:
001.全新课程 限时优惠48小时 15个名额 aiInfra-大.mp4 (30.63MB)
002.【全新课程】gpuOnk8s高性能cilium-roce组网.mp4 (24.64MB)
003.【全新课程】gpuOnk8s高性能cilium-roce组网.mp4 (12.08MB)
004.ai大模型k8s-gpu运维开发高级课程更新了 从数据存储和.mp4 (16.11MB)
005.1.1 AI大模型的火热.mp4 (31.84MB)
006.1.2 大模型和k8s运维的关系.mp4 (78.5MB)
007.1.3 AI-infra需要掌握的技能和技术组件的范围.mp4 (62.24MB)
008.1.4 对比在线服务总结要特殊关注的点.mp4 (27.26MB)
009.1.5 高吞吐存储和网络的方案.mp4 (71.39MB)
010.1.6 ROCE网卡和RDMA网络.mp4 (87.74MB)
011.1.7 说一下课程的规划.mp4 (20.8MB)
012.2.1 网络方面的问题.mp4 (32.76MB)
013.2.2 确认主的cni是哪个组件.mp4 (19.29MB)
014.2.3 认识一下cilium好处.mp4 (63.48MB)
015.2.4 找一些基准测试的数据对比一下.mp4 (45.22MB)
016.2.5 详细解读bench数据.mp4 (83.13MB)
017.2.6 规划一下集群初始化的方案.mp4 (20MB)
018.2.7 准备虚拟机.mp4 (21.92MB)
019.2.8 准备不带cni的k8s1.30集群master脚本.mp4 (86.04MB)
020.2.9 安装集群master节点.mp4 (58.45MB)
021.2.10 研究安装cilium.mp4 (64.62MB)
022.3.1 检查cilium安装结果.mp4 (62.33MB)
023.3.2 部署130node节点加入集群.mp4 (127.49MB)
024.3.3 先自己验证一下网络.mp4 (74.93MB)
025.3.4 用iperf跑吞吐测试.mp4 (92.9MB)
026.3.5 再跑网络检测并且安装hubble-client.mp4 (67.4MB)
027.3.6 部署星球大战演示版.mp4 (49.36MB)
028.3.7 看流量限制的准备.mp4 (58.15MB)
029.3.8 配置L4限制测试.mp4 (36.75MB)
030.3.9 配置L7限制测试.mp4 (57.16MB)
031.3.10 实时监控http请求链路.mp4 (54.89MB)
032.4.1 hubble的ui.mp4 (84.35MB)
033.4.2 跑联通性测试看trace的结果.mp4 (42.06MB)
034.4.3 在集群中部署kube-prometheus监控查看结.mp4 (50.23MB)
035.4.4 用hubble的ui去trace监控的链路.mp4 (47.55MB)
036.4.5 cilium容器网段文档.mp4 (88.57MB)
037.4.6 cilium容器cidr-C段分配.mp4 (63.44MB)
038.4.7 如何去修改容器网段之config-set.mp4 (71.45MB)
039.4.8 解决不生效的问题之失败.mp4 (89.82MB)
040.4.9 强制删除nodeCrd.mp4 (71.06MB)
041.4.10 新旧node-cidr网段之间联通性.mp4 (46.7MB)
042.5.1 验证ciliumNode-crd的调谐.mp4 (72.34MB)
043.5.2 验证第二种修改方式直接edit-cm.mp4 (74.28MB)
044.5.3 cilium替换kube-proxy的注意事项.mp4 (41.74MB)
045.5.4 先学习一些网络概念之vxlan封包.mp4 (81.86MB)
046.5.5 尝试抓vxlan报文.mp4 (100.07MB)
047.5.6 研究基础ip-udp-tcp报文.mp4 (121.35MB)
048.5.7 研究vxlan报文.mp4 (40.64MB)
049.5.8 再做一些准备工作.mp4 (53.74MB)
050.5.9 真正开始抓取vxlan报文了.mp4 (86.7MB)
051.5.10 分析基于ip的vxlan报文.mp4 (59.67MB)
052.6.1 到这里丝毫看不到vxlan痕迹.mp4 (39.14MB)
053.6.2 准备16进制的内层报文过滤.mp4 (69.04MB)
054.6.3 只能看到udp节点交互报文.mp4 (48.06MB)
055.6.4 计算了vxlan封包的开销.mp4 (59.32MB)
056.6.5 同理抓vxlan的http.mp4 (66.82MB)
057.6.6 同理抓vxlan的iperf流量.mp4 (47.14MB)
058.6.7 验证同节点通信的流量.mp4 (58.67MB)
059.6.8 同节点容器打iperf流量.mp4 (38.85MB)
060.6.9 cilium怎么配置的vxlan还有别的方式吗.mp4 (52.39MB)
061.6.10 学习native路由模式.mp4 (79.84MB)
062.7.1 学习一下kube-router.mp4 (32.78MB)
063.7.2 安装kube-router遇到bgp问题.mp4 (71.25MB)
064.7.3 补充学习一个bgp协议.mp4 (56.13MB)
065.7.4 bgp报文交互过程 - 3of3.mp4 (16.2MB)
066.7.4 bgp报文交互过程 - 2of3.mp4 (16.21MB)
067.7.4 bgp报文交互过程 - 1of3.mp4 (15.73MB)
068.7.5 bgp路由生成和通告.mp4 (54.85MB)
069.7.6 回过头再看kube-router关于bgp协议的文档.mp4 (69.12MB)
070.7.7 修改kube-router配置验证我们的猜想.mp4 (67.9MB)
071.7.8 我们需要学习通过helm安装cilium.mp4 (77.49MB)
072.7.9 修改charts配置.mp4 (53.2MB)
073.7.10 通过本地charts重装cilium.mp4 (53.61MB)
074.8.1 排查ds-pod没起来的原因.mp4 (58.98MB)
075.8.2 尝试修改controllManager的参数.mp4 (108.15MB)
076.8.3 尝试设置auto路由.mp4 (54.43MB)
077.8.4 汇总并分析并用patch验证当前的问题.mp4 (66.15MB)
078.8.5 通过admin-sa获取cm的配置.mp4 (53.27MB)
079.8.6 通过cm的错误日志去源码中定位.mp4 (74.83MB)
080.8.7 通过metrics指标定位cm的源码.mp4 (105.38MB)
081.8.8 搜索相关issue终于发现问题.mp4 (78.08MB)
082.8.9 继续配置cilium-native模式.mp4 (85.04MB)
083.8.10 分析node跨node访问容器路由问题.mp4 (65.48MB)
084.9.1 排查kube-router配置问题.mp4 (76.55MB)
085.9.2 尝试修改ibgp开关.mp4 (66.42MB)
086.9.3 分析router添加3种路由.mp4 (72.53MB)
087.9.4 使用iperf在native模式下打流量.mp4 (56.9MB)
088.9.5 抓包看下还有没有vxlan.mp4 (69.69MB)
089.9.6 总结一下cilium的native路由模式配置方式.mp4 (96.64MB)
090.9.7 cilium中的node网段是否要配置.mp4 (79.42MB)
091.9.8 重新安装走一遍完整的过程之重置集群.mp4 (62.68MB)
092.9.9 重新安装走一遍完整的过程之测试流量.mp4 (98.18MB)
093.9.10 排查coredns问题.mp4 (66.94MB)
094.10.1 修改coredns-forward配置 - 1of.mp4 (50.62MB)
095.10.1 修改coredns-forward配置 - 2of.mp4 (49.73MB)
096.10.1 修改coredns-forward配置 - 3of.mp4 (59.44MB)
097.10.1 修改coredns-forward配置.mp4 (158.18MB)
098.10.2 汇总cilium在k8s中提供的网络能力.mp4 (51.59MB)
099.10.3 继续学习cilium网络概念之endpoint.mp4 (90.73MB)
100.10.4 继续学习cilium网络概念之其余.mp4 (45.91MB)
101.10.5 先确定当前cilium有没有替换proxy.mp4 (77.58MB)
102.10.6 介绍cilium-dbg工具获取svc列表.mp4 (71.14MB)
103.10.7 在shoot容器中curl-svc域名.mp4 (89.42MB)
104.10.8 抓包分析结果.mp4 (80.42MB)
105.10.9 从路由层面验证clusterIp链路由cilium.mp4 (46.21MB)
106.10.10 反向验证不由kube-proxy处理.mp4 (94.53MB)
107.11.1 验证一下nodePort是不能用的.mp4 (31.19MB)
108.11.2 cilium替换kube-proxy之重置集群.mp4 (47.73MB)
109.11.3 cilium替换kube-proxy之安装.mp4 (78.99MB)
110.11.4 cilium替换kube-proxy之验收网络.mp4 (55.99MB)
111.11.5 研究一下nodePort是怎么转发的.mp4 (84.99MB)
112.11.6 验证snat之clientip是否能传递.mp4 (103.04MB)
113.11.7 proxy之cilium的DSR模式.mp4 (57.91MB)
114.11.8 用iperf压测snat-svc的流量.mp4 (60.06MB)
115.11.9 设置cilium的DSR模式和压测.mp4 (88.32MB)
116.12.1 回看基准测试中ebpf优点.mp4 (72.18MB)
117.12.2 先来确定一下有没有ebpf.mp4 (60.27MB)
118.12.3 修改配置切换之ebpf模式并压测.mp4 (86.78MB)
119.12.4 tcp大包设置并压测.mp4 (70.75MB)
120.12.5 抓包对比legacy和bpf模式2种链路.mp4 (79.06MB)
121.12.6 解决chart值由set和yaml混合设置.mp4 (64.73MB)
122.12.7 学习ebpf的基础知识.mp4 (57.93MB)
123.12.8 学习内核默认datapath.mp4 (70.82MB)
124.12.9 cilium跳过的流程.mp4 (32.53MB)
125.12.10 学习文章.mp4 (76.2MB)
126.13.1 学习cilium官方文档对于ebpf的分析.mp4 (53.72MB)
127.13.2 安装cilium内置的Prometheus套件.mp4 (64.72MB)
128.13.3 开启相关组件的metrics.mp4 (67.87MB)
129.13.4 查看grafana-dashbrd的淡定对待.mp4 (52.96MB)
130.13.5 分析采集项和dashboard.mp4 (65.79MB)
131.13.6 研究hubble-UI之基础概念.mp4 (34.04MB)
132.13.7 到底什么是hubble.mp4 (68.19MB)
133.13.8 在hubble观察压测流量.mp4 (52.19MB)
134.13.9 研究一下hubble-relay源码之Notify.mp4 (70.5MB)
135.13.10 修改metrics参数.mp4 (142.19MB)
136.14.1 从源码中推测relay组件中继作用.mp4 (65.17MB)
137.14.2 分析ui组件之镜像和svc.mp4 (45.18MB)
138.14.3 分析ui组件的api请求.mp4 (100.55MB)
139.14.4 分析flow的生成,标签怎么来的.mp4 (84.68MB)
140.14.5 分析decode方法.mp4 (67.92MB)
141.14.6 分析monitorEvent的产生方式.mp4 (56.23MB)
142.5.1 为什么要使用扩展资源.mp4 (25.96MB)
143.5.2 扩展资源在pod的使用.mp4 (25.45MB)
144.5.3 kubectl-proxy的使用和原理.mp4 (29.52MB)
145.5.4 为节点发布扩展资源.mp4 (37.83MB)
146.5.5 清理资源并总结上报链路.mp4 (53.46MB)
147.6.1 画上报的puml图.mp4 (68.42MB)
148.6.2 学习设备插件的基础知识.mp4 (48.36MB)
149.6.3 搜索demo样例.mp4 (28.77MB)
150.6.4 安装部署熟悉流程.mp4 (63.45MB)
151.6.5 根据日志和监控查看代码.mp4 (52.33MB)
152.6.6 查看dm库的注册和listAndWatch流程.mp4 (68.77MB)
153.6.7 根据日志查看Allocate分配的源码.mp4 (65.3MB)
154.6.8 查看metrics打点的逻辑.mp4 (56.95MB)
155.6.9 查看kubelet的grpc方法PRL.mp4 (90.71MB)
156.6.10 kubelet中保存device信息的3层map.mp4 (54.13MB)
157.7.1 kubelet中device分配流程.mp4 (74.23MB)
158.7.2 完成这个puml图.mp4 (89.85MB)
159.7.3 Allocate的时候request中的device.mp4 (68.91MB)
160.7.4 Allocate的时候request中的device.mp4 (113.01MB)
161.7.5 根据kubelet本地device缓存查看代码.mp4 (53.42MB)
162.7.6 allocateFunc中的mount和env是干嘛.mp4 (96.37MB)
163.7.7 k8s主项目中的设备插件样例.mp4 (69.76MB)
164.15.1 回顾k8s的roce网络.mp4 (41.85MB)
165.15.2 k8s的rdma网络设备插件.mp4 (57.85MB)
166.15.3 借鉴在离混部课程中567三章节讲解device-p.mp4 (56.95MB)
167.15.4 分析rdma-dp日志和样例.mp4 (48.44MB)
168.15.5 分析rdma-dp的源代码.mp4 (106.34MB)
169.15.6 multus-cni的简介.mp4 (56.6MB)
170.15.7 测试容器的第二张网卡.mp4 (58.87MB)
171.15.8 经过排查后发现cni-bak的问题.mp4 (53.17MB)
172.15.9 初始化calico-cni的集群.mp4 (113.59MB)
173.15.10 排查node的问题.mp4 (95.61MB)
174.16.1 在calico集群里面安装multus-cni.mp4 (66.62MB)
175.16.2 为什么会出现容器ip冲突的问题.mp4 (52.83MB)
176.16.3 容器双网卡和roce怎么结合.mp4 (47.13MB)
177.16.4 容器里的应用怎么使用双网卡.mp4 (46.85MB)
178.16.5 解决vmware虚拟机桥接网卡的问题.mp4 (28.45MB)
179.16.6 修复虚拟机环境.mp4 (65.06MB)
180.16.7 multus的源码分享之copy二进制到cni目录.mp4 (73.15MB)
181.16.8 分析daemon服务的启动和健康检查.mp4 (85.72MB)
182.16.9 分析daemon中cni创建请求http.mp4 (78.97MB)
183.16.10 cmdAdd.mp4 (119.29MB)
184.16.11 谁通过socket传递给daemon的http请.mp4 (126.82MB)
185.16.12 尝试瘦插件.mp4 (40.62MB)
186.17.1 总结运行时需要讲的地方.mp4 (29.94MB)
187.17.2 搜索文章k8s-gpu节点初始化都需要安装什么.mp4 (37.39MB)
188.17.3 记录gpu环境的安装步骤和验收之显卡驱动.mp4 (51.72MB)
189.17.4 为什么不演示ubuntu上的驱动安装.mp4 (52.46MB)
190.17.5 分析vm-worker-pci直通的根本问题.mp4 (67.98MB)
191.17.6 总结一下驱动安装的问题.mp4 (42.48MB)
192.17.7 cri运行时支持NVIDIA.mp4 (31.12MB)
193.17.8 部署整卡级别的设备插件.mp4 (60.73MB)
194.17.9 nv-gpu的共享访问.mp4 (39.19MB)
195.17.10 分析nvdp项目源代码的准备工作.mp4 (42.56MB)
196.18.1 发现注册上报硬件逻辑.mp4 (74.82MB)
197.18.2 使用go-nvml发现gpu信息.mp4 (34.26MB)
198.18.3 Allocate方法怎么分配的.mp4 (93.67MB)
199.18.4 Healthy健康检查是怎么做的.mp4 (51.71MB)
200.18.5 TimeSharing-mps共享怎么做的.mp4 (91.01MB)
201.19.1 科学的学习一下虚拟化的底层方案.mp4 (77.24MB)
202.19.2 总结几种方案.mp4 (32.39MB)
203.19.3 解读常见k8s虚拟化的插件之gse.mp4 (39.65MB)
204.19.4 分析gse项目的dp代码之注册和获取gpu.mp4 (75.07MB)
205.19.5 分析gse项目的dp代码之膨胀vmem.mp4 (29.88MB)
206.19.6 分析gse项目的dp代码之Allocate分配.mp4 (92.81MB)
207.19.7 分析gse项目的dp代码之健康检查.mp4 (23.15MB)
208.19.8 分析gse项目扩展调度器之binpack策略.mp4 (30.61MB)
209.19.9 分析gse项目扩展调度器之跨gpu设备.mp4 (26.21MB)
210.19.10 分析gse项目之filter二次过滤.mp4 (63.87MB)
211.20.1 分析gse项目之bind绑定.mp4 (31.93MB)
212.20.2 分析gse项目源码之二次filter过滤的链路.mp4 (57.34MB)
213.20.3 分析gse项目源码之二次filter过滤的避免跨G.mp4 (38.46MB)
214.20.4 分析gse项目源码之bind的获取可用gpumap.mp4 (89.74MB)
215.20.5 分析gse项目源码之bind的binpack选gp.mp4 (65.35MB)
216.20.6 分析gse项目源码之kubectl扩展.mp4 (56.86MB)
217.21.1 分析gm项目之准备工作.mp4 (40.25MB)
218.21.2 分析gm项目之dp的代码之膨胀mem.mp4 (54.59MB)
219.21.3 分析gm项目之dp的代码之获取gpu.mp4 (29.98MB)
220.21.4 分析gm项目之dp的代码之Allocate.mp4 (84.44MB)
221.21.5 分析gm项目之dp的代码之vcore数量的排序.mp4 (41.77MB)
222.21.6 分析gm项目之调度器代码.mp4 (42.86MB)
223.21.7 分析gm项目之调度器Predicate流程.mp4 (100.98MB)
224.21.8 总结对比阿里云和腾讯云的2个gpu虚拟化代码.mp4 (27.43MB)
225.22.1 gpuOnk8s监控梳理之稳定性相关.mp4 (32.63MB)
226.22.2 gpuOnk8s监控梳理之成本相关.mp4 (23.77MB)
227.22.3 部署kube-prometheus项目.mp4 (71.33MB)
228.22.4 gpu链路上独特项目怎么监控.mp4 (69.12MB)
229.22.5 以1个ds的sm案例准备sm的yaml.mp4 (61.83MB)
230.22.6 以1个ds的sm案例准备svc的yaml.mp4 (75.17MB)
231.23.7 gpu监控-exporter之nge源码解读之动态.mp4 (102.53MB)
232.23.1 什么是坏卡为什么要关注.mp4 (24.69MB)
233.23.2 gpu常见故障和识别.mp4 (46.65MB)
234.23.3 gpu监控-exporter之nge安装.mp4 (47.52MB)
235.23.4 gpu监控-exporter之k8s采集win的网.mp4 (30.36MB)
236.23.5 gpu监控-exporter之additional.mp4 (76.13MB)
237.23.6 gpu监控-exporter之nge源码解读之准备.mp4 (78.7MB)
238.24.9 涉及开源项目整理.mp4 (77.26MB)
239.24.8 分析dcgm-exporter的源码之查看kube.mp4 (83.03MB)
240.24.7 分析dcgm-exporter的源码之编写grpc.mp4 (90.53MB)
241.24.6 分析dcgm-exporter的源码之如何和pod.mp4 (82.22MB)
242.24.5 分析dcgm-exporter的源码之获取数据的方.mp4 (31.63MB)
243.24.4 分析dcgm-exporter的源码之collec.mp4 (92.04MB)
244.24.3 分析dcgm-exporter的源码之指标名称的获.mp4 (77.5MB)
245.24.2 分析dcgm-exporter之准备工作.mp4 (53.26MB)
246.24.1 gpu监控-exporter之nge源码解读之指标.mp4 (92.84MB)
247.25.1 总结坏卡的指标.mp4 (68.27MB)
248.25.2 设计自己开发坏卡的exporter的需求和思路.mp4 (23.78MB)
249.25.3 开始开发gpu-badcard-之.mp4 (39.47MB)
250.25.4 开始开发gpu-badcard之.mp4 (24.98MB)
251.25.5 开始开发gpu-badcard-exp之.mp4 (51.51MB)
252.25.6 开始开发gpu-badcard-exp之.mp4 (61.76MB)
253.25.7 进行总结并介绍guard课程中自动处理.mp4 (85MB)
254.25.8 借鉴gurad课程中自动处理-思考通用模块该怎么设.mp4 (34.27MB)
255.25.9 借鉴gurad课程中自动处理-编写通用配置yaml.mp4 (80.41MB)
256.25.10 借鉴gurad课程中自动处理-编写通用模块的ch.mp4 (65.33MB)
257.26.1 梳理一下资源利用率的问题.mp4 (36.1MB)
258.26.2 利用率监控维度标签之租户项目作业pod.mp4 (30.94MB)
259.26.3 利用率监控维度标签之pod的gpu利用率.mp4 (24.61MB)
260.26.4 利用率监控之2种指标join.mp4 (19.88MB)
261.26.5 利用率监控之编写mock-exporter之准备工.mp4 (33.58MB)
262.26.6 利用率监控之编写mock-exporter之定义指.mp4 (54.83MB)
263.26.7 利用率监控之编写暴露pod元信息.mp4 (44.6MB)
264.26.8 利用率监控之编写获取pod的gpu利用率.mp4 (49.68MB)
265.26.9 添加普罗additional采集指标.mp4 (49.6MB)
266.26.10 编写promql组合数据.mp4 (63.89MB)
267.27.1 按照租户项目作业维度进行聚合.mp4 (33.9MB)
268.27.2 把gpu-mem-cpu的数据逻辑补全.mp4 (32.87MB)
269.27.3 画grafana大盘图之定义4个变量.mp4 (56.04MB)
270.27.4 画grafana大盘图之单个job单个pod的资源.mp4 (47.57MB)
271.27.5 画grafana大盘图之租户项目维度聚合.mp4 (72.34MB)
272.27.6 把exporter部署到k8s集群中.mp4 (59.15MB)
273.27.7 gpu资源治理的报表的逻辑和横向聚合.mp4 (42.6MB)
274.27.8 做一版grafana报表.mp4 (94.2MB)
275.28.1 volcano调度安装部署的准备工作.mp4 (38.85MB)
276.28.2 根据快速开始使用的样例.mp4 (46.61MB)
277.28.3 创建第一个volcano的job.mp4 (47.06MB)
278.28.4 总结一下目前遇到的3种crd对象.mp4 (43.02MB)
279.28.5 根据官方文档学习crd.mp4 (39.37MB)
280.28.6 做实验验证weight软约束.mp4 (92.48MB)
281.28.7 感知集群资源的问题.mp4 (33.69MB)
282.28.8 重新做weight实验.mp4 (91.25MB)
283.28.9 再学习podgroup.mp4 (39.24MB)
284.28.10 再学习vj对象.mp4 (29.44MB)
285.29.1 volcano的调度文档.mp4 (30.39MB)
286.29.2 查看当前的调度配置.mp4 (29.01MB)
287.29.3 学习actions.mp4 (33.06MB)
288.29.4 学习内置的插件.mp4 (51.02MB)
289.29.5 常见场景推介配置.mp4 (22.9MB)
290.29.6 制定一下学习目标.mp4 (22.85MB)
291.30.1 先分析Admission组件的准备工作.mp4 (54MB)
292.30.2 先分析Admission-init的job做了什么.mp4 (64.57MB)
293.30.3 先分析Admission-dep启动流程之打印ho.mp4 (81.54MB)
294.30.4 先分析Admission各个hook插件的注册和它.mp4 (47.41MB)
295.30.5 先分析Admission队列hook的处理.mp4 (82.89MB)
296.30.6 先分析Admission代码中接管mwc的逻辑.mp4 (50.99MB)
297.30.7 先分析Admission代码中新增队列的逻辑.mp4 (29.94MB)
298.30.8 先分析Admission代码中修改队列的逻辑.mp4 (81.11MB)
299.30.9 借着Q新增的逻辑看控制器的处理.mp4 (67.36MB)
300.30.10 查看SyncQueue被赋值到action中的逻.mp4 (45.38MB)
301.31.1 查看syncQueue的内部处理逻辑.mp4 (41.83MB)
302.31.2 用puml图总结Queue的处理的流程.mp4 (77.69MB)
303.31.3 总结Queue的删除之类的.mp4 (41.12MB)
304.31.4 观察创建job过程中控制器的行为之mutateJo.mp4 (80.36MB)
305.31.5 观察创建job中的validate.mp4 (59.67MB)
306.31.6 做个Mpijob的实验.mp4 (78.88MB)
307.31.7 job创建时的调谐逻辑之为什么gc中会打印addj.mp4 (61.81MB)
308.31.8 创建新的job观察控制器的日志.mp4 (84.19MB)
309.31.9 分析控制器中syncJob逻辑之第一轮调谐.mp4 (69.17MB)
310.31.10 syncJob中的创建pod逻辑.mp4 (98.24MB)
311.32.1 再来分析syncJob中创建pod的步骤.mp4 (68.49MB)
312.32.2 以pluginate-ssh插件为.mp4 (57.2MB)
313.32.3 以plugiOPdate-ssh插件看.mp4 (45.13MB)
314.32.4 以plugdCte-ssh插件加.mp4 (77.34MB)
315.32.5 准备ubuntu-ssh镜像.mp4 (82.84MB)
316.32.6 替换镜像跑vj验证ssh.mp4 (87.5MB)
317.32.7 看代码前总结sshMasterPod会用init容.mp4 (77.71MB)
318.32.8 pluginOte再ssh上处理.mp4 (51.49MB)
319.32.9 pluginOnPodc上处理.mp4 (52.97MB)
320.33.1 volcano的syncJob中真正创建pod.mp4 (91.62MB)
321.33.2 job更新链路.mp4 (50.4MB)
322.33.3 pg的同步处理流程之控制器的sync.mp4 (72.65MB)
323.33.4 pgcontroller的中具体操作.mp4 (76.67MB)
324.33.5 pgcontroller为什么要接管rs创建对应的.mp4 (66.27MB)
325.33.6 修改控制器的配置关闭接管rs.mp4 (71.71MB)
326.33.7 还原配置总结一下控制器和webhook.mp4 (49.22MB)
327.34.1 回顾volcano的schedule的流程.mp4 (31.25MB)
328.34.2 配置中的动态监听逻辑.mp4 (39.62MB)
329.34.3 解析配置文件生成action和plugin.mp4 (69.72MB)
330.34.4 配置中的tiers为什么有2个plugins.mp4 (63.94MB)
331.34.5 看scheduler启动的主流程之默认Q创建.mp4 (69.34MB)
332.34.6 看scheduler启动构造的大cache对象之N.mp4 (44.63MB)
333.34.7 继续看newCache中的节点过滤和bind的并发.mp4 (77MB)
334.34.8 scheu对象new完之后的抢主.mp4 (45.54MB)
335.34.9 run启动之前回看nodeInformer的Fil.mp4 (64.21MB)
336.34.10 pod和pg的Informer的回调函数.mp4 (62.06MB)
337.35.1 回到run启动的node调谐.mp4 (75.54MB)
338.35.2 回到run启动的errtask的调谐.mp4 (36.58MB)
339.35.3 taskbind处理流程.mp4 (63.54MB)
340.35.4 追查下cacheDump的逻辑.mp4 (83.24MB)
341.35.5 分析jsonDump和all的结果.mp4 (111.38MB)
342.35.6 runOnce调度循环之wait堆积测试.mp4 (45.1MB)
343.35.7 openseesion中根据缓存构建会话对象.mp4 (66.94MB)
344.35.8 openseesion中JobValid校验job.mp4 (69.01MB)
345.35.9 openseesion中遍历插件执行on逻辑.mp4 (55.82MB)
346.35.10 依次看各个插件的OnSessionOpen方法之.mp4 (46.16MB)
347.36.1 各个插件的oso之gang的validateJob.mp4 (57.93MB)
348.36.2 各个插件的oso之gang的CheckTaskRe.mp4 (76.41MB)
349.36.4 各个action的excute之enqueue把按.mp4 (86.08MB)
350.36.5 overcommit插件中的enQueue方法.mp4 (78.37MB)
351.36.6 overcommit插件中的实验.mp4 (80.57MB)
352.36.7 overcommit因数调高之后的q的quota问.mp4 (91.9MB)
353.36.8 proportion插件关于队列的限制.mp4 (114.86MB)
354.36.9 Allocate动作的执行整体逻辑分析.mp4 (38.75MB)
355.36.10 pickUpQuesAndbs中为什么要.mp4 (102.82MB)
356.37.1 allocateResoes中关于q权重超分.mp4 (52.04MB)
357.37.2 PrePredicateFn过滤节点.mp4 (77.16MB)
358.37.3 PredicateNodes过滤节点最多选出num.mp4 (89.11MB)
359.37.4 PredicateNodes过滤节点关于资源比对.mp4 (33.78MB)
360.37.5 把候选节点分成2类.mp4 (69.48MB)
361.37.6 看priority给节点打分之orderScore.mp4 (100.99MB)
362.37.7 打分之后二次校验bestNode资源.mp4 (60.61MB)
363.37.8 总结vj的状态变化.mp4 (53.57MB)
364.37.9 分析转化为pipeline之后的逻辑.mp4 (67.1MB)
365.37.10 分析转化为binding之后的逻辑.mp4 (39.8MB)
366.38.1 在Allocate中各个插件判断jobready之.mp4 (48.44MB)
367.38.2 gang如何控制批处理调度的.mp4 (83.9MB)
368.38.3 pg中资源不满足后的rollback.mp4 (28.67MB)
369.38.4 准备组gang调度实验验证我们猜想.mp4 (46.06MB)
370.38.5 实际运行看看效果遇到overcommit问题.mp4 (59.95MB)
371.38.6 调整资源完成实验.mp4 (58.39MB)
372.38.7 分析调度器的日志01.mp4 (98.6MB)
373.38.8 分析调度器的日志02.mp4 (111.78MB)
374.39.1 volcano的schedule源码backfil.mp4 (77.88MB)
375.39.2 volcano的schedule源码backfil.mp4 (93.06MB)
376.40.1 回顾之前展望未来.mp4 (25.26MB)
377.40.2 ai训练生命周期中k8s运维需要关注的和要掌握的技.mp4 (19.97MB)
378.40.3 以大的方向先勾勒架构图.mp4 (48.63MB)
379.40.4 先聊聊存储中在线服务和ai的公司的存储有什么特点.mp4 (28.49MB)
380.40.5 问题之训练的数据.mp4 (50.74MB)
381.40.6 阿里云oss标准存储计费.mp4 (50.33MB)
382.40.7 对比cfs和oss说明为什么一定是对象存储和云迁移.mp4 (33.88MB)
383.40.8 估算1千万张图片的训练数据量.mp4 (18.2MB)
384.40.9 如此的数据量从对象存储下载的速度.mp4 (19.41MB)
385.40.10 再来讨论对象存储的qps限制.mp4 (27.85MB)
386.41.1 再回过头来讨论13分钟的时间.mp4 (27.08MB)
387.41.2 多轮训练的问题.mp4 (16.04MB)
388.41.3 分布式缓存的网络io是否可靠.mp4 (16.9MB)
389.41.4 ai训练的分布式缓存选型.mp4 (56.05MB)
390.41.5 总结ai训练中的缓存细节.mp4 (32.07MB)
391.41.6 结果文件和checkPoint.mp4 (36.52MB)
392.42.1 梳理gpu算力都需要关注什么.mp4 (33.64MB)