对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
世界上哪款战斗机最好看?
我的世界怎么租一个四个人的服务器?
真的有这种又苗条身材又爆炸的么?
中餐炒菜那么好吃,为什么欧美人不学去?
自己拥有一台服务器可以做哪些很酷的事情?
为什么战斗机都很好看?
你们都有学习资料吗?
如何评价西安魏家凉皮?
海贼王为什么现在被全网黑?
如何评价MiniMax开源首个视觉RL统一框架V-Triune,实现推理感知一肩挑,其技术上有何优势?
Firefox 浏览器是否还有可能浴火重生?
北大「韦神」粉丝破 2000 万,评论区成高考许愿池,如何看待家长们纷纷从韦神这里「沾福气」的心理?
为什么卫星地图上,空中飞行的飞机会有三原色的拖影?
相对于 Linux,Windows Server 存在的意义是什么?
杨幂论文一年间 AI 率从 0 飙至 91%,为什么会这样?AI 查重到底有没有统一标准?
中国的航空发动机现在是什么水平?