对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何?
北京多所高校建议舍弃罗马仕充电宝,品牌方称正调查,罗马仕充电宝质量如何?如何排查所用充电宝是否安全?
为什么很多公司都不招大龄码农?
编程语言函数定义有fn,fun,func,function,def关键字,你喜欢哪一种?
高薪裁员的中年人送外卖还是开滴滴好?
养乌龟是什么体会?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
为何 Linus 一个人就能写出这么强的系统,中国却做不出来?
如何评价B站up主***千代退网?
如何将docker目录挂载到宿主机上?
Switch模拟器哪个好?
刘强东看到了什么,才去搞外卖?
明明无线鼠标有那么多优点,为什么还有那么多人买有线鼠标?
为什么腰突不受到医学界的重视?
有些家长可以恶心到什么程度?
都说夸孩子要夸过程不要夸结果,那怎么才能正确地夸孩子呢?如何去寻找孩子的闪光点?