对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
Mac 发展那么多年结果只能剪***吗?
门板剑到底帅在哪里?
是不是 Mac Mini(M4) 不值得?
目前中国程序员和美国程序员的差距在哪里?
为什么国外网站总喜欢弹出cookie访问权限弹窗,国内网站却没有,这么做有什么意义?
学编程要不要买电脑?
多个机场明确禁止携带罗马仕、安克召回型号及批次的充电宝,那这两品牌不在召回名单中的充电宝还能放心用吗?
为什么很多大学生的手机都默认字体,尤其是男生?
php这个岗位在未来几年会消失吗,因为刚从事php有点焦虑?
一名女子在杭州万象城遭挟持被捅 20 多刀,隆胸***体救了一命,这反映出哪些公安系统的问题?
苹果从 2026 年发布的 macOS 27 起不再兼容任何 Intel Macs,这背后原因有哪些?
AI 生成时代,现有编程语言还够用吗?
紧身牛仔裤看起来不正经,真的是这样吗?
你在出租房屋发现过什么前租客留下的“宝藏”?
国内为什么那么多人黑 WordPress ?
***如你财务自由,是买一个大平层还是买一个大别墅?