对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
杭州一家面馆标价一碗面 558 元,为什么这么贵?这种「明码标价」合理吗?
消息称苹果 macOS 26 将不再支持部分旧款英特尔 CPU 机型,这背后原因有哪些?
一万亿人民币和龙珠一万战斗力,你选择哪个?
如何评价 6 月 26 号发布的小米AI眼镜?
家用nas为了延长硬盘寿命每天晚上定时关机可以么?
那你说什么样的是美女?
你们是怎样看待警察这一职业的?
新买了一台nas,第一个月下载20t+,上传5+,不会被网警盯上吧?
为什么这么多人讨厌中国移动?
现在工作中k8s是使用containerd还是docker来管理容器?
真的没有人觉得2k是一个很尴尬的分辨率吗?
韦东奕(北大韦神)要是去写游戏引擎代码,能不能把虚幻引擎按在地上摩擦?数学好真能‘降维打击吗?
改制后的世俱杯,拥有梅西的迈阿密国际遭遇老东家巴黎圣日耳曼,你怎么看这场比赛?
为什么负荷那么大的腰部力量训练的人不会受伤,长期无载荷久坐的人会出现腰肌劳损?
为什么健身的女性普遍喜欢晒臀照?什么心理?
如何评价 Vue.js 纪录片?