对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
续签香港优才,怎么证明申请人“常住香港”?
小米 YU7 发布会,有哪些大说特说的点其实是行业基操?
如何看待 稚晖君第五轮融资 估值将达70亿?
为什么全世界无一人能实现新mac直接全功能稳定装Win 11 arm,或PC直接装macOS arm?
为什么台式 PC 还处在组装(DIY)阶段?
有哪些故意缩短产品寿命的设计?
目前美军还有哪些领域是明显领先于解放军的?
英特尔的衰落,是因为真正做事的工程师被挖了?还是公司战略出问题?
《西西里美丽传说》女主角,在当时打扮这么高调,不觉得带给自己很多不便吗?如何理解她的心态?
用紫砂壶泡茶真的比别的茶具泡出来的茶更有味道吗?
吃爽了是怎样一种体验?
我应该设置多少kb才能让他不能玩游戏?
为什么QQ上的网络状态没有了?
极简主义者的手机里一般会装哪些应用?
多个充电宝或电芯品牌的 3C 认证证书被暂停,涉及罗马仕、安克、绿联、倍思、安普瑞斯等,发生了什么?
在C中,如何实现删掉一行注释无法运行?