对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
如果苹果真的下架了微信的话,会发生什么?
如何系统性的学习RAG、Agent、MCP?
女朋友送的switch被亲戚要求送小孩我该怎么办?
Golang与Rust哪个语言会是今后的主流?
电影《碟中谍》系列中哪一部最好?
俗话说“女人三十如狼四十如虎”,到底是不是真的??
鱼缸能不能做到一直不换水还很清澈?
你认为这次伊以冲突,以色列这次干得漂亮吗?
腾讯开源的 libco 号称千万级协程支持,那个共享栈模式原理是什么?
男朋友给400元,让加油加满,我只加了340,这就是自作主张了吗?
为什么负荷那么大的腰部力量训练的人不会受伤,长期无载荷久坐的人会出现腰肌劳损?
小鹏G7发布,对标小米YU7有优势吗?
印度是真的烂还是咱们在信息茧房里面?
洞庭湖为什么越来越小, 会消失吗?
中国有能打到美国本土的导弹吗……有的话最远能打到哪里呢?
怎么才能有尤雨溪一半强,该怎么学习?