GPU优化

通过阅读本文,你将知道:

  1. 什么是GPU优化
  2. 优化GPU的思路是怎样的
  3. 常见的优化GPU的方法有哪些

介绍

在做GPU优化之前,我们需要知道:

  1. 定位到瓶颈是前提。优化非瓶颈阶段,相当于做无用功
  2. 瓶颈总是存在的,而且通常是动态变化的。在GPU上运行某应用程序,总有一个阶段是瓶颈,而且随着运行不同的应用程序,瓶颈也是动态变化的
  3. 尽量不要过度优化。只需要优化到当前阶段不是瓶颈了即可
  4. 如果我们说应用程序处理阶段是瓶颈,代表着在一帧的渲染过程中,它大部分时间都是是整个流水线中最慢的阶段。
  5. 如果瓶颈已经不能再优化了,那么可以让其他阶段做更多的事情。类似于单位时间内可以渲染的帧的数量已经无法提升,那么可以提高每一帧的渲染质量。

瓶颈定位

瓶颈定位的思路,

  1. 为待测阶段设计若干测试用例,各测试用例在该阶段的工作量递减,其他阶段的工作量保持不变。如果帧率提升,那么该阶段很有可能就是瓶颈。
  2. 为待测阶段设计若干测试用例,各测试用例在该阶段的工作量不变,其他阶段的工作量递减。如果帧率保持不变,那么该阶段很有可能就是瓶颈。

GPU流水线可以大致划分为四个阶段,分别为:应用程序处理阶段、几何处理阶段、光栅化阶段和像素处理阶段。接下来,我们详细介绍每个阶段的可用的瓶颈定位方法。

应用程序处理阶段

  • 直接查看CPU的使用率
    • 如果CPU使用率维持在100%或者接近100%,则可以简单地认为应用程序处理阶段是瓶颈。
    • 这种方式有的时候不靠谱,因为有可能CPU是在等待GPU完成一帧的渲染。
  • 架空GPU的情况下查看CPU的使用率
    • 架空GPU方式可以用一个空的驱动程序。
    • 这种方式的缺点是:检测不到驱动程序的处理导致的瓶颈问题以及CPU和GPU交互导致的瓶颈问题。
  • 让CPU降频或超频运行
    • 如果降频导致性能相应地等比例降低,那可以认为应用程序处理阶段是瓶颈。超频是类似的。

几何处理阶段

  • 增加顶点属性
    • 增加顶点属性(如纹理坐标)相当于增加了顶点抓取的数据量,如果增加后GPU性能下降则可以认为顶点抓取便是瓶颈。
  • 增加染色程序的大小
    • 增加染色程序的长度之后,如果GPU性能下降则可以认为顶点处理是瓶颈。
    • 需要注意,要避免编译器优化掉添加的无效指令。

光栅化阶段

  • Shadow Map Generation这个功能使用的像素染色程序非常简单,使用这个功能的时候,光栅化和像素合并阶段都有可能成为瓶颈。
  • 在渲染小三角形比较多的场景时(如草地或树叶),光栅化可能会成为瓶颈。验证方法是:增加染色程序的大小。如果渲染一帧的时间没有增加,那么光栅化阶段便是瓶颈。

像素处理阶段

  • 降低屏幕分辨率
    • 如果把屏幕分辨率降低可以显著提升帧率,那么很有可能像素处理阶段便是瓶颈。
  • 增加片段染色程序的大小
    • 增加染色程序的长度之后,如果GPU性能下降则可以认为像素处理是瓶颈。
    • 需要注意,要避免编译器优化掉添加的无效指令。
  • 简化片段染色程序
    • 简化片段染色程序之后,如果一帧的渲染时间下降明显则可以认为像素处理是瓶颈。
  • 降低纹理大小
  • 修改缓冲区的位深度
  • 打开关闭混合
  • 改变混合模式
  • 渲染头发、草地、树叶等(像素染色程序简单

优化瓶颈

对于应用程序处理阶段,

  • 提高代码运行效率
  • 提高存储访问效率
  • 减少存储访问

对于几何处理阶段,

  • 优化染色程序,尤其是光照相关
  • 顶点预加载
  • 顶点数据压缩

对于光栅化阶段,

  • Early Z
  • 开启背面消隐

对于像素处理阶段,

  • Early Z
  • 开启背面消隐
  • 数据压缩
  • 像素和深度缓冲区合并
  • Forward Pixel Killing
  • Transaction Elimination

总结

  • GPU优化是找到GPU的瓶颈阶段并使得该阶段不再是瓶颈的过程,以及让非瓶颈阶段做更多有意义的事情的过程。
  • 瓶颈定位的思路:
    • 为待测阶段设计若干测试用例,各测试用例在该阶段的工作量递减,其他阶段的工作量保持不变。如果帧率提升,那么该阶段很有可能就是瓶颈。
    • 为待测阶段设计若干测试用例,各测试用例在该阶段的工作量不变,其他阶段的工作量递减。如果帧率保持不变,那么该阶段很有可能就是瓶颈。
  • 简单介绍了应用程序处理阶段、几何处理阶段、光栅化阶段和像素处理阶段的常见瓶颈定位和优化方法。