为什么粒子半透特效会那么的费？

flashyiyi

CPU计算部分

1.DrawCall（耗费中。因为粒子支持动态Batch，且通常不会以Z轴作为排序标准，合并概率很高。只有在确实使用了大量不同材质或者强制排序的情况才会出现性能热点，然而这种情况还是挺常见的）

2.粒子网格计算（以前高，现在低。因为目前的粒子计算已经分摊到了子线程上由任意空闲核心来执行，而现在是八核机的时代。最多也就是核心利用率高导致一点点发热，但绝不会成为卡顿的原因。而苹果那边，靠着出众的单核性能也不至于跑不动）

3.将算好的粒子网格用渲染指令送入“显存”区域（耗费低，虽然要占用渲染线程，且每帧都要处理一次，但毕竟数量还是少，起码比蒙皮网格的压力要低得多。这个部分和DrawCall共享同一个瓶颈。）

GPU计算部分

1.顶点计算（耗费低。粒子通常不使用Mesh粒子，而是发射4个顶点的广告牌Quad，即使几百同屏的粒子，顶点数也不过才过千，尚不及一个角色模型的量，和像素阶段的耗费的FLOPS没有可比性。当然，顶点阶段除了曲面细分，有可比性的也不多。）

2.像素计算（高。虽然粒子的frag阶段计算量低，采样也只取一次，但是架不住多。非透明物体在ZTest影响下并不会反复在同一个像素下重复计算，但是半透物品的重复计算是无法避免的，而一般粒子特效的做法就是，叠，叠，叠，太亮导致过曝，加一层黑色半透物体降低亮度，继续叠。不加限制，单粒子叠上10-20都是常事。即使限制了，部分区域超过5都是难免的。而为了追求光效边缘的平滑，绘制面积通常也比视觉面积更大。）

内存带宽部分（内/显存和GPU/SOC之间的交互）

1.搬运顶点数据（耗费极低，实在太少了）

2.搬运特效纹理数据用于采样（耗费中等，因为特效纹理共用率很高且通常在同一批次绘制，而且大部分粒子使用的都是小贴图。仅有在使用SheetAnimation和出现法阵等图案时候才会有大贴图的出场机会，而SheetAnimation也不会同时搬运全部的数据。且开启MipMap后，在粒子展开的初始阶段也不会使用全图数据。压缩纹理也可以大幅减少带宽压力。）

3.将算好的数据和屏幕内的原像素进行混合呈现（高）

嗯，咱这篇文件其实主要是来讲这最后一个东西的。

我以前就是把这一项作为盲点给忽略了，所以导致了错误的理解。因为从直观上看，这东西就和氧气一样，怎么都不该缺吧？我算都算完了，然后存回显存里用来显示，这个地方怎么可能会成瓶颈呢？

那咱们就来算一笔账吧。

以手机游戏的最低分辨率1280x720计算，一个屏幕缓冲区加上深度缓冲检测（为了遮挡不能关），每个像素需要6byte，然后以60帧/s的帧率要求，乘起来的结果是：

绘制一屏幕数据（1 overdraw），需要的带宽至少是331776000bytes，也就是0.316Gbytes。

不过，由于透明物体需要和原屏幕像素进行混合，所以还需要回读一次屏幕缓冲区的数据，会增加接近一倍，0.527Gbytes。

如果我们游戏的特效峰值overdraw达到了10（测一下的话，会发现全屏特效特别容易到达高值，乱做单特效都能直接到5），也就是10个屏幕的话，那就是5.27Gbytes。

而在一些老机器上，诸如三星S3，总内存带宽其实也就8G而已……

要注意的是，上面算出来的仅仅是理论极限值，正常硬件工作总会有时间损耗，不可能充分利用整个带宽。cache miss这些事且不说，光是CPU和GPU工作时的相互等待，起码也要浪费十几个百分点。而且，你的手机再怎么样也得干空画屏幕以外的事情啊，总还是得读点别的贴图啊？内存带宽CPU也要用啊。

现在新出的手机好了许多，但也就20-25G的带宽而已，但现在手机屏幕也大了啊，上个1080P，带宽要求就要乘2.25，这个问题也未见得得到了多大的缓解。

硬要说的话，这就是内显一体化的锅。本来显存是绑在GPU旁边专门给它用的，普遍都是几十乃至上百G的带宽。到了手机变成了SOC，直接砍到了10%，以前不在意的东西，就不能再视而不见了。

但是，播放粒子特效卡，就一定是带宽的问题吗？

这也未必，因为手机的GFLOPS（每秒计算浮点数）也不是特别强力，OverDraw到了10以后，考虑到不透明物体那边的计算量也不少，留给特效的空闲不多，也有可能是运算能力，采样效率，也就是一般说的fillrate到了瓶颈。而且毕竟带宽使用量并没有到达那个怎么都不够的极限值，且大部分移动GPU都使用了TBR（Tile Based Rendering）技术，也并不是任何一次绘制操作都会直接操作内存。且GPU其实也有二级缓存，不会每帧都直接和内存打交道……虽然那个缓存只有4M，而且是和CPU共用的（苹果A7）。

我们需要一个辨别方式。