为什么说MX440是神卡?

在计算机图形加速系统中,最大的性能瓶颈不在于图形芯片本身(从GeForce256时代开始,nVIDIA把计算机CPU从繁重的3D图形建模计算中解放了出来,交给了图形处理器GPU),而在于显存带宽。在图象加速芯片运行的时候,内存总线会被象素读写,显示刷新,AGP总线数据传输以及纹理数据传输这些长时间,高持续状态的数据传递所占据,此时,一旦内存带宽不足,立刻就会造成图形加速性能下降!因此,Lightspeed Memory Architecture II就是为解决这样的性能瓶颈而设计,它由6大技术模块构成:

1.内存交叉控制器

Crossbar Memory Controller(交叉显存控制器)保证显存系统各方面的协调工作,及时满足GPU的请求。理论上说,NVIDIA的第二代光速显存架构所提供的显存带宽可以达到一般显存架构的2-4倍。众所周知,GeForce4使用128-bit DDR显存界面,这就意味着一个显存周期可以存取256-bit的数据。但每个象素通常包含Z和模数据,也就是说并不能一次读取完这两组数据,而要分开两次读取。就目前流行的游戏而言,三角形的大小都很小,通常只有几个象素。以一个由Z和模数据各32bit的三角形为例,它的信息量就是32bits× 2=64bits。如果显存控制器以256-bit的模式存取数据的话,那就意味着存取过程中有75%的显存带宽被浪费了。

2.四组高速缓存

LMA II架构具备Cache子系统,称为四倍高速缓存(Quad Cache)。其工作原理和CPU的Cache是相同的,可以加快RAM的存取速度。Quad Cahce具有4个独立的为其功能作了优化的缓冲器,分别负责原始纹理,顶点数据,材质和象素信息的存取。由于各种信息相互独立,所以在存取过程中免除了一些不必要的工作,因而可以保证各种信息高速进入图形管线。下面我们以一个例子来说明其工作原理:对于分辨率为1280×1024,16-byte读写周期,采用三线性过滤,每象素两个材质的的计算,其信息量为:1280象素/行×1024行/帧×(16bytes/象素+32bytes/象素)×2.5×2=315 MB/帧,而四倍高速缓存技术可以使每象素的信息量从32bytes降低到8bytes,结果变为157MB/帧,可以把节省下来的显存带宽利用到更复杂的运算上。

3.无损Z模板缓冲压缩

这是另一个GeForce3已配备的功能。然而,在LMA II中,4:1的压缩应该更常被顺利的执行,因为它有新的压缩运算方式。

4.可视性子系统

这个功能也可以在GeForce3发现,但是对于NV25和NV17,它已经被调整成可以在较少的内存带宽上达到更多的像素剔除。现在,剔除的动作可以在芯片上的特定剔除表面快速缓存上完成,以避免芯片外的内存使用。

5.自动预加载

对于显存带宽而言,页面管理导致的延迟是一个容易被忽略的因素。首先DRAM是按照行、列及“Bank”来管理的,只有当前处于活跃状态的“Bank”中的行列才能进行读写。如果GPU要对显存芯片中另外一些区域进行读写,那么显存控制器必须先关闭当前处于活跃状态的“Bank”,然后才能打开被请求的“Bank”。这一过程可以花费将近10个DRAM周期,而在这个过程中,数据总线是闲置的。GeForce4的GPU具有预先咨询显存控制器的能力,使其对将要访问的显存区域进行预充。这样,等待时间降低到2至3个时钟周期,GPU和显存之间的数据传输效率自然得到提高。

6.快速Z模板清零

早在一年前,Radeon的时候就已经见到过。为一个帧缓冲的某个区域设定一个标记,而不是用将整个帧缓冲填满,只有当数据写入标记时,帧缓冲再会真正被充满,可以节约内存带宽。GeForce4的快速Z清除技术可以大大降低这个过程所耗费的时间,在画质不受损失的情况下使帧速提高将近10%。

不过,GeForce4 MX的第二代光速显存架构和GeForce4 Ti的有所区别,后者是使用4个32bit负载均衡内存控制器,而前者则是两个64bit控制器,因此,就这点来说,GeForce4 MX和GeForce 4 Ti区别还是非常明显。