为什么说MX440是神卡?

在计算机图形加速系统中，最大的性能瓶颈不在于图形芯片本身（从GeForce256时代开始，nVIDIA把计算机CPU从繁重的3D图形建模计算中解放了出来，交给了图形处理器GPU），而在于显存带宽。在图象加速芯片运行的时候，内存总线会被象素读写，显示刷新，AGP总线数据传输以及纹理数据传输这些长时间，高持续状态的数据传递所占据，此时，一旦内存带宽不足，立刻就会造成图形加速性能下降！因此，Lightspeed Memory Architecture II就是为解决这样的性能瓶颈而设计，它由6大技术模块构成：

1．内存交叉控制器

Crossbar Memory Controller（交叉显存控制器）保证显存系统各方面的协调工作，及时满足GPU的请求。理论上说，NVIDIA的第二代光速显存架构所提供的显存带宽可以达到一般显存架构的2－4倍。众所周知，GeForce4使用128-bit DDR显存界面，这就意味着一个显存周期可以存取256－bit的数据。但每个象素通常包含Z和模数据，也就是说并不能一次读取完这两组数据，而要分开两次读取。就目前流行的游戏而言，三角形的大小都很小，通常只有几个象素。以一个由Z和模数据各32bit的三角形为例，它的信息量就是32bits× 2＝64bits。如果显存控制器以256-bit的模式存取数据的话，那就意味着存取过程中有75％的显存带宽被浪费了。

2．四组高速缓存

LMA II架构具备Cache子系统，称为四倍高速缓存（Quad Cache）。其工作原理和CPU的Cache是相同的，可以加快RAM的存取速度。Quad Cahce具有4个独立的为其功能作了优化的缓冲器，分别负责原始纹理，顶点数据，材质和象素信息的存取。由于各种信息相互独立，所以在存取过程中免除了一些不必要的工作，因而可以保证各种信息高速进入图形管线。下面我们以一个例子来说明其工作原理：对于分辨率为1280×1024，16-byte读写周期，采用三线性过滤，每象素两个材质的的计算，其信息量为：1280象素/行×1024行/帧×（16bytes/象素＋32bytes/象素）×2.5×2＝315 MB/帧，而四倍高速缓存技术可以使每象素的信息量从32bytes降低到8bytes，结果变为157MB/帧，可以把节省下来的显存带宽利用到更复杂的运算上。

3．无损Z模板缓冲压缩

这是另一个GeForce3已配备的功能。然而，在LMA II中，4:1的压缩应该更常被顺利的执行，因为它有新的压缩运算方式。

4．可视性子系统

这个功能也可以在GeForce3发现，但是对于NV25和NV17，它已经被调整成可以在较少的内存带宽上达到更多的像素剔除。现在，剔除的动作可以在芯片上的特定剔除表面快速缓存上完成，以避免芯片外的内存使用。

5．自动预加载

对于显存带宽而言，页面管理导致的延迟是一个容易被忽略的因素。首先DRAM是按照行、列及“Bank”来管理的，只有当前处于活跃状态的“Bank”中的行列才能进行读写。如果GPU要对显存芯片中另外一些区域进行读写，那么显存控制器必须先关闭当前处于活跃状态的“Bank”，然后才能打开被请求的“Bank”。这一过程可以花费将近10个DRAM周期，而在这个过程中，数据总线是闲置的。GeForce4的GPU具有预先咨询显存控制器的能力，使其对将要访问的显存区域进行预充。这样，等待时间降低到2至3个时钟周期，GPU和显存之间的数据传输效率自然得到提高。

6．快速Z模板清零

早在一年前，Radeon的时候就已经见到过。为一个帧缓冲的某个区域设定一个标记，而不是用将整个帧缓冲填满，只有当数据写入标记时，帧缓冲再会真正被充满，可以节约内存带宽。GeForce4的快速Z清除技术可以大大降低这个过程所耗费的时间，在画质不受损失的情况下使帧速提高将近10％。

不过，GeForce4 MX的第二代光速显存架构和GeForce4 Ti的有所区别，后者是使用4个32bit负载均衡内存控制器，而前者则是两个64bit控制器，因此，就这点来说，GeForce4 MX和GeForce 4 Ti区别还是非常明显。