tpc(计算处理器群集)中多添加了一组sm 目前,越来越多的游戏以及应用程序都需要大量的shaders,未来在shaders以及纹理单元上寻找一个最佳的平衡搭配,geforcegtx280显卡在每组tpc中,多添加了一次sm,然后保持tf的数量不变,这样一来shaders与tf的比值要比上代产品提高50%,非常适合目前以及未来的游戏和应用程序的需求。
提升几何着色器及数据流输出(streamoutput)的表现
随着dx10游戏的流行,在dx10规范中首次引用的几何着色器(geometryshader)作用用来越显著。为了提升gt200的游戏表现,顶级geforcegtx280内部的输出缓冲限制已显著升至上代产品的6倍,提供了更快的几何着色器(geometryshader)速度以及数据流输出(streamoutput)表现。
测试demo美杜莎很大程度上依赖几何着色器及数据流输出的表现加倍的寄存器文件
在上代旗舰g80核心中,在每组流处理集(sm)里面添加了高速的本地缓存用于存放shaders之间计算完的活跃数据。但随着编程的复杂度增加,shaders的处理器能力也得到了成倍的增加,一次可完成上千条指令。寄存器的容量就成为了整个核心的瓶颈,当sm内寄存器的容量不足以保存全部处理后的活跃数据时,溢出的数据就会直接存放到显卡的显存当中,而本地显存较大的延时会严重影响性能。为了解决这个问题,适应未来更复杂的编程需求,在gt200核心的寄存器容量直接提升至上代产品的2倍,大大减少了数据溢出到本地显存的机率,使gt200的运算性能更强,运算效率更高。
升级rops(光栅化处理器)
最新的geforcegtx200系列gpurops不仅全部支持上代产品的特性,而且还实现了最大32pixels输出每时钟,等同于八个rop分区中每个rop分区输出4pixels每时钟,同时每个rop分区在8xmsaa下支持32色彩和z采样每时钟。像素方面采用了u8(未签名8bit整数)数据格式,像素的混合比率是上代产品的2倍。跟仅有6个rop分区以及支持24pixels输出每时钟,12pixels混合每时钟的上代产品相比,gtx280提升到支持32pixels输出和混合每时钟。能给用户带来更绚丽更真实的视觉效果。
提高了纹理表现 geforcegtx200系列再次提升了纹理的过滤与寻址能力。在每个tpcs(流处理集组)中提供了一个双四纹理(共8个)处理单元,能够提供每时钟8pixels的双线数寻址和过滤,fb16双向材质过滤可以实现每时钟4pixel来操作,如果是fp2:1的各向异性过滤也可以每时钟4pixels来完成。内部集成的10个tpcs能同时完成每时钟80pixels的双线数寻找和过滤。除此之外,geforcegtx200系列还创建了一个非常高效的程序来管理,使其纹理过滤表现能达到理论最大值,性能上较上代geforce8800gtx显卡有不少的提升。4面向未来:cuda并行计算的应用回顶部4面向未来:cuda并行计算的应用
随着显卡的发展,gpu越来越强大,第二代统一渲染架构的geforcegtx200系列拥有200多个单独的alu,因此非常适合并行计算,而且浮点处理能力也远远优于目前的多核cpu,加上gpu为显示图像做了优化。在众多计算领域上已经超越了通用的cpu。如此强大的芯片如果只是作为显卡就太浪费了,因此nvidia推出cuda,让显卡可以用于图像计算以外的目的。cuda(computeunifieddevicearchitecture)工具包是一种针对支持cuda功能的gpu(图形处理器)的c语言开发环境,未来还将发布fortran语言版本。
cuda(computeunifieddevicearchitecture)是一个新的基础架构,这个架构可以使用gpu来解决商业、工业以及科学方面的复杂计算问题。跟以往的gpgpu概念不同的是,cuda是一个完整的解决方案,包含了api、c编译器等,能够利用显卡核心的片内l1cache共享数据,使数据不必经过内存-显存的反复传输,shader之间甚至可以互相通信。对数据的存储也不再约束于以往gpgpu的纹理方式,存取更加灵活,可以充分利用streamout特性。以上几点都将大大提高gpgpu应用的效率。例如,在游戏中我们可以使用cuda来让gpu承担整个物理计算,而玩家将会获得另他们感到惊奇的性能和视觉效果。另外,用于产品开发和巨量数据分析的商业软件也可以通过它来使用一台工作站或者服务器完成以前需要大规模的计算系统才能完成的工作。这一技术突破使得客户可以任何地方进行实时分析与决策。同时,一些以前需要很先进的计算技术来达到的强大计算能力的科学应用程序,也不再受限在计算密度上;使用cuda的计算可以在现有的空间里为平台提供更强大的计算性能。cuda采用c语言作为编程语言提供大量的高性能计算指令开发能力,使开发者能够在gpu的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。
并行处理器在各个方面都有优势 cuda工具包推出已有1年,它的推出马上受到了众多软件/游戏开发商以及科研机构和程序爱好者的欢迎,nvidia方面也将发布最新的cuda2.0版本。相信在未来,cuda将会受到越来越多的领域的支持。目前,支持cuda环境的gpu主要有采用统一渲染架构的显示核心。
下面是cuda实现的gpu并行计算应用:
badaboom视频压缩
一直以来,视频编码的转化都是令用户非常头疼的一件事,一款顶级的处理器在转换容量巨人的视频文件的时候,慢如蜗牛的速度令人难以忍受,这也主要受目前cpu性能的制约。目前,nvidia与许多软件开发商在推广支持gpu加速的视频压缩软件,badaboom就是一款支持gpu加速的视频转换软件,可以把mpeg2的视频转换为ipod或者iphone这样的所使用的h.264视频格式,据称速度方面是目前cpu转化的10倍以上,为了验证其真实性,我们就做了一次相关的评测。
由于目前这个版本仅支持gpu加速,所以我们并不能拿来与cpu进行同平台对比,考虑到目前参差不齐的编码软件,测试结果仅做主观参考,从软件显示的编码速度来看,编码帧数达到了130帧每秒,一个160m的mpeg-2文件压缩至iphone标准视频仅1分钟内就可以编码完成。这个速度相信已经超过了目前所有的cpu版本编码软件。连pdf都需要gpu加速
http:///早在2007年,adobe就与nvidia展开合作,推出了支持gpu加速的pdf版本,adobeacrobat8及adobereader8系列产品提供全新的页面显示着色技术,利用gpu来加速pdf格式下的绘图及显示功能,除了在效能上有所增进外,还可以利用gpu的可编程特性,进一步加强pdf文件中的2d内容展示效果。
据adobe平台产品营销总pamdeziel表示,nvidiageforce与quadrogpu使用者可利用pdf档案进行更多样的作业,同时也能更有效率。包括平移、卷动、缩放等,实际上adobereader8每一项运用到gpu的功能都有着显著的效能增进。使用者过去避免使用的一些应用,例如可进行极精细比例缩放的地图,现在都可以轻易地显示。
打开同样复杂的一幅图表,利用gpu加速你可能会获得更快的浏览速度 同样一个容量达到50mb的期刊读物电子版pdf文件,在使用传统方式打开时,读取时间为8秒。而使用gpu硬件加速功能时,打开时间不超过3秒,且在浏览时不会有拖沓感,pdf文件也变得流畅异常了。5更真实游戏体验:physx物理加速回顶部
5更真实游戏体验:提供physx物理加速
随着nvidia收购ageia公司,业界最先进的physx物理加速技术的加入,让大家对于gpu支持物理加速期待已久。不久前,支持geforce8/9/200系列的显卡physx物理驱动终于发布了,通过物理加速驱动,gpu能分担cpu的工作,从而提高游戏的执行效率,目前主要体现在3dmarkvantage测试中。按照nvidia自己宣称的physx是目前最先进的物理加速引擎。
physx是目前支持平台最多的物理加速引擎,他可以支持目前主流的x86处理器、ageia公司的ppu、东芝公司的cell以及支持cuda环境的gpu。其中,最令人期待的就是支持cuda的版本。借助于目前强大的gpu并行运算能力,支持cuda环境的physx物理加速引擎能给用户带来最为真实的性能体验。 随着物理引擎的加入,以后我们就可以在游戏中体验最为真实自然的服装、毛发、烟雾、爆炸等画面,可以进一步的解放目前不堪重负的cpu。目前已有数款游戏宣布支持nvidiageforcephysx,相信未来会有更多游戏支持物理效果,还原一个更真实的游戏世界。
不带物理驱动的测试成绩
安装物理驱动的测试成绩 从3dmarkvantage的测试中可以看出,安装物理驱动后,cpu成绩暴涨了两倍以上,使得整体的测试成绩也有了一定的提升,这是通过geforcephysx分担cpu计算的工作,提高效率的结果。6讯景55nmgtx260显卡赏析回顶部6讯景55nmgtx260赏析
讯景gtx260(gx-260n-adf)图 库评 测论 坛报 价 这款讯景gtx260显卡采用p654公版设计,基于gt200核心,制作工艺为55nm,拥有216个处理器,纹理单元有72个,rops有28个。显存位宽为448bit,默认核心/显存频率为576/1998mhz,流处理器频率是1242mhz,与公版规格保持一致。从外观上看,这款讯景gtx260外观与公版较为相似,采用了类型公版gtx260的散热器,黑色的一体式散热器覆盖了整张显卡,热风从侧档板处送出。
类型公版gtx260的散热器 讯景gtx260采用了黑色pcb板和类似公版gtx260的黑色一体式散热器,看上去份量十足,风扇中间贴有讯景的logo。
双6pinpci-e供电接口 虽然采用了55nm制作工艺,但显卡的功率还是不少的,仍需要双6pinpci-e供电接口,以保证显卡长时间稳定运行。
接口部分 讯景gtx260仍采用主流的双dvi+s-vedio视频输出接口,通过转接头可以实现hdmi与displayport支持。7映众55nmgtx260显卡赏析回顶部7映众55nmgtx260赏析
inno3d映众gtx260+(55nm)图 库评 测论 坛报 价 inno3d映众gtx260+(55nm)基于gt200核心,采用公版设计,同样采用类似公版gtx260的散热器,在散热器的面板上,我们可以清楚看到这款映众gtx260+(55nm)特点,采用55nm工艺制程,拥有216个流处理器,纹理单元为72个,rops保持在28个。 由于nvidia已开发gtx260的非公版,加上采用了55nm制程,有不少厂商对显卡进行超频,以进一步挖掘显卡的潜力。映众gtx260+(55nm)就是一款超频版的gtx260显卡,核心/显存频率为620/2100mhz,流处理器频率是1242mhz,显存容量/位宽为896mb/448bit。
接口部分 映众gtx260+(55nm)采用主流的双dvi+s-vedio视频输出接口,通过转接头可以实现hdmi与displayport支持。
gtx260拆解图
类似公版65nmgtx260的一体式散热器 映众gtx260+(55nm)采用类似公版65nmgtx260的散热器,通过散热垫使显卡上的显存、电感和nvio芯片等元件紧贴着散热器,使元件的发热量通过散热器带出。散热器中间的核心散热器部分采用导热性能更好的铜材质,内部通过热管与众多散热片连接在一起,通过风扇把热量从侧面档板排出。
sli接口与nvio芯片 作为高端显卡,geforcegtx260提供了两个sli接口,支持三张显卡组建三路sli。gtx260显卡采用了第二代nvio芯片,在接口方面更丰富,支持displayport接口,并且带来真正双dual-linkxhddvi10bit每通道的色彩输出能力,拥有更为出色的2d显示效果。8gtx260公版/非公版拆解对比回顶部855nm/65nmgtx260公版拆解对比
55nmgtx260映众拆解图
gtx260公版拆解图 我们可以看到,55nm公版与65nm公版gtx260最大的区别在于显存的位置以及供电部分,这款映众gtx260把14颗16mb*32bit规格的三星1.0nsgddr3显存全部放在显卡正面;而公版65nmgtx260则是把显存分为前后7颗摆放。55nmgtx260的显存容量/位宽仍是896mb/448bit。
55nmgtx260公版背面
65nmgtx260公版背面 采与公版的黑色pcb不同,这款映众gtx260+(55nm)采用蓝色pcb板设计,14颗显存全部放在显卡正面。由于nvidia已开放gtx260的非公版设计,之后将有更多显卡厂商推出非公版gtx260显卡。
55nm/65nmgtx260供电模块(左为非公版,右为公版) geforcegtx260公版供电部分的做工跟用料上完全可以用奢华来形容,不计成本的大量采用了陶瓷贴片电容以及封闭式电感。采用volterra的顶级数字供电方案,主控芯片为vt1165mf搭配5颗vt1165sf芯片为核心提供5相供电,显存方面也采用了2两相供电。 由于新的geforcegtx260采用了55nm制作工艺,供电要求相对降低,但用料仍非常豪华,采用4相核心+2相显存供电方式,全部采用贴片电容、屏蔽电感以及英飞凌mos管。这意味着,新的gtx260售价将有不少下降空间。
55nm和65nmgtx260核心图(左为55nm版本,右为65nm版本) 从核心对比图可以看到,55nm和65nm的gtx260核心上均覆盖着一个金属盖,以更好保护核心。正因为有金属盖子,我们没法比较55nm和65nmgt200的核心大小,只能编号上区别两个版本,其中55nmgtx260的编号为“g200-103-b2”,最后的b2则代表采用55nm制作工艺。
55nmgtx260
65nmgtx260 gpu-z并不能正确识别显卡的制作工艺,因为有部分信息是通过查找设备id与数据库进行匹配来显示的。但从revision可以判断出,b1则为55nm制作工艺的显卡,a2则是65nm的。9评测平台及评测方法简介回顶部9评测平台及评测方法简介评测平台cpuintelcore2qx9770(oc400x9=3.6g、12mbl2cache)主板华硕ragemapfomula(x48+ich9r)内存宇瞻ddr2-10661gbx2(5-5-5-15)硬盘希捷7200.10sata500g显卡geforcegtx260896mb(620/2100mhz,sp:1242mhz)
geforcegtx260896mb(576/1998mhz,sp:1242mhz)
radeonhd48701gb(750/3600mhz)软件平台