GeForce GTX и Radeon HD4800 – част 1

by PC Mania | Archive | 0 Comments | 24 авг. 2008

От повече от година nVidia държат лидерското място по отношение на високопроизводителните видеоускорителни чипове. След появата на първите GeForce 8800 новите продукти на единствения конкурент ATI/AMD винаги се представяха по-зле. В средния и нисък клас конкуренцията се запази, тъй като ATI имат достатъчно бързи продукти за тези сегменти и в тези случаи други характеристики освен чистата производителност са от съществено значение – размери, шум, видеодекодиращи възможности, поддръжка на интерфейси като HDMI, DisplayPort и др.

Във високия клас опитите на ATI бяха неуспешни – чипът с 512-битов канал за достъп до паметта (HD2900) не беше добре балансиран (малко на брой обработващи и текстуриращи модули) и не успя да застраши GF8800, въпреки големите си консумация на енергия и шум на вентилатора. След това ATI се фокусираха върху решаването на проблемите с консумацията (и съответно шума) и рискуваха, разработвайки чипове за възможно най-финия производствен процес на TSMC (55nm по времето, когато nVidia започваха с изпитания 65nm GF8800GT). За HD3870 още от началото беше ясно, че няма за цел да се мери с най-бързите GF9800, а да предостави добро съотношение цена/производителност. Все пак ATI не изоставиха напълно върховия сегмент и се опитаха да конкурират nVidia с двучиповите платки HD3870X2, които обаче бързо бяха парирани от собственото двучипово решение на nVidia – GF9800GX2.

В тази ситуация на пълно надмощие nVidia обявиха наследника на GeForce 9800 – гиганта GeForce GTX.

GeForce GTX280, GTX260 (GT200)

Чипът GT200 се състои от 1.4 милиарда транзистора, заемащи 576 кв.мм площ и се произвежда чрез 65nm технология от TSMC (Taiwan Semiconductor Manufacturing Company). Единственият чип, изграден от повече транзистори, е Itanium2 с 24МВ кеш (1.7 милиарда) – всички останали процесори (включително POWER серията на IBM) и графични ускорители са значително по-малки (съвременните четириядрени процесори използват около 500 милиона транзистора). За разлика от централните процесори, където голяма част от транзисторите се използва за кеш памет, при графичните ускорители почти всички транзистори се използват за изчислителни блокове. Дизайнът и производството на чип с размерите на GT200 е определено за повод за гордост на nVidia и TSMC, но в крайна сметка трудностите, които трябва да се преодоляват, водят до по-високи разходи и съответно цена на крайния продукт.

GT200 съдържа увеличено количество обработващи модули, както и някои подобрения в самите модули, като всичко това води до сериозно повишаване на производителността спрямо предшествениците му G80/G92. От друга страна е странно, че за повече от година и половина nVidia са добавили съвсем малко нова хардуерна функционалност в чиповете си (изключвайки нововъведенията в драйверите, BIOS и дизайна на платките – като поддръжката на HybridSLI, PhysX и др.) – подпомагане на H.264 декомпресията (при G84/G86) и PCIe 2.0 интерфейс (при G92).

GT200 поддържа OpenGL2.1 и DirectX10 също като предшествениците си и е озадачаваща липсата на DX10.1 поддръжка (каквато вече има обявена дори и за S3 Chrome430 – ако въобще се появят на пазара). Засега nVidia твърдят, че няма полза от функциите на DX10.1 и ще изчакат направо DX11 – същото твърдяха и ATI по времето когато Radeon поддържаше само DX9b (Shader 2.0), а GeForce бяха минали на DX9c (Shader 3.0). И в двата случая DX10/10.1 и DX9b/c става въпрос за неголеми нововъведения, които не предоставят нови ефекти сами по себе си, а позволяват реализирането на досегашни такива с по-малко ресурси (т.е. освобождават изчислителна мощност за повече на брой от наличните ефекти или за по-голяма скорост и т.н.)

GT200 добавя поддръжка на FP64 изчисления в Stream процесорите си (GF9800 и Radeon HD3870 поддържат FP32 в своите Stream процесори, текстуриращи и финализиращи модули). Другото нововъведение в GT200 е това, че вероятността за едновременно изпълнение на две операции в Stream процесорите (SP) е увеличена (всеки SP има три елемента – един за операции с плаваща запетая, един за целочислени операции и един само за няколко специфични целочислени операции) – т.е. реалната производителност на GT200 ще се доближава повече до теоретичния му максимум операции в секунда в сравнение с GF9800.

Осем Stream процесора заедно с два елемента за специални операции (синус, косинус и т.н.) и 16KB кеш памет и управляваща логика формират един изчислителен модул (Stream Multiprocessor) – също като при GeForce8 и 9 (G80/G92). Няколко изчислителни модула, заедно с един текстуриращ модул (състоящ се от осем елемента за адресиране на текстури и осем за текстурни филтри – текстуриращи двойки – изравнен брой като G92, за разлика от G80, където адресиращите елементи са само 4) и съответната управляваща логика, формират блок за обработка на нишки (TPC – Texture Processor Cluster). При GT200 във всеки TPC блок има по три SM модула (т.е. 24 Stream процесора) за разлика от GeForce8/9, които имат по два SM модула в TPC (т.е. 16 SP). Освен това броят TPC при GT200 е увеличен спрямо G92 – 10 броя при GT200 (общо 240 SP, 80 текстуриращи двойки) срещу 8 при G92 (общо 128 SP, 64 текстуриращи двойки).

Финализиращите блокове при GT200 също като GeForce8/9 се състоят от кеш памет от второ ниво, 64-битов интерфейс за достъп до паметта и четири ROP модула за визуализиране на пикселите. При GT200 броят им е увеличен до осем (общо 512-бита колкото досегашния рекордьор Radeon HD2900XT; 32 ROP) спрямо четири (256-bit, 16 ROP) при G92 и шест (384-bit, 24 ROP) при G80. Като цяло освен общото увеличение на всички елементи се наблюдава и относително по-голямо увеличение на броя изчислителни елементи (SP) спрямо увеличението на броя текстуриращи и финализиращи елементи – тенденция, силно застъпена и при ATI.

GT200 запазва PureVideo HD VP2 модула (G86/G84/G92) за подпомагане на видеодекомпресията (MPEG2, WMV, VC-1, H.264) и съответно с липсата на пълна поддръжка на всички етапи на обработка на VC-1 съдържанието изостава от Radeon чиповете – най-вероятно това ще бъде поправено в бъдещите модификации за средния и нисък клас.
Входно/Изходните видео интерфейси при GТ200 са изнесени в отделен чип – NVIO (също като при G80). Това се налага заради и без това огромните размери на GT200, както и заради чувствителността на аналоговите интерфейси към високите тактови честоти, което би могло да доведе до смущения. NVIO поддържа 10-битови цветове (като G92/G80 и Radeon HD3870), два 400MHz RAMDAC изхода за аналогов сигнал (VGA до 2048х1536@85Hz), два двуканални TMDS/LVDS изхода (Dual-Link) – с DVI (до 2560х1600@60Hz), HDMI или DisplayPort куплунг, HDTV/TV-Out и HDCP (за кодирани Blu-Ray/HD-DVD филми през DVI/HDMI/DP).

Платките с GT200 чипове предоставят по два SLI извода за многоплаткова работа с до три платки (3-way SLI), охладителят им заема пространството над съседния PCI/e слот, използват два допълнителни захранващи конектора (един 6-изводен и един 8-изводен). Дължината им е 27 cm, а по шум се нареждат между по-тихия HD3870X2 и по-шумния GF9800GX2. GT200 поддържа HybridPower, когато се използва заедно с подходящ nForce чипсет (nF700a и motherboard-GF8xxx) – при малки натоварвания видеоплатката се изключва изцяло (намалявайки консумацията на енергия и шума до нула) и се използва само вградения в чипсета видеоускорител.
Засега са обявени две видеоплатки с GT200 чип – GeForce GTX280 и GTX260. GTX280 използва чип, работещ на 602MHz с Shader модули на 1296MHz и 1GB GDDR3 памет на 1107MHz/2214DDR. При GTX280 всички елементи на чипа са активни – 240 Stream процесора, 80 текстуриращи двойки, 32 финализиращи модула и 512-битов интерфейс за достъп до паметта. Консумацията на GTX280 е около 236W.

GTX260 използва чип, работещ на 576MHz с Shader модули на 1242MHz и 896MB GDDR3 памет на 999MHz/1998DDR. При GTX260 два TPC блока и един финализиращ блок са дезактивирани и съответно се използват 192 Stream процесора, 64 текстуриращи двойки, 28 финализиращи модула и 448-битов интерфейс за достъп до паметта. Консумацията на GTX260 е около 182W.

nVidia обновиха и Tesla серията си „изчислителни платки” (GeForce ускорител без видеоизходи) и „изчислителни 19” модули” с продукти, използващи GTX200 и работещи на малко по-високи тактови честоти. Tesla платките използват до 4GB памет, а Tesla модулите – до четири чипа с по 4GB всеки (ала QuadSLI).

Производителността на GTX260 е малко по-висока от тази на GF9800GTX/+, a измежду решенията на nVidia GTX280 се конкурира с двучиповия GeForce 9800GX2 (при игрите, които оползотворяват SLI/CrossFire, GX2 излиза напред, а при другите – GTX280). Наблюдава се оспорвано лидерство, дори сред собствените продукти от предишно поколение на nVidia – поради големия брой транзистори и съответно отделяната топлина GT200 не успява да достигне честотите на G92 (GF9800GTX/GX2).

Конкурентът на ATI – HD4870 не разполага с толкова много изчислителни ресурси (или по-точно с толкова бързи Shader процесори), но се произвежда с по-фин производствен процес (55 nm, вече добре познат на ATI) и по всичко изглежда, че в този рунд ATI са уцелили по-точно най-подходящото съотношение между размери на чипа, изчислителна мощ (функция от типа и броя изчислителни блокове и тактовата им честота), енергоемкост и цена. Едночиповото решение на ATI е доста по-евтино и съвсем малко по-бавно от гигантските GTX на nVidia, а двучиповите HD4870X2 ще бъдат по-бързи на сходна цена с върховите модели на nVidia. Имайки предвид консумацията на GTX280 едва ли можем да очакваме двучипови решения от nVidia (биха надхвърлили 300W – максимумът, предоставян от PCIe слот с един 6-изводен и един 8-изводен допълнителни захранващи конектори) преди преминаването към 55nm или съкращаването на част от обработващите модули.

Въпреки на пръв поглед неудачния избор на nVidia с направата на гиганстки видеоускорителен чип GT200, в никакъв случай не е последният „голям” такъв – RV770 (HD4870) сам по себе си също е голям (по брой транзистори е на второ място след GT200, а по размери прякото сравнение е неуместно поради различните производствени технологии – 55nm срещу 65nm), но просто не изпреварва времето си и намира подходящия баланс на характеристики предоставяйки достатъчна едночипова и превъзходна двучипова производителност с разумно охлаждане и цена.

Доказателство за проблемите с позиционирането на GT200 както сред своите, така и сред чуждите продукти е и това, че за да са конкурентоспособни, цените на GTX280/260 платките спаднаха с нечуваните за върхови модели на nVidia 25-33% по-малко от месец след официалната поява на новия чип. Изглежда nVidia в началото не са очаквали такъв HD4870, какъвто се появи малко след GT200.

GeForce 9 – поредни модификации

Досега nVidia доста често преименуваше продуктите си (например от GF8800GS на GF9600GSO без никаква промяна на чипа и платката и т.н.), но сега се оказва, че маркетинговият им отдел владее и другия подход за объркване на потребителите – за различни продукти се използва едно и също име. Предлагат се GF8400GS платки с нов 65nm чип (G98, 86кв.мм площ на силициевата пластина), които се отличават от досегашните 80nm модели (G86, 210 милиона транзистора, 132 кв.мм) само с поддръжката на PCIe 2.0 интерфейс и по-ниската консумация на енергия (25W срещу 38W за G86-GF8400GS).

Това не би било съществен проблем (все пак по-голямата част, макар и не всички, от производителите на видеоплатки правилно отбелязват версията на PCI Express интерфейса и тя може да служи за ориентир кой чип се използва) ако нямаше и такива модели, които са само с 8 Stream процесора (допълнителни 8 са деактивирани – стандартните GF8400GS имат 16) и работят на малко по-високи тактови честоти (но все пак са по-бавни от G86/G98 базираните с 16 SP). Поредната преименувана платка е GF8800GT, която вече се появява и като GF9800GT (използвайки същия 65nm G92 чип). Така, както G92 (65nm, 128SP, 256bit) е аналог на G80 (90nm, 128SP, 384bit), G98 (65nm, 16SP, 64bit и може би 128bit) на G86 (80nm, 16SP, 64/128bit), така и новият G96 (65nm, 32SP, 128bit) е аналог на G84 (80nm, 32SP, 128bit). G96 се състои от 314 милиона транзистора, заемащи около 230 кв.мм площ, като освен по-ниската консумация на енергия се различава от G84 с поддръжката на PCIe 2.0 интерфейс. В GF9500GT се използва G96 чип, работещ на 550MHz, с 16 текстурни двойки, с 32 Shader модули, работещи на 1400MHz, с 8 финализиращи модула и с памет, работеща на 800MHz/1600DDR със 128-битов интерфейс за достъп.

По този начин GF9500GT (G96) се позиционира между по-бързия GF8600GTS (G84) и GF8600GT (G84). Чипът на GF9600GT – G94 (65nm, 64SP, 256bit) няма аналог сред чиповете, използващи по-груб производствен процес.

Едва завършили с прехвърлянето на GeForce8/9 фамилията към 65nm чипове, nVidia вече пускат и първите си модели, произведени с 55nm технология. Засега е обявен единствено аналогът на G92 – G92b, който е изграден от същия брой транзистори (754 милиона), но заема по-малко площ (260 кв.мм срещу 324 кв.мм при G92). Разликата между G92 и G92b е в по-ниската консумация на енергия (с 3% в полза на 55nm G92b при работа на равни тактови честоти) и по-ниските производствени разходи за G92b.

Първият продукт, използващ G92b, е GF9800GTX+, който работи на малко по-високи тактови честоти в сравнение с G92-GF9800GTX (за Shader модулите 1836MHz срещу 1688MHz и за останалата част – 738MHz срещу 675MHz) – поради това обаче и консумацията му е по-висока (повишението в скоростта „изяжда” 3-те процента икономии вследствие от по-финия производствен процес). Дизайнът на GF9800GTX/+ платките е идентичен (два SLI извода, два 6-изводни захранващи конектора, вентилатор, заемащ пространството над съседния PCI/e слот), но консумацията на GTX+ е 175W срещу 156W за 9800GTX. Вторият продукт, за който е обявено, че ще използва G92b, е GF9800GT, но при него тактовите честоти ще се запазят същите (въпреки това официално обявената консумация е по-голяма в сравнение с аналогичните G92-GF8800GT – 115W срещу 105W). ASUS предлагат GF9800GT модел с два SLI извода, макар че такава конфигурация (3-way SLI GF8800GT/9800GT) официално не се поддържа от nVidia. В скоро време се очакват и 55nm аналози G94b, G96b и G98b, които най-вероятно ще се появят в комбинация от платки както с нови, така и с вече използвани имена.

Автор: Стоян Спахиев