Процесор: Intel Core i7

 SINCE 1998
  • Играй си играта, човече!
author image by PC Mania | Archive | 0 Comments | 22 фев. 2009

Core2 бе наследник на успешните Core процесори за преносими компютри, които за разлика от Pentium 4 не залагаха на високи тактови честоти, а на извършването на повече изчисления на всеки един такт – стратегия възприета от AMD с Athlon и Athlon64, които значително изпреварваха тогавашните Pentium 4. В края на 2008-ма бе обявен наследника на Core2 – Core i7. Освен върхови постижения при производителността на настолните компютри от новото процесорно ядро на Intel се очаква да донесе чрез представителите си сред Xeon фамилията и първенство в сегмента на многопроцесорните сървъри и работни станции, където в момента все още най-мощните платформи използват AMD Opteron.

Core i7 – Nehalem

Архитектурата на новите процесори на Intel е с кодовото наименование „Nehalem”. Официалното наименование на първите модели с Nehalem архитектура е „Core i7” и показва връзката с предишните „Core2” процесори, но цифрата 7 засега не е получила разумно обяснение от Intel. Nehalem притежава достатъчно промени в сравнение с Core2 (Penryn) и с някои уговорки би могъл да бъде класифициран като “следващо поколение”, но то със сигурност няма да бъде „седмо” – след Pentium Pro/II/III (P6, 6-то поколение x86) се появиха P7 (Itanium, който не е х86-съвместим), Pentium4/D (NetBrust, 7-мо поколение x86, коренно различни от P6), Pentium M и Core (мобилни процесори близки до P6), настоящите Core2 (значително еволюирали P6, следващо поколение х86, т.е. осмо) и чак след тях идва ред на Core i7 (които могат да се класифицират като силно модифицирани Core2). Инструкцията CPUID, която дава информация за процесора, връща резултат „6” при всички процесори от Pentium Pro до Core i7 с изключение на базираните на Pentium 4, т.е. изглежда инженерният и маркетинговият отедели имат пълна независимост – всеки си поддържа негова номерация, „оптимална” за постигане на поставените задачи. Резултатът CPUID=6 помага на софтуера да използва подходящ за наличния процесор програмен код докато наименованието “i7” най-вероятно се очаква да си пасне добре с очаквания Windows 7 (и съответната рекламна кампания), чието наименование само по себе си буди недоумение (особено имайки предид, че командата „ver” засега връща резултат „6.1”). От друга страна до момента обявените Core i7 са в горния ценови диапазон и затова е възможно да се окаже, че останалата част от Nehalem серията ще бъде с имена i5, i3 и т.н., което би обяснило наименованието i7 (т.е. седмицата няма нищо общо с „поколението” на процесора).

След като Intel взаимстваха от своите конкуренти методиката за обозначение на процесорите с моделни номера (вместо тактова честота) и х86-64 инструкциите при Nehalem е възприето и последното нововъведение на AMD, което все още липсваше на Intel при Core2 – вграденият северен мост с контролери за достъп до паметта и високоскоростни серийни интерфейси за връзка с останалите елементи на системата. По този начин се елиминира последното предимство, което AMD Opteron дършеше спрямо Intel Xeon при многоцокълните сървъри.

Подобно на Phenom и Core i7 представлява четириядрен процесор състоящ се от една единствена силициева пластина, върху която са разположени четирите процесорни ядра заедно с обща кеш памет от трето ниво (L3) споделена между всички ядра и използвана за бърз обмен на данни помежду им. За разлика от Phenom/Core i7 при досегашните Core2 Quad процесорните ядра бяха разделени на две двойки като комуникацията между ядра от различни двойки ставаше посредством бавната външна процесорна шина.

При прехода от Pentium4 към Core2 една от възможностите на P4 не намери място в новите процесори – HyperThreading. Intel обозначават с HT възможността на процесорното ядро да се представя пред операционната система като две отделни ядра (реално и виртуално) и съответно да изпълнява по две софтуерни „нишки”. Естествено производителността не се подобрява толкова колкото при добавянето на истинско второ ядро, но все пак виртуалното такова спомага да се натоварят неизползваните в даден момент изчислителни блокове (в редки случаи се наблюдава и лек спад в производителността). Съвременните операционни системи разпознават реалните от виртуалните ядра и първо натоварват всички налични реални като едва когато те са заети започват да разпределят задачи и на виртуалните (т.е. няма риск пълноценни ядра да останат неизползвани и да се загуби от потенциалният изчислителен капацитет). HyperThreading се завръща при Core i7 и съответно тези процесори изглеждат за софтуера като осем отделни ядра (от които всъщност четири са физически и още четири се дължат на HT).
В Core i7 наборът инструкции за мултимедийна обработка SSE4 е разширен с още 7 нови (наречени SSE4.2, една от инструкциите е POPCNT добавена заедно с SSE4a при Phenom) в допълнение към наличните при 45nm Core2 моделите 47 SSE4.1.

Броят на основните изчислителни блокове при Core i7 се запазва същия като при Core2, но с някои вътрешни промени. Core2/i7 могат да декодират по 1 сложна и 3 прости х86 инструкции. Декодираните инструкции се подават съответно на 6 порта. Kъм всеки от портовете са свързани от 1 до 3 изчислителни блока. Core2/i7 имат общо: два AGU (адресни), три ALU (целочислени – един пълен и два само за някои функции), три SSE (128bit), четири за операции с плаваща запетая (128bit FADD, 128bit FMUL/FDIV, два AGU) и съответно при подходящи инструкции могат да изпълнят до три 128bit SSE, три целочислени или четири с плаваща запетая. В Core i7 е подобрен алгоритъма за предварително откриване на разклонения в кода включително чрез увеличение на някои буфери, подобрени са възможностите за групиране на по няколко инструкции с цел по-бърза обработка – поддържаните инструкции са с няколко повече, но освен това групирането вече се поддържа и в 64-битов режим.

Според текущите планове на Intel последователността на разработка на процесори е следната: новите по-фини производствени технологии се въвеждат използвайки по-старо изпитано процесорно ядро с малки изменения (Core2 65nm към 45nm), а около година (но с тенденция да стане година и половина или повече) по-късно използвайки вече изпитаната технология се пуска процесор с по-сериозни нововъведения. Core i7 се произвежда чрез добре познатата на Intel 45nm технология (съответно притежава доста разлики в сравнение с Core2) и е изграден от 731 милиона транзистора заемащи 263 кв.мм площ. За сравнение двете пластини съставляващи 45nm Core2 Quad с 2х6МВ L2 кеш общо заемат 214 кв.мм площ и са изградени от 820 милиона транзистора (общият брой транзистори при Core i7 е по-малък основно заради по-малкия обем кеш памет, а пък по-малката му плътност транзистори/кв.мм спомага за по-лесно охлаждане и се дължи на промените в начина на изграждане на тази памет). Phenom се произвежда чрез по-стара 65nm технология и е изграден от 450 милиона транзистора заемащи 285 кв.мм площ.

Кеш паметта от първо ниво (L1) при Core i7 е със същия обем като при Core2 (всяко ядро има по 32KB за данни и 32КВ за инструкции). Phenom има двойно по-голям L1 кеш (по 64КВ+64КВ на ядро). Кешът от второ ниво (L2) е индивидуален за всяко ядро (за разлика от Core2, където две ядра споделят общ L2 кеш с обем до 6МВ) и е с обем 256КВ, който изглежда твърде малък в сравнение с този на Core2 и дори Phenom (по 512KB на ядро), но това донякъде се компенсира чрез добавянето на 8MB кеш от трето ниво (L3), който е споделен между четирите ядра (Phenom има 2МВ L3 кеш споделен по същия начин, а Core2 няма L3 кеш). При Intel съдържанието на кешовете от по-ниско ниво се дублира в тези от по-високо (ускорявайки достъпа и търсенето), т.е. Core2 Quad може да поеме до 12МВ информация (2х6МВ L2), а Core i7 – до 8МВ (L3). При AMD няма такова дублиране, т.е. за сметка на малко по-бавен достъп се използва обема на всички нива кеш – при Phenom X4 това прави общо 4,5МВ (4х128КВ L1 + 4х512КВ L2 + 2МВ L3). Макар L1 обемът при Core i7 да се запазва същия като при Core2 достъпът до него е с един цикъл на изчакване по-бавен (4 за Core i7 срещу 3 за Core2 и Phenom) заради увеличените буфери TLB (подпомагащи ефективното приложение на HyperThreading), увеличената енергоефективност (кеш паметите при Core i7 използват 8-транзисторната схема на Atom) и възможността за цялостно изключване на кеш паметта (също с цел да се пести енергия когато няма нужда от върхова производителност). Същата схема се използва и за L2 кеша на Core i7, но тъй като по принцип с увеличаване на обема на кеш паметта се забавя достъпа до нея, Core i7 е с по-бърз L2 кеш (11 цикъла) от 45nm Core2 (15 цикъла колкото са и при Phenom).

При Core i7 кеш паметта от трето ниво заедно с контролерите за достъп до паметта и QPI интерфейсите (QuickPath Interconnect) формират северния мост на системата (наречен от Intel „un-core регион” – в противовес на четирите ядра заедно с L1 и L2 кеш паметите им). Core i7 използва еднин базов сигнал с тактова честота (133MHz за обявените до момента модели), от която чрез различни множители се формират честотите на процесорните ядра, на северния мост, на QPI интерфейсите и на RAM паметта. Intel (както и AMD по отношение на Phenom) не са обявили изрично какви интерфейси използват вътрешно между L2 и L3 (т.е. между ядрата и северния мост) както и между L3 и останалите компоненти, но можем да предполагаме, че поне една от двете връзки използва 64-битов AGLT+ интерфейс (EV6 при Phenom) познат като процесорна шина (FSB) при досегашните Core2. EV6/AGLT+ работят с удвояване/учетворяване (DDR/QPB) при външните си варианти, но при Phenom/Core i7 би следвало да се използва честотата на северния мост без DDR/QPB.

Core i7 използва две основни захранващи напрежения – за северния мост и за процесорните ядра (също като Phenom, ако се постави в Socket AM2+ дъно). За разлика от Phenom, при които всяко от процесорните ядра може да работи на различна тактова честота, при Core i7 и четирите ядра работят с една и съща, но за сметка на това ако липсва натоварване може да се изключва захранването към всяко по отделно. Това става възможно благодарение на добавените транзистори в ключов режим, чрез които Core i7 може да прекъсва захранването на много от своите елементи (ядра, QPI линии, отделни блокове вътре в ядрата и т.н.) – важна придобивка към Enchanced Intel SpeedStep Technology (EIST) режимите за пестене на енергия.

Също както при Phenom вграденият северен мост на Core i7 работи на по-ниска тактова честота в сравнение с тази на процесорните ядра (за разлика от Athlon64, при който целият чип работи с една и съща тактова честота), но естествено въпреки това достъпът до вградения L3 кеш е много по-бърз в сравнение с този до външната памет. Core2 няма нито L3 кеш нито вграден контролер за достъп до паметта и при него достъпът се забавя около 160 цикъла. Phenom използва L3 кеш с около 50 цикъла и вграден контролер с около 105 цикъла. L3 кешът при Core i7 е малко по-бърз (около 40 цикъла забавяне), а контролерът му за достъп до паметта работи също като Phenom с около 105 цикъла.

QPI интерфейсите са близки по функционалност до HyperTransport (ако Intel не държаха толкова много на затворените платформи можеха със същия успех да използват вече отдавна наложилия се HyperTransport интерфейс) – бързи серийни канали за връзка използващи диференциални сигнали, работещи с удвояване на тактовата честота (DDR) и предаващи по 16-бита информация на такт и в двете посоки едновременно (full duplex). Физически интерфейсът се състои от 21 взаимозаменями (т.е. комуникацията не спира при отпадане на някой от тях) приемопредавателя (всеки с по 2 извода за приемане и 2 за предаване), но от тях 2 се използват за корекция на грешките, 2 за протоколни данни и 1 за тактовия сигнал. QPI също като HT има възможност за разделяне на връзката на повече на брой по-тесни такива (HT по принцип предлага и 32-битов вариант, който обаче засега не се използва от AMD; най-вероятно и QPI би могла да се разшири). QPI поддържа четири режима на работа – първоначално стартиране (работи на половината от базовата честота на процесора), нормален (работи на пълната си тактова честота и с активирани всички линии), енергоспестяващ (почти всички линии са изключени) и изключен (всички линии, вкл. и тактовата са изключени – за ситуации, при които няма комуникация между процесора и периферните устройства – тъй като процесорът основно работи с RAM паметта, чийто контролер е вграден при Core i7 тези ситуации се срещат доста по-често в сравнение с Core2). Четириядрените Nehalem имат два QPI интерфейса, но при Core i7 единият е дезактивиран (той ще се използва за бъдещите двуцокълни Xeon ситеми).

Core i7 притежава три контролера за DDR3 памет и официално поддържа скорост до 533MHz/1066DDR (8.5GB/s на канал, общо 25.6GB/s пропускателен капацитет – колкото при двуканалния X48 с DDR3 работеща на 800MHz/1600DDR). Повечето дънни платки ще бъдат с по 6 DIMM слота, но някои по-евтини модели ще имат 4 (колкото при досегашните 2-канални чипсети и процесори), при които ако се използва четвъртият се получава дисбаланс в обемите, което не е препоръчително. За съжаление повечето настоящи приложения все още не успяват да оползотворят добавения трети канал и производителността почти не се влияе от това дали се използват два или три канала памет. Скоростта на паметта при Core i7 е сравнително консервативна при наличието на официални стандарти от JEDEC за DDR3 до 800MHz/1600DDR както и на overclock-модули с още по-високи честоти. Най-вероятно в бъдеще ще се появят процесори с по-бърза памет, но така или иначе разликата в производителността между 1066DDR и 1600DDR (каквито множители се поддържат и от настоящите Core i7, макар и неофициално) при триканалния Core i7 е 3-5% при масовите приложения и само в редки случаи достига над 10%.

След като ATI въведоха OverDrive при Radeon, а AMD – Advanced Clock Calibration в SB750/Phenom не е очудващо, че и Intel направиха своя „технология за автоматичен overclock” (TurboBoost). Когато Core i7 работи с всичките си 4 ядра, но все пак не е достигнал определени граници на температура и консумация на ток, тактовата му честота се увеличава с една базова стъпка (по подразбиране 133MHz) спрямо основната, а ако границите не са достигнати и е активно само едно ядро – честотата се увеличава с две стъпки спрямо основната. По този начин ефективността на Core i7 се увеличава дори ако използваният софтуер не може да се възползва пълноценно от повече от едно или две ядра. Ръка за ръка с TurboBoost върви и друга не толкова рекламирана функция на Core i7 – ограничение на консумирания ток – ако консумацията надхвърли дадена стойност (100А) тактовата честота се намалява. За щастие е предвидена възможност тази функция да се изключи в BIOS и съответно да не пречи при overclock, особено с използване на охлаждания различни от въздушно.

Платформата

Заради вградения северен мост Core i7 използва нов цокъл – LGA1366 и съответно нови охладители, нови чипсети и нови дънни платки (които заедно с все още скъпата DDR3 памет правят удоволствието да притежаваш най-бързия процесор още по-скъпо).

Засега има обявен един единствен чипсет с QPI – Intel X58, а освен това Intel отказват да дадат лицензи на Nvidia, SiS и VIA за новия интерфейс. Конфликтите на Intel с Nvidia и VIA са многобройни, но изглежда е дошъл моментът, в който Intel смятат, че повече нямат нужда от „чужди” чипсети – досегашното им партньорство със SiS е достатъчно добро за да се появят два модела Intel дънни със SiS662. Очаква се QPI да се използва и при Itanium процесорите, а там в момента малкото сървъри, които се предлагат използват чипсети на съответния производител (HP, IBM и т.н.) и много рядко Intel E8870 – съответно може би производителите на Itanium сървъри все пак ще получат QPI лицензи.

Intel X58 се състои от два елемента – южния мост ICH10R (използван заедно с P4x/G4x) наречен “Input/Output Controller Hub” и X58 PCI Express „тунелен чип” наречен “Input Output Hub” (IOH) от Intel. X58 се произвежда чрез остарялата вече 130nm технология (и съответно консумира повече енергия в сравнение с P45) разполага с един QPI интерфейс поддържащ скорост до 3200MHz/6400DDR за връзка с Core i7; два PCIe 2.0 x4 контролера – единият се използва в 1.0 режим за DMI връзка с южния мост ICH10, а другият – за PCIe х4 или два х2 слота; два PCIe 2.0 x16 контролера, които могат да се разделят на 4бр. х8 или 8бр. х4 слотове. AMD разрешават работата на Radeon в CrossFireX режим при Х58 (дву-, три- и четириплаткови конфигурации), а Nvidia продължават с изкуствените ограничения: след като разбраха, че няма да могат да направят QPI nForce първо предложиха SLI да се поддържа чрез добавянето на nF200 PCIe комутаторен чип (използван при nF780) към дънните платки. Този подход все още е възможен (дори има един-два обявени модела с X58+nF200), но има няколко недостатъка (допълнителният чип заема място, отделя топлина и струва пари) и нито едно предимство затова Nvidia бяха принудени да предприемат безпрецедентна стъпка – премахнаха блокировката в драйверите за активиране на SLI (вкл. 3-way и QuadSLI) при X58. За съжаление „освобождението” не е пълно – то важи само за модели дънни платки преминали „сертифициране от Nvidia” и производителите на тези модели плащат лицензионна такса на Nvidia (естествено значително по-малка от стойността на nF200). Това означава, че всички Х58 дъна поддържат CrossFireX, а някои от тях – и SLI.

През 2009-та се очакват нови процесори базирани на Nehalem и предназначени за средния и нисък ценови клас, които ще използват различен цокъл и ще имат вградени в корпуса PCIe и графичен контролери (нещо като Core i7+G45) и съответно ще използват като чипсет само ICH10 или негов наследник.

Core i7 модели

Засега са обявени три модела – 965 Extreme, 940 и 920. Extreme моделът се отличава от остналите по това, че е с отключени множители за тактовите честоти за по-лесен overclock – при другите повишаването на честотите става единствено чрез увеличаването на базовия тактов сигнал (както при Phenom или чрез промяната на честотата на процесорната шина при Core2). Core i7 920 работи на 2.66GHz със северен мост на 2.13GHz и QPI на 2400MHz/4800DDR (19.2GB/s, повече от HT на настоящите Phenom процесори, въпреки че чипсетите му поддържат до 2600MHz/5200DDR, т.е. 20.8GB/s). Core i7 940 работи съответно на 2.93GHz, 2.13GHz и 2400MHz/4800DDR. Core i7 965 работи съответно на 3.2GHz, 2.66GHz и 3200MHz/6400DDR (25.6GB/s). И трите модела се водят с TDP (Thermal Design Power) рейтинг от 130W, но той вече е съвсем изкривен – освен, че не отразява максималното възможно теоритично натоварване, а реално достижимото такова, в него не са включени около 45W, които отиват за захранване на всички елементи извън четирите процесорни ядра. От друга страна благодарение на множеството подобрения в посока намаляване на консумацията Core i7 965 (3.2GHz) консумира по-малко енергия от Core2 QX9770 (3.2GHz). Основен принос за това има решението на Intel да се върне към изцяло CMOS дизайн (при който консумацията на енергия е по-малка за сметка на по-ниски тактови честоти и повече площ заета от транзисторите). При младшите модели 920 и 940 съответстващите им по тактова честота C2Quad консумират по-малко, тъй като работят с по-ниски напрежения – изглежда ще трябва да мине малко време преди да се появят Nehalem варианти за мобилни компютри (когато Intel се почувстват достатъчно уверени да намалят захранващото напрежение), но когато това стане – батериите със сигурност ще издържат по-дълго.

Производителността на Core i7 в масовите приложения е с около 5-10% по-висока от C2Quad работещ на същата честота, а при 3D приложения и видеообработка – с 20-40%. Тези резултати превръщат Core i7 в безспорно най-бързия х86 процесор и вдигат летвата все по-високо за AMD, които трябва да се потрудили значително за да се надяват да запазят конкурентноспобността си през 2009.

Автор: Стоян Спахиев