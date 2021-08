Sapphire Rapids on 4-siruinen palvelinprosessori, Mount Evans IPU-verkkoprosessori ja Xe-HPC-arkkitehtuuriin perustuva Ponte Vecchio peräti 47 sirusta rakentuva laskentapiiri.

Intel Architecture Day -tapahtumassa esiteltiin myös järeää palvelinrautaa Sapphire Rapidsin ja Xe-HPC:n sekä Ponte Vecchion muodossa. Lisäksi esille pääsi yhtiön tuleva Mount Evans -Infrastructure Processing Unit, eli IPU-verkkoprosessori.

Sapphire Rapids on Intel 7 -prosessilla valmistettava seuraavan sukupolven palvelinprosessori. Intelin uusi prosessori perustuu neljään siruun, joista kaksi on peilikuvia toisista. Tällä ratkaisulla piirit on saatu aseteltua siten, että ydinten välinen fyysinen etäisyys on eri sirujenkin välillä mahdollisimman lyhyt. Jokaisen sirun ulkolaidoille kaksikanavainen muistiohjain per siru, Intel Ultra Path Interconnect -väylä (UPI), erilaisia kiihdyttimiä ja PCIe-linjat.

Prosessoriytimet perustuvat Alder Lakestakin tuttuun Golden Cove -arkkitehtuuriin ja ne tukevat siten Intel AMX -laajennoksia (Advanced Matrix Extensions) ja FP16-tarkkuutta vektoriyksiköissä. Accelerator interfacing Architecture mahdollistaa puolestaan useiden tehtävien siirtämisen prosessoriytimiltä erillisille kiihdyttimille. Mukana olevia kiihdyttimiä eli Accelerator Engineitä ovat ainakin datan liikutteluun erikoistunut Data Streaming, krpytografiaa ja datan pakkausta ja purkua kiihdyttävä Quick Assist Technology.

I/O-puolella tuettuina ovat puolestaan uusi Compute eXpress Link- eli CXL 1.1, PCI Express 5.0 ja paranneltu UPI 2.0. Prosessoriin mahtuu parhaimmillaan yli 100 kaikkien ydinten jakamaa viimeisen tason välimuistia ja 8-kanavaista DDR5-muistiohjainta terästää entisestään tuki uusien muistien lisäksi HBM-muisteille.

Intel lupaa Xe-HPC:n nostavan HPC-maailmassa FP64-suorituskyvyn, FP16/BFloat16-tarkkuuksien suorituskyvyn ja muistikaistan aivan uusiin ulottuvuuksiin. Valitettavasti diasta puuttuu skaala, joten todellisia lukuja on vaikeampi arvioida, joten asia jätettäköön toistaiseksi hautumaan.

Xe-HPC:n Xe-Core on sisältää Xe-HPG:sta poiketen vain kahdeksan Vector Engineä ja kahdeksan Matrix Engineä (XMX). Vastapainoksi Vector Enginet ovat kuitenkin tuplasti järeämpiä ja suorittavat FP64-laskuja samalla nopeudella FP32-laskujen kanssa ja FP16-laskuja kaksinkertaisella nopeudella. XMX-matriisikiihdyttimet ovat puolestaan neljä kertaa HPG:ta järeämpiä. Xe-Coreen sisältyy myös 512 Kt L2-välimuistia.

Render Slicen sijasta Xe-HPC:ssa on vain Slice, johon mahtuu 16 Xe-Corea, 16 Ray Tracing Unit -kiihdytintä ja yksi Hardware Context-yksikkö, joka on suunniteltu kiihdyttämään virtualisointia ja piirin osien jakoa useammalle käyttäjälle. Stack-yksiköt sisältävät puolestaan neljä Sliceä, peräti 144 Mt:n L2-välimuistin, Media Engine -yksikön, neljä HBM2e-ohjainta, kahdeksan Xe Link -yhdysväylää sekä Stack to Stack -yksikön. Stack to Stack -yksikkö on suunniteltu kahden Xe-HPC-piirin keskustelun keskenään EMIB-sillan avulla Xe Link-yhdysväylien sijasta. Ratkaisu on käytössä ainakin Ponte Vecchiossa. Xe-HPC tukee maksimissaan kahdeksan Ponte Vecchion toimintaa yhdessä.

Vaikka yllä oleva on jo sekametelisoppa sinänsä, todellisuudessa yllä on kuvattu jo useita eri siruja. Yksi Slice sisältää pohjapiirin (Base die), kaksi Compute Tile -sirua, Rambo-välimuistisirut, HBM-muistisirut sekä tietenkin Xe Link -sirut, jotka ovat nekin erillisiä. Sirut on yhdistetty toisiinsa Foveros-paketointiteknologialla ja EMIB-silloilla. Compute Tilet valmistutetaan TSMC:n N5-prosessilla ja Xe Link -sirut saman yhtiön N7-prosessilla. Pohjasiru HBM2E-ohjaimineen, Stack to Stack -yhteyksineen ja PCIe-linkkeineen sekä Rambo-välimuistisirut yhtiö valmistaa itse Intel 7 -prosessilla ja Foveros-teknologialla.

Yksi Ponte Vecchio tarjoaa Intelin mukaan tämänhetkisessä A0-versiossaan yli 45 TFLOPSin edestä FP32-laskentatehoa, yli 5 teratavua kaistaa sekunnissa Memory Fabricin sisällä ja yli 2 teratavua kaistaa sekunnissa eri yhteyksiin.

Mount Evans IGPU on 200 gigabitin verkkoyhteyksille suunniteltu verkkoprosessori. Se on suunniteltu poistamaan prosessorilta merkittäviä taakkoja ja pullonkauloja verkkoyhteyden yli käytettäessä. Se voi hallinnoida esimerkiksi tallennustilaa NVMe Offload Engine -yksikkönsä avulla. Itse piiri jakautuu käytännössä kahteen osaan: 200 Gbps:n verkko-ohjaimen ja kiihdyttimiä sisältävään osaan ja laskentaosaan. Laskentaosasta löytyy parhaimmillaan 16 Arm Neoverse N1 -ydintä, välimuistia, kolme LPDDR4-muistikanavaa, krypto- ja pakkausyksikkö sekä hallinointiyksikkö.

Lähde: Intelin lehdistömateriaalit