Graphcoren mukaan kahdeksan IPU-M2000 -korttipalvelinta yhteensä 32 Colossus Mk.2 -sirulla peittoaa EfficientNet-B4-tehtävissä 16 NVIDIAn DGX A100 -laskentapalvelinta 128 A100-sirulla.

NVIDIA on koetellut viimeisimmillä laskentasiruillaan TSMC:n tuotantoprosessien rajoja. Uusi 7 nanometrin prosessilla valmistettu A100 rakentuu 54,2 miljardista transistorista ja on kooltaan 826 neliömilliä.

Isolle yleisölle epäilemättä tuntematon Graphcore on nyt lyönyt uuden vaihteen silmään ja julkaissut tekoälylaskentaan suunnitellun Colossus Mk2 GC200 IPU:n (Intelligence Processing Unit). Se rakentuu 59,4 miljardista transistorista, mitkä on saatu ahdettua hieman A100:aa pienempään tilaan 823 neliömillin alalle. Myös Graphcore käyttää TSMC:n 7 nanometrin valmistusprosessia.

GC200 on sisällä jaettu 1472 erilliseen IPU-ytimeen, jotka kykenevät suorittamaan samanaikaisesti 8832 rinnakkaista säiettä. IPU-ydinten tukena on yhteensä 900 Mt sirun sisäistä muistia ja kullakin IPU:lla on omaan muistilohkoonsa 47,5 Tt/s:n kaista. Tekoälyprosessorissa hyödynnetään Graphcoren omaa AI-Float-teknologiaa, minkä se kehuu mahdollistavan peräti petaFLOPSin laskentatehon 1U-kokoluokan korttipalvelimessa (blade) neljän sirun voimin.

Valitettavasti Graphcore ei kerro tarkkaan, minkälaisia tarkkuuksia se todellisuudessa tukee. Yhtiö mainostaa tukea IEEE-standardille FP32-formaatille, minkä lisäksi tuettuina ovat FP16.32 (16-bittinen kertolasku, 32-bittinen summaus) ja FP16.16 (16-bittinen kertolasku ja summaus). Lisäksi sirut tukevat stokastista pyöristystä, minkä avulla kaikki aritmetiikka voidaan pitää 16-bittisenä uhraamatta tulosten tarkkuutta.

Suorituskyvystä Graphcore on paljastaonut sen verran, että EfficientNet-B4 kuvan luokittelu opetuksessa kahdeksan IPU-M2000 1U-korttipalvelinta paketti vastaa suorituskyvyltään peräti 16 NVIDIA DGX A100 6U-palvelinta murto-osalla niiden hinnasta. Yksi IPU-M200-korttipalvelin sisältää neljä Colossus Mk2 GC200 IPUa.

Lähteet: Graphcore, Hexus

This site uses XenWord.
;