Uutisoimme vajaat pari vuotta sitten Tachyumista, joka kehitti Prodigyksi kutsuttua universaalia prosessoria. Prodigyn kerrotaan hoitavan niin prosessorin, grafiikkaohjaimen kuin matriisimurskaimenkin tehtävät ja suorittavan koodia riippumatta siitä, onko se suunniteltu Armille, x86:lle vai RISC-V:lle.
Nyt Tachyum on julkistanut Prodigyn virallisesti, todeten vaatimattomasti sen tarjoavan parasta tekoäly- ja HPC-suorituskykyä markkinoilla. SPECrate 2017 Integer -testissä prosesorin kerrotaan tarjoavan noin nelinkertaista suorituskykyä Intelin Xeon 8380:een verrattuna ja kolminkertaista AMD:n Epyc 7763HPC:een verrattuna. FP64-laskuja se kykenee suorittamaan kolminkertaisella ja FP8-laskuja kuusinkertaisella nopeudella NVIDIAn H100-kiihdyttimeen verrattuna. Prosessori tukee laajaa kirjoa erilaisia dataformaatteja FP8:sta ja INT8:sta FP64:aan, mukaanlukien Bfloat16- ja TF32-tarkkuudet.
Tachyum Prodigy rakentuu minimissään 32 ja maksimissaan 128 64-bittisestä ytimestä, jotka toimivat parhaimmillaan jopa 5,7 GHz:n kellotaajuudella. Prosessorissa on 16 DDR5-muistiohjainta, mikä tarkoittanee perinteisemmässä mielessä kahdeksaa muistikanavaa. Tiedote ei tarkentanut päteekö sama muistiohjainten määrä kaikkiin malleihin vai vain 128-ytimiseen huippumalliin. Laajennettavuutta tarjoaa 64 PCI Express 5.0 -linjaa. Prodigy-prosessoreita voidaan asentaa kokoonpanoon yksi, kaksi tai neljä ja ne jäähtyvät tarpeen mukaan joko ilma- tai nestejäähdytteisesti.
Tachyum tulee aloittamaan prosessoreiden testierien toimittamisen asiakkaille tämän vuoden aikana ja massatuotantoon prosessorin pitäisi päästä ensi vuoden ensimmäisellä puoliskolla.
Lähde: Tachyum
Juuh, uskon vasta kun näen puolueettoman testin.
On siellä ainakin ihan pätevää ja nimekästä jengiä lafkassa mukana mm. "Rado", Steve Furber ja Fred Weber.
Joo vaikea kyllä uskoa että noi lukemat toteutuu kaikessa. Jossain sopivissa kuormissa voi toteutuakin.
Ainakin Linuxia videolla näytti pyörivän, niin eiköhän se Windows pyöri samalla tavalla.
Linux pyörii millä tahansa alustalla, Windows ei.
Sivuston mukaan ainakin 64-core versiossa olisi vain 8 muistiohjainta
Ainahan voidaan tehdä vaikka 10x nopeampi johonkin tiettyyn testiin, mutta noissa voi sitten joku toinen perusasia olla 10x hitaampi kuin missään nykyisessä prossussa. Odottaisin myös puolueettoman/luotettavan tahon testejä joissa ei mitata vain jotain yhtä asiaa labra-olosuhteissa.
Melkoista epäilystä herättää jo se, että väitetään että AMDn ja intelin serveriprossuihin verrattuna 3x ja 4x nopeampi specint17 ratessa mutta ei julistettu itse tuloksia. Herättää epäilyksiä, että intelin ja AMDn systeemit oli konfiguroitu pieleen noiden testeissä.
Ja sitten nuo testit oli ilmeisesti ajettu 5.7 Ghz kellotaajuudella verraten n. 2.4 Ghz kellotaajuudella pyöriviin Intelin ja AMDn prossuihin – veikkaan, että sillä 5.7 Ghz kellotaajuudella tuolla sähkönkulutus on kilowattiluokkaa, ja jos AMDn ja Intelin piirit kellotettaisiin sinne 5 GHz luokkaan minne ne pystyy, tai tuo kellotettaisiin samaan virrankulutusluokkaan kuin millä AMDn ja Intelin piirit nyt pyörii n. 2.4 GHz taajuuksilla, nopeusvertailu antaisi aika erilaisia tuloksia.
Tachyon hypettää "out-of-order execution with Compiler" – tämä on bullshittiä. Prossu joko uudelleenjärjestelee käskyjä lennossa tai ei tee sitä, ja tämä ei tee sitä. Se, että joku välikoodikääntäjä uudelleenjärjestelee käskyjä ei anna järkevää suorituskykyä esim. välimuistihudin sattuessa ja vaatii edelleen maagista yksisarvikääntäjää software-pipelinettääkseeen hankalammat loopit optimaalsiesti (kun taas oikea OoOE suorittaa ne optimaalisesti raudalla ilman mitään kääntäjätukea). Toki se kääntäjä voidaan viilaa software pipettämään muutama ebnchmarkeissa yleisesti esiintyvä looppi optimaalisesti, mutta sitten kun tosimaailmassa tulee vastaan hiukan erilainen looppi jonka software pipelinetys ei onnistu, se ajatuukin paljon hitaammin.
16 kiB 2-tieassosiatiiviset välimuistit ei myöskään oikein vakuuta.
Ensinnäkin kapasiteetti ja assosiatiivivisuus on pieni että huteja tulee paljon, ja kun OoOEn puutteessa hudin pitäisi sattua pahemmin.
Toisekseen, se, että tien koko on 8 kiB tarkoittaa sitä, että L1D-välimuisti ei voi olla VIPT-tyyppiä x86n 4 kiB välimuistisivuilla.
Tuo vektoripuoli tuossa voi sen sijaan olla ihan päteväkin, mutta en ole lukenut siitä vielä tarpeeksi sanoakseni siitä varmuudella mitään.
Tämä on myös mahdollista. Tällöin
1) Ei tarvi piitata sähkönkulutuksesta ja lämmöntuotosta vaikka kellotaajuus on korkea.
2) Uloimman tason välimuisteilla, jotka on jaettu monen ytimen välillä, saadaan parempi osumatarkkuus kuin tositilanteessa.
3) Muistikaistaa riittää paremmin kuin tositilanteessa.