AMD esitteli CES 2020 -messujen kynnyksellä pitämässään lehdistötilaisuudessa tänä vuonna saataville tulevia uutuuksiaan. Joukkoon mahtui myös jo viime vuonna varmistettu uusi keihäänkärki HEDT-markkinoille.
Ryzen Threadripper 3990X on odotetusti 64-ytiminen Zen 2 -arkkitehtuuriin perustuva prosessori, joka kykenee ajamaan SMT-teknologian ansiosta samanaikaisesti 128 säiettä. Prosessorin perus- ja Boost-kellotaajuudet ovat 2,9 ja 4,3 GHz ja prosessoriydinten tukena on yhteensä 288 megatavua välimuistia.
AMD otti ilon irti uudesta prosessoristaan esitellen sen Cinebench 20 -suorituskykyä. Kun tulosgraafiin otettiin mukaan Intelin Core i9-9900KS, AMD:n Ryzen 9 3950X ja viime vuonna esitellyt 24- ja 32-ytimiset Threadripperit, tarvittiin palkkien näyttämiseen kaksi kolmesta screenistä. Kun mukaan lisättiin 3990X:n 25399 pisteen tulos, tarvittiin niiden näyttämiseen kolmaskin lavan takana levittäytyvistä screeneistä.
AMD vertasi prosessorin suorituskykyä myös V-Ray-renderöintisovelluksessa, jossa Threadripper 3990X:ää verrattiin kahteen Intelin Xeon Platinum 8280 -prosessoriin, joissa on käytössä yhteensä 56 ydintä ja 112 säiettä. Terminator: Dark Fate -elokuvasta lainattua ruutua renderöidessä Threadripperiltä vierähti aikaa tunti ja 3 minuuttia, kun Intel-kokoonpanolla aikaa meni peräti puolitoista tuntia. Samalla muistutettiin luonnollisesti Intel-vaihtoehdon viisinkertaisesta hinnasta.
Ryzen Threadripper 3990X saapuu myyntiin 7. helmikuuta ja sen veroton suositushinta on lainattu suoraan prosessorin mallinumerosta: 3990 dollaria.
Onhan tuo jo aika hinnakas prossuksi, mutta on kyllä melkoinen työjuhta myös siinä samalla. Että kait se hinta on tuolle ihan perusteltu etenkin hinta/laatu-suhteen osalta, etenkin jos vertaa sinisen leirin vaihtoehtoihin. Ei mene atm Intelillä hyvin ei.
222$/min vs. 63$/min.
Sitä hetken miettii, että onpas prossun hinta karannut korkeaksi, kun ei ole kilpailua. Sitten sitä miettii, että muutama vuosi takaperin olisi tarvittu useita palvelimia samaan räkkiin, jotta saadaan sama ydinmäärä mitä nyt tarjotaan asennettavaksi yhteen prossukantaan. Kokonaiskustannuksissa siis selvä voitto, eikä ne Intelin kivet yksittäinkään ole halpoja olleet.
Muutama vuosi sitten HP:n serveri setti vastaavalla teholla olis maksanut noin 300-400 tuhatta. Joten ei paha kehitys kyllä ja noita saa kuka vaan jos pörssissä on painetta tarpeeksi. Itsellä ensimmäisen setin TR:ä ja siitä on tultu kyllä aika paljon ylöspäin tehoissa ja ytimien määrässä. AMD kurmottaa Inteliä nyt niin isän kädestä kun olla ja voi. Toki tässähän kulminoituu vuosien paineet altavastaajana ja nyt on ihanaa heitellä suolaa sinisiin haavoihin.
Tässä katoaa käsityskyky hinnasta, kun ytimiä lätkitään yhä enemmän samalle kannalle. Eihän tuo ole chiplettiä kohden erityisen kallis. Lisähintaa tulee tietysti siitä, että kyseessä on erikoistuote.
En olisi hinnasta huolissani, ostajan päätettäväksihän se jää, että onko aika tarpeeksi arvokasta ja sitähän säästyykin tälläsellä kivesryyppäällä aika reippaasti.
On sillä absoluuttisella hinnallakin merkitystä jos meinaa tuotteitaan myydä merkittävissä määrin, budjetit
kun tahtoo olla sitä kautta määritettyjä eikä skaalautuvia.
Ja siitä että saa vapaasti määrätä hinnan kunnon kilpailun puuttuessa (tässä segmentissä).
Hetkinen, tuo kuulosti tutulta. Ihan kun olisin kuullut jossain muussa yhteydessä saman lauseen… :think:
Työntekijöiden aika on kalliimpaa kuin tuo 64-coreinen eli firmoille, jotka tuon tasoista laskutehoa tarvitsevat, tuo hinta ei ole paha.
AMD kyllä hieroo aika huolella suolaa Intelin haavoihin, kun ottaa huomioon, että noita ei olisi ollut edes pakko julkaista kun Intelillä ei ole vastinetta edes aiemmin julkaistuille versioillekaan.
$/min vertailussa ei ole järkeä, jos Intelillä olisi mennyt samaan laskentaan 10h, kustantaisi se "vain" 33$/h, ja jos suorituskykyä olisi niin paljon, että se laskisi koko testin vain yhdessä minuutissa, olisikin hinta hulppeat 20 k$/min. Oikea vertailutapa on $·min, koska sekä ajan että hinnan toivoisi olevan mahdollisimman alhainen. Intelillä lukema on 1 800 k$·min ja AMD:llä 251 k$·min, eli AMD:n perf/$ on yli seitsenkertainen.
On aika massiivinen määrä multithreaded suorituskykyä yhteen työsasemaan. Harmi ettei näitä kai pysty boottaamaan ilman muistikampoja, olisi kiva nähdä jonkun kikkailevan pienen linux distron pyörimään pelkässä välimuistissa…
Siis kyllähän tuo alkaa tuntua työtunneissa ja paljonkin.
Firmalle tuollainen mylly on ihan omiaan esim videoeditti hommissa, jopa minulle joka teen yksin. Jos saan editoitua videon vaikka 10 kertaa nopeammin niin ei tuo 4K€ ole kuin muutaman videon juttu ja se on kuoletettu jo pois.
Nyt kun vetelee 8 corella niin Resolve on tukossa jo parin efektin jälkeen ja koko timeline pitää renderöidä (jossa voi mennä aikaa kymmenistä minuuteista-tunteihin) jos tuolla voisi editin hoitaa liki reaaliajassa niin menee ostoon kyllä. Puhumattakaan siitä loppu renderöinnistä joka niin ikään hoituisi lähes reaaliajassa eikä mene tunteja aikaa 😀
Tosin ei tuo pelkkä prossu riitä vaan muistia sen 256 gigaa myös 😀
Tässä olisi pari fundamaentaalista estettä:
1) DMAlla toimiva memory-mapped IO (eli siis melkein kaikki IO) ei toimisi, kun ei ole mitään globaalia muistia minne ne voisivat datansa tunkea.
2) Eri CCXt eivät voi kirjoittaa toistensa välimuisteihin.
Piirillä, jossa kaikille ytimille on yhteinen välimuisti joka tukee DDIOta tämä "muistiton toiminta" olisi paljon lähempänä mahdollista.
Aikoinaan yksi pomo haukkui tehotyöasemaa kalliiksi ja oli haluton ostamaan sellaista. Kysyin sitten suoraan, että kumman arvelet tulevan firmalle kalliimmaksi työaseman elinaikana: sen kunnon raudan vai sen työajan jonka työntekijät ryystävät kahvia ja pyörittelevät peukaloitaan, kun kone laskee ja voi vain odottaa. Pomo mietti asiaa minuutin verran ja sen jälkeen se tehotyöasema ei enää ollutkaan kallis…
"ja sen jälkeen se tehotyöasema ei enää ollutkaan kallis…"
Näin se menee. Aikoinaan arkkitehtitoimistossa sama juttu kun uusia koneita miettivät. Kerroin että se on suoraan tunneista pois kun on aatamin aikaiset koneet ja kokoajan koneet yskii pienimmästäkin Archi Cadia pyörittäessä.
Vein uuden koneen viereen ja näytin mikä ero on niin johan oli lompsa levällään, oli tosi vihainen itselleen että miksi oli odottanut niin pitkään koneiden vaihtoa.
Laski mielessään että oli menettänyt kymmeniä tuhansia markkoja vuoden aikana siihen kormuläjään ja aikaan jota on koitettu tekohengittää milloin milläkin kaverin kikalla.
Näissä uutisissa ei ole enää mitään viihdearvoa.
Meillä perustelin TR1 työasemia kertakustannuksena sen sijaan että projekteille vuokraillaan virtuaali servereitä halvimmillaan 200-300e/kk per pannu. Yleensä projetkilla sitten minimissään 2-3 pannua että on HA ympäristö. Meni sitten heti samalla viikolla koneet tilaukseen. Noin 3k€ per työasema.. joilla ajeltiin sitten aika tarkkaan 1:1 alas ympäristöjä jotka maksoi 1k€/kk.
Kyllä nää halpoja on jos niille on ihan oikeata käyttöä. Eriasia sitten jos huvikseen kuolaa kotiin konetta jolla ei ole sielä mitään oikeaa tarvetta. 😀
Kukapa ei?!?! :drool::greedy::greedy::drool:
Vauhtisokeushan ihmisille on näiden suhteen iskenyt. Pari vuotta sitten nuita 16-ytimisiä Threadrippereitä kuolattiin ja mietittiin että olisiko sellaiselle käyttöä kotona. Intelin 10-ytiminen HEDT-prosessori maksoi tonnin ja emolevy 300-500. Intelin 18-ytiminen palvelinprosessori maksoi 5000e (maksaa vieläkin Intel Intel Xeon E5-2699 v4, LGA2011-3, 2.2GHz, 55MB, Tray – 4 878,00€). Nuihin kun vertaa niin varsin halpaahan tämä on.
Tuo on firmoille, joissa laskentakyky on suoraan viivan alle menevää tuloa hyvinkin ymmärrettävä satsaus. Onhan se jos ennen on 10 projektia saanut tehtyä, niin tolla saa tyyliin 30 samassa ajassa.
M/V: Intel Dual Xeon Platinum 8280 kokoonpano.
”Vaihdossa voidaan ottaa 5kpl AMD 3990X -kokoonpanoja…”
😀 😀
No esim en minä itse mitään TR rautaa kotiin kuolaa, rynkässäkään oo kun 6 corea kun piisaa koti tekemisiin ja vähäiseen pelailuun ihan hyvin, katotaan nyt si tuleeko 8C vai mitä kun Zen3:sta saa kaupasta. Mielummin nekin "extra tonnit" mitä menis TRn investointiin laitan vaikka osakkeisiin tai lyhennän asuntolainaa tai käyn vaikka lomamatkalla jossain.
Tänään ostettu rauta on ylihuomenna halpaa ongelmajätettä, turha investoida siihen hulluna jos ei ole oikeata tarvetta. 😀
Onhan tuo nyt aivan huikea saavutus! Tosin tietysti täysin turha perus tallaajille.. Itse teen työkseni valokuvaus ja videohommia joista videohommat on viimeisen vuoden aikana ottanut niin vahvasti voiton että täytyy tosiaan olla prossulla vääntöä ja päädyinkin tilaamaan 3950x:n ja 64gb 3600mhz muistia vanhan 2700x ja 32gb 3000mhz tilalle, laskin että abaut 2kk maksaa itsensä takaisin. Jos tulisi enemmän kuvattua RED:illä niin kyllä se melkein threadripper olisi
Tuohan on varsin kohtuuhintainen kun ajattelee että se on käytännössä 4x 3950X ja järäempi i/o lastu.
Ei mielestäni ollenkaan ylihintainen kyllä.
Tää oli kahdella NUMAlla?
Eli välttämättä kaikki softat ei osaa hyödyntää kokonaisuutta?
Heh…just joo. Vielä joku jaksaa yrittää jotain selittelyä tämän tiimoilta. NUMA:n suhteen ollaan siinä tilanteessa että ei enää mikään ns. iso ongenlma. Täytyy muistaa että nyt ollaan tekemisissä myös softan suhteen vähän eri tilanteessa kun ns. normi jannun pelikoneen räpeltämisessä. 1 NUMA edelleen ja tehoa riittävästi vs. Intel. Toki jossain se ahdistaa niin vitetävästi kun on tajuttu että ei vaan nappaa enää nämä Intelin rahastus mallit yntään enää.
Kahdella? Miksi olisi?
Ei tota kyllä oikeastaan kalliina voi pitää, kun miettii millainen kivi kyseessä. Ne ostaa keillä on varaa, ja muut löytävät ratkaisunsa vaikkapa AM4 puolelta. :tup:
Ei ole, kiitos muistiohjaimen joka on chiplettien sijaan I/O-sirulla
Teoriassahan siellä kyllä on useampia NUMA-alueita sen IO-chipin sisällä, koska jokaiselle chipletille on oma erillinen muistiohjaimensa. Ainakin Epycillähän on mahdollista pakottaa windows 4 numa-noodin tilaan, jolloin vältetään prosessien hyppely chipletiltä toiselle, mikä voi tiettyjen tehtävien suhteen nopeuttaa asioita.
AMD EPYC 7002 Series Rome Delivers a Knockout | Page 6 of 10 | ServeTheHome
Olet käsittänyt väärin. Sen voi konfiguroida useammaksi NUMA noodiksi (1,2 tai 4), mutta se mahdollisuus on vain muistilatenssien virittelyä varten. Hommat toimivat nopeammin jos ei tarvitse aivan kaikkia L3 kakkuja koluta läpi muistihakuja tehdessä. Optio löytyy biossista eikä mistään windowssista. Perinteisesti windowssin scheduleri ei nimenomaan osaa noita NUMA hommia erityisen hyvin, josta johtuu mm. 2990WX:n joissain käyttötilanteissa huono suorituskyky verrattuna vastaavaan linux järjestelmään.
Tuota, eikös AMD käytä ccNUMAa eli cache coherenttia NUMAa? Tällöin L1-L3 cachet on kyllä kaikilla numa-nodeilla ihan samat (järjestys ei välttämättä, mutta sisältö on).
Ja Windows osaa kyllä scheduloida ihan kohtuullisesti 64 säikeeseen asti, tämän jälkeen käyttis pilkkoo numat kahteen CPU-grouppiin, jonka jälkeen sitten käytännössä softalla pitää olla ainakin jonkinasteinen oma scheduleri, että osaa käyttää kumpaakin.
Tässähän tulee tuo Windowsin 64 loogisen CPUn rajoite vastaan (max 64 säiettä per prosessi ilman tiettyjä systeemikutsuja). Mikä tahansa softa ei osaa ottaa kaikkia säikeitä käyttöön, vaan pitää olla Processor group valveutunut. Saa nähdä tuleeko MS:ltä jotain pätsiä tähän, vai mennäänkö kuten tähänkin asti.
Zen2 suurin uudistushan juuri oli se että jokainen chipletillä oleva ydin on samanarvoinen keskuismuistiin päin. Toki tappiota tulee jos täytyy noutaa jotain toisen CCX:n välimuistista jollonka on järkevää yrittää niputtaa keskenään tietoa vaihtavat säikeet jos ei saman CCX:n sisään
Windows vs linux suorituskykytestit haastavilla numa konfiguraatioilla (2990WX) viittaa siihen että se ei osaa ainakaan yhtä hyvin noita hommia.
jos kerran amd:lla noi olis cache koherentteja kuten sanot, niin miksi 7002 sarjan prossuilla numa noodeihin jakaminen nimenomaan vaikuttaa muistihakujen suorituskykyyn? Saattaahan siinä olla jotain muitakin hommia, mutta tuo olisi musta ihan looginen selitys.
En nyt äkkiseltään löytänyt vastaavaa 3000 sarjan TR:llä ajaettuna mutta tuskin se Ryzen 9 sarjasta eroaa. Tuon verran parannusta se zen2 toi muistiaccesiin. 3900X:n kuvassa näkyy hyvin CCX:n sisäisten hakujen vs IO ytimen kautta kulkevien viive-ero. 1950X kanssa taas näkyy se paljonko tulee takkiin kun kaikilla ytimillä ei ole samanarvoista reittiä keskusmuistiin.
katso liitettä 329530
Ei tehoa ole tänä päivänä koskaan liikaa. Tämähän ei ole kuluttajille suunnattu vaan ammattikäyttöön Itsellä 3900x eikä se riitä renderöintiin tai pelinkehitykseen, saa odotella tuntitolkulla. Jos yrityksessä mennään Intelin raudalla, niin saa kalliit työntekijät odotella kahvitauolla kun koneet renderöi. Se on työnantajalle kallista. Esim. kohta 8K resoluutio on uusi 4K videoissa.
Ei se yhtä hyvä ole, mutta ei ihan toivotonkaan. Joillain kuormilla suunnilleen samaa tasoa (mm. tietokannat).
Muistien etäisyys. Jokaisella NUMA-bankilla on omat muistit. Jos toinen NUMA-node haluaa käsitellä toisen noden muisteja, tähän tulee lisälatenssia. Välimuistit pidetään samansisältöisinä, se kun helpottaa ohjelmointia ihan valtavasti, kun ei tarvitse hallita datan sisältöjä välimuistitasolla. Wikipedian NUMA artikkelissa on hyvä tiivistelmä, tässä sitten syvemmälti: NUMA Deep Dive Part 3: Cache Coherency – frankdenneman.nl
Kun tehdään NUMA-tietoista softaa, pyritään muistit jakamaan siten, että niitä eniten käsittelevät säikeet ovat aina mahdollisimman lähellä muisteja, eli sijoitetaan sille nodelle joka muistit omistaa. Säikeiden pallottelua (aka context switch) yritetään välttää, mutta vielä enemmän yritetään välttää muistikopiointeja, joka saattaa johtaa koko prosessin jumiutumiseen hetkeksi.
Ja joillain kuormilla ero on yli 100% Linuxin hyväksi. Luokittelisin toivottomaksi.
A Look At The Windows 10 vs. Linux Performance On AMD Threadripper 2990WX – Phoronix
Eli käytännössä tolla io chipin sisäisellä NUMA-jako -optiolla voidaan vaihtaa muistikaistaa parempiin latensseihin? Yhdellä nodella kaikki muistit interleavattaisiin ja latenssit olis pikkasen korkeammat vs. neljällä nodella muistit on interleavattu kahden muistiväylän verran mutta latenssit on paremmat?
Aploodit seisten punaiselle leirille!
offtopic:
En nyt puolustele Windowsia mitenkään Unix-miehenä, mutta WTF mikä vertailu! Otetaan Windowsilla joku määrittelemätön buildi ja verrataan sitä -march=native gcc-buildiin? (-march=native optimoi käytettävälle CPU:lle, ml. kaikki cachelinet, cachet, tlb:t, uudet fiitsörit ml avx:t, etc., tulokset voivat olla kapeissa testeissä todella paljon parempia kuin geneerisen building joka on optimoitu ehkä -march=core-i7 yhteensopivuuden takia).
Jos vertailu olisi tehty kunnolla, softat olisi käännetty vaikkapa Intelin kääntäjällä oletuksilla kummallekin alustalle. Tulokset voisivat olla varsin erilaisia. Todennäköisesti Linux olisi edelleen nopeampi, mutta ei noin paljoa.
Level1Techs tutki tuota lisää juuri noiden sun huomioiden takia ja ei saanut eroja kirittyä merkittävästi kiinni vaikka käytti käytännössä samaa binääriä linux subsystemin kautta. Intelin kääntäjää en käyttäisi kuin intelin prossujen kanssa, siellä on paljon historiassa kaikkea typerää kilpailijan kampittamista. GCC molemmille alustoille on läpinäkyvin vertailukohta.
Offtopic jatkuu: ( Sori siitä).
Pointtisi on täysin validi. Ja samalla itselleni suuri syy ajella vapaalla koodilla. Suuri syy se näyttää olevan myös TOP500 listalla:
TOP500 – Wikipedia
Ajelin ihan ilman sen ihmeellisempiä optimointeja yksinkertaisen ohjelman sekä Linuxissa että Windowsin Linux subsystemissä (gcc:llä ja muistaakseni -march=native -O3) ja Linuxissa käännetty oli huomattavasti nopeampi. Tarkoituksenani oli vain demonstroida pythonin ja c:n nopeuseroa oppilaille, ja kun testasin kotona Linuxilla ja töissä näytin wsl:ssä, niin ihmettelin C:n hitautta.
Ei ollut mikään tosimaailman esimerkki vaan yksinkertainen laskuri, mikä teki joka luupilla vähän jotain muutakin kuin lisäsi laskuriin yhden. Ei kuitenkaan outputtia. Siltikin WSL:ssä samoilla asetuksilla käännetty ja ajettu oli huomattavasti hitaampi.
Mikähän rooli Epycille nyt sitten jää jos ja kun threadripper ei kilpailekaan enää intelin kuluttaja-hedt tuotteita vastaan vaan xeonien kanssa (ja päihittää ne helposti)
Palvelimet ja datakeskukset tietysti
Mutta olisiko poissuljettua päivittää palvelin xeonista 64 core threadripperiin (Epycin sijaan) ja jos niin miksi? Veikkaisin ainaki että threadripper voisi syödä aiempaa isomman osan palvelinmarkkinoista, myös Epyciltä.
Prossujen kilohinnat nettona ilman pakkausta jos voisit vielä laskea? Ihan mielenkiinnosta kyselen.
Käytössä, jossa ytimiä tarvitaan maksimit ei tyydytä threadripperiin, vaan ostetaan dual sockettia tukevia epyccejä
Enemmän PCIe-linjoja ja muistiväyliä nyt ainakin. Ja sen Epycin voi päivittää vanhaan lankkuun (suurella todennäköisyydellä, ilmeisesti kaikki valmistajat eivät tätä tue) jos firma niin haluaa ilman että tarvii muuta rautaa uusia.
Eikös epyceissä ole myös etähallinta- ja tietoturvajuttuja mitä ei threadrippereistä tai ryzeneistä löydy
Ainakin IPMI toimii myös ihan perus Ryzenillä. Pitää vaan olla emolevyllä tuki (esim. Asrock Rack).
On. Muistaakseni ainakin muistinsalausta yms.
Voi olla vähän nihkeetä. Jos löytyy kotelot, powerit ja muut räkkihärvelit jollein TR lappuselle, nii sitten on vielä softapuolen kanssa ongelmia. Softa toimittajilta ei välttämättä heru tukea kun sertifoidulle raudalle, jos tukea ei heru niin eipä moni asiakas osta sulta sitten kapasiteettiakaan. Ja jos se on vain omaan käyttöön ja tulee jotain ongelmia etkä saa sille tukea niin sitten on taas bisnes solmussa. Liian isot riskit säästellä muutamia tuhatlappusia per kone.
Saati sitten mitä se työ maksaa kaikelle tuolle säädölle, halvempi vaan ostaa valmiita epyc patoja ja paiskoa räkkiin ja iskeä lakut kiinni. Kuten tässä on jo todettu niin rauta on halpaa, ihmisten räpeltäminen ei. 🙂