NVIDIAn Volta-arkkitehtuurin Titan V on nopein näytönohjain, joka on suunnattu edes teoriatasolla myös kuluttajille. The Registerin mukaan ainakin osa Titan V -näytönohjaimista kärsii bugista, joka vaikuttaa ainakin näytönohjaimen käyttökelpoisuuteen tieteellisessä laskennassa.
The Registerin artikkelin mukaan Titan V -näytönohjaimia vaivaa bugi, jonka vuoksi saman laskutehtävän tulos ei ole aina sama. Sivusto kertoo konsultoineensa artikkelin tiimoilta useita insinöörejä, jotka suostuivat vastaamaan tiedusteluihin vain anonyymeinä. The Register kertoo myös kysyneensä NVIDIA:lta asiasta suoraan jo useaan otteeseen, mutta yhtiö on kieltäytynyt vastaamasta kyselyihin.
Alun perin ongelmasta kertoneen insinöörin mukaan hän ajoi testejä yhteensä neljällä Titan V -näytönohjaimella. Näytönohjaimista kaksi antoi noin 10 % laskukerroista tulokseksi jotain muuta, kuin olisi pitänyt, vaikka näytönohjaimissa ei vaikuttanut muutoin olevan mitään vikaa. Pascal-sukupolven Titan-näytönohjaimilla vastaavaa ongelmaa ei esiintynyt.
Muiden insinöörien mukaan kyseessä ei ole ensimmäinen kerta, kun vastaavaa tapahtuu NVIDIAn huippunäytönohjaimissa, mutta aiemmat ongelmat on selvitetty ilmeisesti ajurikorjauksilla. Yksi haastatelluista insinööreistä epäili, että ongelma saattaisi löytyä liian tiukalle venytetyistä muisteista, jotka aiheuttaisivat lukuvirheitä. Toiseksi selitykseksi on esitetty yksinkertaisesti suunnitteluvirhettä, mutta suunnitteluvirheestä johtuvien laskuvirheiden luulisi esiintyvän jok’ikisessä Titan V -näytönohjaimessa, ei vain osassa.
NVIDIA pitää GPU Technology Conference -tapahtumansa ensi viikolla. Tapahtuma olisi otollinen tilaisuus ottaa kantaa mahdolliseen ongelmaan, mikäli se on yksittäistapauksia lajeempi.
Lähde: The Register
Tässä ei ole ECC muistia? Ei sovellu tieteelliseen laskentaan. Muisteissa siis vika.
HBM(2)-muistit kyllä tukevat ECC:tä, siitä en tiedä onko NVIDIA ottanut ko. tukea käyttöön Titan V:ssä.
Perinteisesti tarvinnut Tesla ostaa, jos haluaa ECC-tuellisen näytönohjaimen. Eiköhän tässä ole jatkettu samalla linjalla kuin aiemmissakin Titaneissa.
Kolmen tonnin kortin pitäisi minusta kyllä minimissään laskea oikein joka kerta. Oliko tuo V100 muuten samalla piirillä ja laskeeko se oikein?
Ainahan noita virheitä tulee, mutta jos jollain kortilla useinkin, niin eiköhän sekin ole korjattavissaa muistikellojen tai GPUn kellojen laskulla, ettei mene muisti sekaisin. Ostaa 3k€ kortin ja joutuu alikellottamaan, että toimii, on kyllä aika synkkä yhtälö.
Joka kerta on niin hurja vaatimus, ja siihen ei pääse yksikään tähän asti tehty laskentavärkki, jos halutaan edes välttävää suorituskykyä.
Siksi kun tarvitaan oikeasti lähemmäs 100% luotettavuutta (ihmishenget vaarassa), saatetaan käyttää esim. kolmea eri suoritinta saman asian laskemiseen.
Tähän asti ei ole kukaan muu vielä raportoinut ongelmista, niin voi hyvinkin olla taustalla heikompi muistipiirierä tai muu vastaava. Olettaen siis, että V100:ssa edes on ECC muistit.
Kaikki HMB2 muistot on ECC muistoja joten kyllä siinä on ECC muistot kun käsittääkseni Titan V:ssä on HBM2 muistot.
Muistoihin ei voi luotttaa ;-P
Jos vika on joissain korteissa, niin ei muuta, kuin takuuvaihtoon ko kortit.
Jostain toisaalta luin (ei ole linkkiä tarjolla, androidin google feedistä äkkiä luin), että virheitä tuottava kortti suoltaa grafiikkaa ulos täysin ongelmitta. Ja ilmeisesti sekä grafiikan että laskennan ulostuloa oli testattu toistuvalla testillä. Huonolla tuurilla voisi siis olla bugia piirissäkin, hyvällä tuurilla itse kortissa jotain hönöä.. viallisia tai sitten muistit koitettu kellottaa liian korkealle.
Ei kerran toistu kaikilla korteilla niin olisiko vakio asetukset muistien kelloille vedetty liian rohkeaksi. Eihän nuo AMD Vega:t päässeet ihan niihin muistien kellotaajuuksiin joita muistipiireillee luvattiin. En muista oliko samaten HBM(1) kanssa Furyssä.
Njoo kyseessä lienee amber, joka on taannoin ennenkin antanut poikkeavia vastauksia nvidian tuotoksilla(niin ei se kyllä millään muulla toimikkaan kun on cuda softa). Yksi syyhän tuohon voi olla disabloidussa hbm2 muistissa. Eiköhän se aina eri muisti ole joka on disabloitu noissa ja tuo selittäisi myös sen että jotkut laskevat oikein ja jotkut taas sitten eivät.
Muistit voi itsessään tukea ECC:tä, mutta ajureissa on disabled-tilassa kuten kaikilla aiemmillakin Titaneilla.
CUDA deviceQuery palauttaa siis disabled myös Titan V:llä.
Furyissä oli 500 MHz:n HBM-muistit, eli maksimit mitä HBM1-spekseissä oli. Tämän vuoksi myös Vegoihin "odotettiin" HBM2:n max kelloilla toimivia eli 1000 MHz, mutta niihin otettiin vähän matalammalle speksattuja variantteja.
Siis sama määrä molemmissa cuda ja tensor coreja. Molemmissa paketeissa kuvien perusteella on myös 4 HBM2 stäkkiä eli kyllä väittäisin että ovat täysin sama piiri.
Siihen en ota kantaa että onko se ajuripuolella tuettuna mutta raudan puoleen Titan V kyllä pystyy toimimaan ECC tilassa.
Eh tietenkin ovat sama piiri vai mitä ihmettä tarkoitat? 4 stäckiä hbm2:sta kyllä mutta yksi niistä on joka Titan V:ssä pimeänä.
Onneksi ei vaikuta käsittääkseni juurikaan edes promilleluokkaan meistä.
Register on päivittänyt uutista:
Eli syystä x ainakin Amber-nimisessä softassa Titan V:llä on ongelmia ja NVIDIA on tietoinen asiasta
Kieltämättä tuli mieleen että kuinka moinen voisi vaikuttaa pelikokemukseen?
Titanien pääasiallinen tarkoitus on saada myöhemmin julkaistavat 80 Ti kortit näyttämään halvemmalta kuin mitä ne ovat (ja tietenkin ottaa rahat pois hätäisimmiltä). 1500€ näytönohjain joka vastaa edellistä 3000€ kapistusta näyttää varmasti monen mielestä loistodiililtä, ja absoluuttinen hintataso unohtuu kokonaan.
No sanotaan että mulla on noin 6k ylimääräistä enkä huoriin tai matkoille ole menossa.
Mikähän ois semmonen jolla sais itsensä tyytyväiseksi hetkeksi kertomatta vaimolle?
No ei nyt ihan noinkaan. Eihän Titan V ole millään tasolla tarkoitettu "normikäyttäjille", ja aiemmin jos on halunnut vastaavaa laskentatehoa on pitänyt ostaa vielä Titan V:tä paljon kalliimpia kortteja. Voit huviksesi käydä Googlaamassa mitä lähes vastaava Tesla V100 kortti maksaa, Titan V on itseasiassa siis halpa kortti.
Uutinen on kyllä harmillinen, mutta olisi kyllä tuo kyseinen nimettömänä pysyvä insinööri voinut hieman avata tarkemmin tuota missä tilanteissa näitä ongelmia esiintyy. Jos kyse on vain tuossa Amberissa esiintyvistä ongelmista, niin voisi lähtökohtaisesti olettaa että vika ei ole kortissa vaan softassa, mutta näillä tiedoilla tuota on aika paha testatakaan.
Jos laskuvirhe tapahtuu GPU:n rekistereissä, ei ECC auta mitään.
ECC varmistaa ainoastaan sen, että muistista luettu tieto on sama kuin mikä sinne kirjoitettiinkin.