AMD Instinct MI100 ufficiale: prima GPU HPC a superare i 10 TFLOPS in FP64

16 Novembre 2020 20

AMD Instinct MI100 (a scanso di equivoci, dopo la "M" c'è una "i" maiuscola) è ufficiale: è una GPU per datacenter e supercomputer ottimizzata per operazioni AI e HPC. È la prima scheda di questa classe, dice AMD, a superare i 10 TFLOPS di potenza nelle operazioni a doppia precisione, ovvero FP64, e raggiunge i 23,1 TFLOPS in quelle FP32. AMD promette fino a 7x potenza nei carichi di lavoro AI mixed precision e in FP16, fi

La GPU si basa sull'architettura CDNA annunciata lo scorso marzo, ed è costituita da 120 CU per un totale di 7.680 stream processor. La memoria onboard ammonta a 32 GB di HBM2 a 1,2 GHz, per una banda teorica complessiva di 1,23 TB al secondo. L'interfaccia è basata sul protocollo PCI Express di quarta generazione. Il processo produttivo è a 7 nm, e la frequenza di clock si spinge fino a un massimo di 1.502 MHz.

La scheda è spessa due slot nonostante manchino ventole attive per la dissipazione del calore (generalmente il raffreddamento in questo tipo di macchine è realizzato espressamente per l'intero rack). La tecnologia Infinity di seconda generazione permette di collegare l'una all'altra fino a quattro schede, e garantisce performance GPU-to-GPU fino a 4x più veloci rispetto a PCIe 4. Nel complesso ogni scheda arriva a consumare fino a un massimo di 300 W.

Potenza a parte, è interessante osservare come anche il colosso di Sunnyvale abbia optato per un branding più separato e indipendente dal settore consumer: se le GPU server del passato mantenevano il nome Radeon, ora sopravvive il solo Instinct.


20

Commenti

Regolamento Commentando dichiaro di aver letto il regolamento e di essere a conoscenza delle informazioni e norme che regolano le discussioni sul sito. Clicca per info.
Caricamento in corso. Per commentare attendere...
B!G Ph4Rm4

Ma perchè non me l'hai detto prima che eri lucusta con un altro account mannaggia alla miseria

hassunnuttixe

Fanb0y un ca**o, stai parlando con uno che quelle schede le usa e i tipi di calcolo li conosce per lavoro (ti ricordo sono ingegnere e insegno al MIT, non il primo sc3m0 che passa), non come te che legge numeretti a caso nelle specifiche e commenta in qualsiasi zona del web gli articoli a favore della casa di Santa Clara

B!G Ph4Rm4

Strano perchè su Tom's non commento, ergo se i noti fànboy pr amd che non ne azzeccano una vanno a raccontare boiate non è un mio problema.
Detto questo non è corretta la tua di analisi.
1) non ha senso confrontare FP32 pure con matrix core
2) con i tensor core (anche quelli di prima generazione che non supportano formati più ampi) è possibile fare moltiplicazioni tra matrici con accuratezza uguale o maggiori ma prestazioni enormemente maggiori. Ergo è un po' una para*ulata confrontare i tuoi "tensor core" contro i non-tensor core dell'altro:
https://link.springer.com/chapter/10.1007/978-3-030-50743-5_12

Per il resto io sono oggettivo e mi baso sui fatti, se a voi fànboy amd non piace la realtà dei fatti sono affari vostri.
D'altra parte io ho beccato quasi al millimetro le performance di queste schede (puoi trovare i miei commenti di settimane fa) quando tutte le cheerleader dicevano che stavolta AMD aveva distrutto NVIDIA superandola in tutto.
Anzi in realtà avevo anche sovrastimato le sue performance (non pensavo che in RT facesse così pena e che lo scarto sulla 3080 fosse del 3-5%, invece è del 7% nella realtà.

hassunnuttixe

La tua analisi non è corretta affatto per il semplice motivo che il formato TF32 è diverso dall'FP32 e il suo calcolo è in genere più di 10 volte più veloce dell'FP32. Il confronto di AMD è corretto perché il picco di velocità di calcolo in FP64 e FP32 nell'A100 è ottenuto usando i Tensor Core, diversa la storia per FP16 che per questione di grandezza dei registri usando i TC hai prestazioni esattamente 4X rispetto a non usarli.

N.B. Chi ti conosce su Toms sa che "propendi leggermente" per NVidia e il tuo commento a favore suo è onnipresente ;)

Marco -

A quando 120 cu in un chip consumer?

uncletoma

vero?
Pensa che vendo (anche) vg... :(

robertino

e illustrativo leggere tutti commenti idioti e solo un paio di commenti con impronta tecnica (ma volutamente distorta e di parte), perchè tutto il resto viene semplicemente cancellato perchè troppo imbarazzante per quei due che si credono degli assi, ma che in realtà sono solo degli ass con la console di amministrazione in mano....
bene.. succederà semplicemente che la gente, stufa di leggere 4 commenti idioti di 4 ragazzini brufolosi e un paio di commenti dei soliti social marketing vedrà bene di andarsene e far chiudere certe attività.

ricordate che siete nulla senza una comunità e che la state semplicemente cacciando.

The_Th

Provato 10 minuti e abbandonato.
La versione fisica su un free to play che scarichi gratis da qualsiasi store è geniale

uncletoma

non so, mai giocato, però vedere gente alla disperata ricerca della versione fisica di Fortnite per console e pc mi fa pensare che Darwin era dannatamente ottimista

la verità rende liberi

ennesimo commento del solito idiota senza arte ne parte.
ma quando la finisci di renderti ridicolo?

Mostra 1 nuova risposta

Ennesimo nuovo account del solito hater ignorant?

The_Th

si ma non avendo uscita video non lo puoi vedere, che forse è un bene

la verità rende liberi

non ti piace quello, allora usa questo, che tra l'altro quel confronto non viene fatto nelle tue fonti...
https://uploads.disquscdn.c...

Carl zeiss

secondo me l'M1 va di più

uncletoma

notare l'evil grin no? :p

B!G Ph4Rm4

Per niente fidati

Maurizio Mugelli

no, manca tutta la parte grafica

B!G Ph4Rm4

Questa secondo me andrebbe un po' spiegata, perchè da quanto ho capito AMD ha fatto un po' la furbetta nel dichiarare le prestazioni.
Hanno inserito anche loro i matrix core (in pratica la loro versione dei tensor core, ma non erano inutili?), in pratica dei chip per operazioni fused multiply-add.
In pratica hanno mostrato questa slide:
https://uploads.disquscdn.c...
E uno dice cavolo, ma allora è più veloce.

Invece a quanto pare hanno confrontato le loro prestazioni con i matrix core con le prestazioni in FP32 standard della A100.

Nella realtà le prestazioni da confrontare sono queste:
https://uploads.disquscdn.c...
https://uploads.disquscdn.c...

Peak FP32 matrix andrebbe confrontato con Peak TF32 nell'altra tabella, e lo stesso vale per gli FP16 che andrebbero confrontati con peak fp16 tensor core. Discorso analogo per i bfloat16 ecc.

Da notare che i picchi per INT8 e INT4 sono identici a quelli per il formato FP16, segno che probabilmente non hanno unità dedicate, a differenza dell'A100 che per questo motivo tira fuori dei numeri esorbitanti.
Non si parla purtroppo neanche di accelerazione per matrici sparse che almeno in linea teorica possono portare al raddoppio delle performance, e manca anche un sistema simile al MIG di NVIDIA, che sarebbe molto utile.

Se la mia analisi è corretta, tutto dipenderà dal prezzo, perchè le differenze con l'A100 ci sono e sono molto grosse lato prestazioni, per non parlare del software.

GianlucaA

Il datacenter 3 articoli più in basso ha appena perso 100k euro di valore

uncletoma

Ci gira Fortnite? </eg>

La (mia) postazione da Creator: dal Desktop MSI al Monitor 5K Prestige

Recensione Mac Mini Apple Silicon M1, ho QUASI sostituito il mio desktop da 2K euro

Recensione HONOR Router 3: il miglior Router Wi-Fi 6 qualità/prezzo

Apple Silicon è il futuro di Apple: da desktop a smartphone, andata e ritorno