AMD telah menawarkan beberapa wawasan lebih lanjut tentang seri CDNA 2 “Aldebaran” GPU-powered Instinct MI200 yang merupakan yang pertama menampilkan desain MCM. GPU Instinct MI200 telah dirinci oleh Arsitek AMD, Alan Smith & Norman James, selama Hot Chips 34.
AMD Memberikan Tampilan Pertama Pada Diagram Blok GPU Seri MI200 Aldebaran “CDNA 2” Instinct, Pertama Di HPC Yang Menampilkan Desain MCM
AMD secara resmi menjadi yang pertama menggunakan teknologi MCM dan mereka melakukannya dengan produk besar yaitu Instinct MI200 dengan kode nama Aldebaran. GPU AMD Aldebaran akan hadir dalam berbagai bentuk & ukuran tetapi semuanya didasarkan pada arsitektur CDNA 2 baru yang merupakan variasi paling halus dari Vega. Beberapa fitur utama sebelum kita masuk ke detail tercantum di bawah ini:
- Arsitektur AMD CDNA 2 – 2nd Gen Matrix Cores mempercepat operasi matriks FP64 dan FP32, menghadirkan hingga 4X kinerja puncak FP64 teoretis vs. GPU AMD generasi sebelumnya.
- Leadership Packaging Technology – Desain GPU multi-die pertama di industri dengan teknologi 2.5D Elevated Fanout Bridge (EFB) menghadirkan core 1,8X lebih banyak dan bandwidth memori 2,7X lebih tinggi dibandingkan GPU AMD generasi sebelumnya, menawarkan bandwidth memori teoritis puncak agregat terbaik di industri pada 3,2 terabyte per detik.
- Teknologi AMD Infinity Fabric Generasi ke-3 – Hingga 8 tautan Infinity Fabric menghubungkan AMD Instinct MI200 dengan 3rd Gen EPYC CPU dan GPU lainnya dalam node untuk mengaktifkan koherensi memori CPU/GPU terpadu dan memaksimalkan throughput sistem, memungkinkan kode CPU yang lebih mudah untuk memanfaatkan kekuatan akselerator.
AMD Instinct MI200 GPU Die Shot:
Di dalam AMD Instinct MI200 terdapat GPU Aldebaran yang menampilkan dua die, sekunder dan primer. Ini memiliki dua mati dengan masing-masing terdiri dari 8 mesin shader dengan total 16 SE. Setiap Mesin Shader mengemas 14 CU dengan FP64 tingkat penuh, mengemas FP32 & Mesin Matriks Generasi ke-2 untuk operasi FP16 & BF16. Seluruh GPU dibuat pada node proses 6nm TSMC dan dikemas dengan total 58 Miliar transistor.
Diagram Blok GPU AMD Instinct MI200:
Setiap dadu, dengan demikian, terdiri dari 112 unit komputasi atau 7.168 prosesor aliran. Ini membulatkan total 224 unit komputasi atau 14.336 prosesor aliran untuk seluruh chip. GPU Aldebaran juga ditenagai oleh interkoneksi XGMI baru. Setiap chiplet memiliki mesin VCN 2.6 dan pengontrol IO utama. Setiap chiplet GPU memiliki empat pengontrol memori 1024-bit untuk memori HBM2e.
Untuk cache, setiap chiplet GPU menampilkan kapasitas L2 total 8 MB yang secara fisik dipartisi menjadi 32 irisan. Setiap irisan menghasilkan 128B/CLK dengan antrian dan arbitrase yang ditingkatkan ditambah operasi atom yang ditingkatkan. Subsistem memori per GCD mencakup memori HBM2e 64 GB per chiplet dengan total bandwidth 1,6 TB/dtk per GCD yang dipartisi menjadi 32 saluran dengan 64B/CLK untuk voltase operasional yang efisien. Interkoneksi dalam-Paket menyertakan bandwidth bi-sectional 400 GB/dtk di kedua GCD.
2 dari 9
Ada total 8 interkoneksi Infinity Fabric yang satu di setiap GPU dapat digunakan untuk interkoneksi PCI-Express. Interkoneksi dinilai pada kecepatan transfer CPU-GPU yang koheren sebesar 144 GB/dtk. Anda dapat menskalakan hingga 500 GB/dtk menggunakan tautan Infinity Fabric eksternal dengan total empat GPU seri MI200 atau menskalakan menggunakan PCIe Gen 4 ESM AIC untuk bandwidth 100 GB/dtk.
Metrik Performa AMD Instinct MI200 “Aldebaran GPU”:
Dalam hal performa, AMD menggembar-gemborkan berbagai rekor kemenangan di segmen HPC melalui solusi NVIDIA A100 dengan peningkatan performa hingga 3x lipat di AMG.
2 dari 9
Sedangkan untuk DRAM, AMD telah menggunakan antarmuka 8 saluran yang terdiri dari antarmuka 1024-bit untuk antarmuka bus lebar 8192-bit. Setiap antarmuka dapat mendukung modul DRAM HBM2e 2GB. Ini seharusnya memberi kita kapasitas memori HBM2e hingga 16 GB per tumpukan dan karena total ada delapan tumpukan, jumlah total kapasitas akan menjadi 128 GB. Itu 48 GB lebih banyak dari A100 yang menampung memori HBM2e 80 GB. Memori akan bekerja dengan kecepatan gila 3,2 Gbps untuk bandwidth penuh 3,2 TB/s. Ini adalah keseluruhan bandwidth 1,2 TB/dtk lebih banyak daripada A100 80 GB yang memiliki 2 TB/dtk.
2 dari 9
GPU AMD Instinct MI200 CDNA 2 “Aldebaran” telah menggerakkan komputer super tercepat di dunia, Frontier, yang juga merupakan mesin Exascale pertama di dunia, menawarkan 1,1 tenaga kuda komputasi ExaFLOP dan saat ini terdaftar di bagian atas dalam daftar TOP500 dan Green500 . AMD juga telah meluncurkan rencana masa depan untuk jajaran APU Instinct MI300 yang akan lebih meningkatkan arsitektur chiplet dan membawa hal-hal ke tingkat berikutnya.
Akselerator Insting AMD Radeon 2020
Nama Akselerator |
AMD Insting MI300 |
AMD Insting MI250X |
AMD Insting MI250 |
AMD Naluri MI210 |
AMD Naluri MI100 |
AMD Radeon Insting MI60 |
AMD Radeon Insting MI50 |
AMD Radeon Insting MI25 |
AMD Radeon Insting MI8 |
AMD Radeon Insting MI6 |
Arsitektur CPU |
Zen 4 (APU Exascale) |
T/A |
T/A |
T/A |
T/A |
T/A |
T/A |
T/A |
T/A |
T/A |
Arsitektur GPU |
TBA (CDNA 3) |
Aldebaran (CDNA 2) |
Aldebaran (CDNA 2) |
Aldebaran (CDNA 2) |
Arcturus (CDNA 1) |
Vega 20 |
Vega 20 |
Vega 10 |
Fiji XT |
Polaris 10 |
Node Proses GPU |
5nm+6nm |
6nm |
6nm |
6nm |
FinFET 7nm |
FinFET 7nm |
FinFET 7nm |
FinFET 14nm |
28nm |
FinFET 14nm |
Chiplet GPU |
4 (MCM / 3D Bertumpuk) |
2 (MCM) |
2 (MCM) |
2 (MCM) |
1 (Monolitik) |
1 (Monolitik) |
1 (Monolitik) |
1 (Monolitik) |
1 (Monolitik) |
1 (Monolitik) |
Inti GPU |
28.160? |
14.080 |
13.312 |
6656 |
7680 |
4096 |
3840 |
4096 |
4096 |
2304 |
Kecepatan Jam GPU |
TBA |
1700 MHz |
1700 MHz |
1700 MHz |
1500 MHz |
1800 MHz |
1725 MHz |
1500 MHz |
1000 MHz |
1237 MHz |
Hitung FP16 |
TBA |
383 TOP |
362 TOP |
181 TOP |
185 TFLOP |
29,5 TFLOP |
26,5 TFLOP |
24.6 TFLOP |
8.2 TFLOP |
5.7 TFLOP |
Hitung FP32 |
TBA |
95,7 TFLOP |
90,5 TFLOP |
45,3 TFLOP |
23.1 TFLOP |
14.7 TFLOP |
13.3 TFLOP |
12.3 TFLOP |
8.2 TFLOP |
5.7 TFLOP |
Hitung FP64 |
TBA |
47,9 TFLOP |
45,3 TFLOP |
22,6 TFLOP |
11,5 TFLOP |
7.4 TFLOP |
6.6 TFLOP |
768 GFLOP |
512 GFLOP |
384 GFLOP |
VRAM |
HBM3 192 GB? |
128GB HBM2e |
128GB HBM2e |
64GB HBM2e |
32GB HBM2 |
32GB HBM2 |
16GB HBM2 |
16GB HBM2 |
4GBHBM1 |
16GB GDDR5 |
Jam Memori |
TBA |
3,2 Gbps |
3,2 Gbps |
3,2 Gbps |
1200 MHz |
1000 MHz |
1000 MHz |
945 MHz |
500 MHz |
1750 MHz |
Bus Memori |
8192-bit |
8192-bit |
8192-bit |
4096-bit |
bus 4096-bit |
bus 4096-bit |
bus 4096-bit |
bus 2048-bit |
bus 4096-bit |
bus 256-bit |
Bandwidth Memori |
TBA |
3,2 TB/dtk |
3,2 TB/dtk |
1,6 TB/dtk |
1,23 TB/dtk |
1 TB/dtk |
1 TB/dtk |
484 GB/dtk |
512 GB/dtk |
224 GB/dtk |
Faktor Bentuk |
OAM |
OAM |
OAM |
Kartu Slot Ganda |
Slot Ganda, Panjang Penuh |
Slot Ganda, Panjang Penuh |
Slot Ganda, Panjang Penuh |
Slot Ganda, Panjang Penuh |
Slot Ganda, Setengah Panjang |
Slot Tunggal, Panjang Penuh |
Pendinginan |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
Pendinginan Pasif |
TDP |
~600W |
560W |
500W |
300W |
300W |
300W |
300W |
300W |
175W |
150W |