Selama Hot Chips 34, Intel sekali lagi merinci GPU Ponte Vecchio-nya yang berjalan pada platform server Sapphire Rapids HBM.
Intel Memamerkan Ponte Vecchio 2-Stack GPU & Sapphire Rapids Performa CPU HBM Melawan NVIDIA’s A100
Dalam presentasi oleh Rekan Intel & Kepala Arsitek Komputasi GPU, Hong Jiang, kami mendapatkan beberapa detail lebih lanjut mengenai pembangkit tenaga server yang akan datang dari tim biru. GPU Ponte Vecchio hadir dalam tiga konfigurasi dimulai dengan OAM tunggal dan berkisar hingga Subsistem x4 dengan Xe Links, baik berjalan solo atau dengan platform Sapphire Rapids soket ganda.
2 dari 9
OAM mendukung topologi all-to-all untuk platform 4 GPU dan 8 GPU. Melengkapi seluruh platform adalah tumpukan perangkat lunak oneAPI Intel yang merupakan API Level-Zero yang menyediakan antarmuka perangkat keras tingkat rendah untuk mendukung pemrograman lintas arsitektur. Beberapa fitur utama dari oneAPI meliputi:
- Antarmuka untuk oneAPI dan alat lain untuk mempercepat perangkat
- Kontrol gain halus dan latensi rendah untuk kemampuan akselerator
- Desain Multi-Ulir
- Untuk GPU, dikirimkan sebagai bagian dari driver
Jadi datang ke metrik kinerja, konfigurasi GPU 2-Stack Ponte Vecchio seperti yang ditampilkan pada OAM tunggal mampu memberikan hingga 52 TFLOP komputasi FP64/FP32, 419 TFLOP TF32 (XMX Float 32), 839 TFLOP dari BF16/FP16 dan 1678 TFLOP dari tenaga kuda INT8.
2 dari 9
Intel juga merinci ukuran cache maksimum dan bandwidth puncak yang ditawarkan oleh masing-masingnya. Ukuran Daftar File pada GPU Ponte Vecchio adalah 64 MB dan menawarkan bandwidth 419 TB/dtk, cache L1 juga hadir pada 64 MB dan menawarkan 105 TB/dtk (4:1), dan cache L2 masuk pada 408 MB dan menawarkan bandwidth 13 TB/dtk (8:1) sementara memori HBM menampung hingga 128 GB dan menawarkan bandwidth 4,2 TB/dtk (4:1). Ada berbagai teknik efisiensi komputasi dalam Ponte Vecchio seperti:
Berkas Daftar:
- Daftar Caching
- Akumulator
Tembolok L1/L2:
- Menulis melalui
- Menulis kembali
- Menulis Streaming
- Tidak di-cache
Prefetch:
- Perangkat lunak (instruksi) prefetch ke L1 dan/atau L2
- Prefetch Streamer Perintah ke L2 untuk instruksi dan data
Intel menjelaskan bahwa cache L2 yang lebih besar dapat memberikan beberapa keuntungan besar dalam beban kerja seperti 2D-FFT Case dan DNN Case. Beberapa perbandingan kinerja antara GPU Ponte Vecchio lengkap dan modul yang dikonfigurasi ke bawah menjadi 80 MB dan 32 MB telah ditampilkan.
2 dari 9
Namun bukan itu saja, Intel juga memiliki perbandingan performa antara NVIDIA Ampere A100 yang menjalankan CUDA dan SYCL dengan GPU Ponte Vecchio miliknya sendiri yang menggunakan SYCL. Pada miniBUDE yang merupakan beban kerja komputasi yang dapat memprediksi energi ikat ligan dengan target, GPU Ponte Vecchio mensimulasikan hasil pengujian 2 kali lebih cepat dibandingkan Ampere A100. Ada metrik kinerja lain di ExaSMR (Reaktor Modular Kecil untuk desain reaktor nuklir besar). di sini, GPU Intel ditampilkan untuk menawarkan keunggulan kinerja 1,5x dibandingkan GPU NVIDIA.
Agak menarik bahwa Intel masih membandingkan GPU Ponte Vecchio-nya dengan Ampere A100 karena tim hijau telah meluncurkan Hopper H100 generasi berikutnya ke pasar dan telah dikirimkan ke pelanggan. Jika Chipzilla merasa sangat percaya diri dalam angka performa 2-2,5x, maka menurut saya tidak akan ada masalah untuk bersaing dengan baik dengan Hopper kecuali sebaliknya.
Inilah Semua yang Kami Ketahui Tentang GPU Intel 7 Powered Ponte Vecchio
Beralih ke spesifikasi Ponte Vecchio Intel menjabarkan beberapa fitur kunci dari GPU data center andalannya seperti 128 Xe core, 128 unit RT, memori HBM2e, dan total 8 Xe-HPC GPU yang akan dihubungkan bersama. Chip ini akan menampilkan cache L2 hingga 408 MB dalam dua tumpukan terpisah yang akan terhubung melalui interkoneksi EMIB. Chip ini akan menampilkan banyak cetakan berdasarkan proses ‘Intel 7’ milik Intel sendiri dan node proses N7 / N5 TSMC.
Intel juga sebelumnya merinci paket dan ukuran mati GPU Ponte Vecchio andalannya berdasarkan arsitektur Xe-HPC. Chip akan terdiri dari 2 ubin dengan 16 dadu aktif per tumpukan. Ukuran die atas aktif maksimum akan menjadi 41mm2 sedangkan ukuran die dasar yang juga disebut sebagai ‘Compute Tile’ duduk di 650mm2. Kami memiliki semua chiplet dan simpul proses yang akan digunakan GPU Ponte Vecchio, tercantum di bawah ini:
- Intel 7nm
- TSMC 7nm
- Kemasan Foveros 3D
- EMIB
- Sirip Super yang Ditingkatkan 10nm
- Cache Rambo
- HBM2
Berikut adalah cara Intel mendapatkan 47 petak pada chip Ponte Vecchio:
- 16 Xe HPC (internal/eksternal)
- 8 Rambo (internal)
- 2 Basis Xe (internal)
- 11 EMIB (internal)
- 2 Xe Link (eksternal)
- 8 HBM (eksternal)
GPU Ponte Vecchio memanfaatkan 8 tumpukan HBM 8-Hi dan berisi total 11 interkoneksi EMIB. Seluruh paket Intel Ponte Vecchio berukuran 4843,75mm2. Disebutkan juga bahwa bump pitch untuk Meteor Lake CPU yang menggunakan kemasan High-Density 3D Forveros adalah 36u.
GPU Ponte Vecchio bukanlah 1 chip melainkan gabungan dari beberapa chip. Ini adalah pembangkit tenaga chiplet, mengemas chiplet paling banyak pada GPU/CPU mana pun di luar sana, tepatnya 47. Dan ini tidak hanya didasarkan pada satu node proses tetapi beberapa node proses seperti yang telah kami jelaskan beberapa hari yang lalu.
Meskipun Aurora Supercomputer di mana GPU Ponte Vecchio dan CPU Sapphire Rapids akan digunakan telah ditunda karena beberapa penundaan oleh tim biru, masih bagus untuk melihat perusahaan menawarkan detail lebih lanjut. Intel sejak itu menggoda GPU Rialto Bridge generasi berikutnya sebagai penerus GPU Ponte Vecchio dan dikatakan akan mulai mengambil sampel pada tahun 2023. Anda dapat membaca detail lebih lanjut tentang itu di sini.
Akselerator GPU Pusat Data Generasi Berikutnya
Nama GPU |
AMD Insting MI250X |
NVIDIA Hopper GH100 |
Intel Ponte Vecchio |
Jembatan Intel Rialto |
Desain Kemasan |
MCM (Kain Tak Terbatas) |
Monolitis |
MCM (EMIB + Foveros) |
MCM (EMIB + Foveros) |
Arsitektur GPU |
Aldebaran (CDNA 2) |
Hopper GH100 |
Xe-HPC |
Xe-HPC |
Node Proses GPU |
6nm |
4N |
7nm (Intel 4) |
5nm (Intel 3)? |
Inti GPU |
14.080 |
16.896 |
16.384 ALU |
20.480 ALU |
Kecepatan Jam GPU |
1700 MHz |
~1780 MHz |
TBA |
TBA |
Cache L2/L3 |
2x8MB |
50MB |
2×204 MB |
TBA |
Hitung FP16 |
383 TOP |
2000 TFLOP |
TBA |
TBA |
Hitung FP32 |
95,7 TFLOP |
1000 TFLOP |
~45 TFLOP (Silikon A0) |
TBA |
Hitung FP64 |
47,9 TFLOP |
60 TFLOP |
TBA |
TBA |
Kapasitas memori |
128GB HBM2E |
80GB HBM3 |
128GB HBM2e |
128 GB HBM3? |
Jam Memori |
3,2 Gbps |
3,2 Gbps |
TBA |
TBA |
Bus Memori |
8192-bit |
5120-bit |
8192-bit |
8192-bit |
Bandwidth Memori |
3,2 TB/dtk |
3,0 TB/dtk |
~3 TB/dtk |
~3 TB/dtk |
Faktor Bentuk |
OAM |
OAM |
OAM |
OAM v2 |
Pendinginan |
Cairan Pendingin Pasif |
Cairan Pendingin Pasif |
Cairan Pendingin Pasif |
Cairan Pendingin Pasif |
TDP |
560W |
700W |
600W |
800W |
Meluncurkan |
Q4 2021 |
2H 2022 |
2022? |
2024? |