Selama Hot Chips 34, Intel sekali lagi merinci GPU Ponte Vecchio-nya yang berjalan pada platform server Sapphire Rapids HBM.

Intel Memamerkan Ponte Vecchio 2-Stack GPU & Sapphire Rapids Performa CPU HBM Melawan NVIDIA’s A100

Dalam presentasi oleh Rekan Intel & Kepala Arsitek Komputasi GPU, Hong Jiang, kami mendapatkan beberapa detail lebih lanjut mengenai pembangkit tenaga server yang akan datang dari tim biru. GPU Ponte Vecchio hadir dalam tiga konfigurasi dimulai dengan OAM tunggal dan berkisar hingga Subsistem x4 dengan Xe Links, baik berjalan solo atau dengan platform Sapphire Rapids soket ganda.

2 dari 9

OAM mendukung topologi all-to-all untuk platform 4 GPU dan 8 GPU. Melengkapi seluruh platform adalah tumpukan perangkat lunak oneAPI Intel yang merupakan API Level-Zero yang menyediakan antarmuka perangkat keras tingkat rendah untuk mendukung pemrograman lintas arsitektur. Beberapa fitur utama dari oneAPI meliputi:

  • Antarmuka untuk oneAPI dan alat lain untuk mempercepat perangkat
  • Kontrol gain halus dan latensi rendah untuk kemampuan akselerator
  • Desain Multi-Ulir
  • Untuk GPU, dikirimkan sebagai bagian dari driver

Jadi datang ke metrik kinerja, konfigurasi GPU 2-Stack Ponte Vecchio seperti yang ditampilkan pada OAM tunggal mampu memberikan hingga 52 TFLOP komputasi FP64/FP32, 419 TFLOP TF32 (XMX Float 32), 839 TFLOP dari BF16/FP16 dan 1678 TFLOP dari tenaga kuda INT8.

2 dari 9

Intel juga merinci ukuran cache maksimum dan bandwidth puncak yang ditawarkan oleh masing-masingnya. Ukuran Daftar File pada GPU Ponte Vecchio adalah 64 MB dan menawarkan bandwidth 419 TB/dtk, cache L1 juga hadir pada 64 MB dan menawarkan 105 TB/dtk (4:1), dan cache L2 masuk pada 408 MB dan menawarkan bandwidth 13 TB/dtk (8:1) sementara memori HBM menampung hingga 128 GB dan menawarkan bandwidth 4,2 TB/dtk (4:1). Ada berbagai teknik efisiensi komputasi dalam Ponte Vecchio seperti:

Berkas Daftar:

  • Daftar Caching
  • Akumulator

Tembolok L1/L2:

  • Menulis melalui
  • Menulis kembali
  • Menulis Streaming
  • Tidak di-cache

Prefetch:

  • Perangkat lunak (instruksi) prefetch ke L1 dan/atau L2
  • Prefetch Streamer Perintah ke L2 untuk instruksi dan data

Intel menjelaskan bahwa cache L2 yang lebih besar dapat memberikan beberapa keuntungan besar dalam beban kerja seperti 2D-FFT Case dan DNN Case. Beberapa perbandingan kinerja antara GPU Ponte Vecchio lengkap dan modul yang dikonfigurasi ke bawah menjadi 80 MB dan 32 MB telah ditampilkan.

2 dari 9

Namun bukan itu saja, Intel juga memiliki perbandingan performa antara NVIDIA Ampere A100 yang menjalankan CUDA dan SYCL dengan GPU Ponte Vecchio miliknya sendiri yang menggunakan SYCL. Pada miniBUDE yang merupakan beban kerja komputasi yang dapat memprediksi energi ikat ligan dengan target, GPU Ponte Vecchio mensimulasikan hasil pengujian 2 kali lebih cepat dibandingkan Ampere A100. Ada metrik kinerja lain di ExaSMR (Reaktor Modular Kecil untuk desain reaktor nuklir besar). di sini, GPU Intel ditampilkan untuk menawarkan keunggulan kinerja 1,5x dibandingkan GPU NVIDIA.

Agak menarik bahwa Intel masih membandingkan GPU Ponte Vecchio-nya dengan Ampere A100 karena tim hijau telah meluncurkan Hopper H100 generasi berikutnya ke pasar dan telah dikirimkan ke pelanggan. Jika Chipzilla merasa sangat percaya diri dalam angka performa 2-2,5x, maka menurut saya tidak akan ada masalah untuk bersaing dengan baik dengan Hopper kecuali sebaliknya.

Inilah Semua yang Kami Ketahui Tentang GPU Intel 7 Powered Ponte Vecchio

Beralih ke spesifikasi Ponte Vecchio Intel menjabarkan beberapa fitur kunci dari GPU data center andalannya seperti 128 Xe core, 128 unit RT, memori HBM2e, dan total 8 Xe-HPC GPU yang akan dihubungkan bersama. Chip ini akan menampilkan cache L2 hingga 408 MB dalam dua tumpukan terpisah yang akan terhubung melalui interkoneksi EMIB. Chip ini akan menampilkan banyak cetakan berdasarkan proses ‘Intel 7’ milik Intel sendiri dan node proses N7 / N5 TSMC.

Intel juga sebelumnya merinci paket dan ukuran mati GPU Ponte Vecchio andalannya berdasarkan arsitektur Xe-HPC. Chip akan terdiri dari 2 ubin dengan 16 dadu aktif per tumpukan. Ukuran die atas aktif maksimum akan menjadi 41mm2 sedangkan ukuran die dasar yang juga disebut sebagai ‘Compute Tile’ duduk di 650mm2. Kami memiliki semua chiplet dan simpul proses yang akan digunakan GPU Ponte Vecchio, tercantum di bawah ini:

  • Intel 7nm
  • TSMC 7nm
  • Kemasan Foveros 3D
  • EMIB
  • Sirip Super yang Ditingkatkan 10nm
  • Cache Rambo
  • HBM2

Berikut adalah cara Intel mendapatkan 47 petak pada chip Ponte Vecchio:

  • 16 Xe HPC (internal/eksternal)
  • 8 Rambo (internal)
  • 2 Basis Xe (internal)
  • 11 EMIB (internal)
  • 2 Xe Link (eksternal)
  • 8 HBM (eksternal)

GPU Ponte Vecchio memanfaatkan 8 tumpukan HBM 8-Hi dan berisi total 11 interkoneksi EMIB. Seluruh paket Intel Ponte Vecchio berukuran 4843,75mm2. Disebutkan juga bahwa bump pitch untuk Meteor Lake CPU yang menggunakan kemasan High-Density 3D Forveros adalah 36u.

GPU Ponte Vecchio bukanlah 1 chip melainkan gabungan dari beberapa chip. Ini adalah pembangkit tenaga chiplet, mengemas chiplet paling banyak pada GPU/CPU mana pun di luar sana, tepatnya 47. Dan ini tidak hanya didasarkan pada satu node proses tetapi beberapa node proses seperti yang telah kami jelaskan beberapa hari yang lalu.

Meskipun Aurora Supercomputer di mana GPU Ponte Vecchio dan CPU Sapphire Rapids akan digunakan telah ditunda karena beberapa penundaan oleh tim biru, masih bagus untuk melihat perusahaan menawarkan detail lebih lanjut. Intel sejak itu menggoda GPU Rialto Bridge generasi berikutnya sebagai penerus GPU Ponte Vecchio dan dikatakan akan mulai mengambil sampel pada tahun 2023. Anda dapat membaca detail lebih lanjut tentang itu di sini.

Akselerator GPU Pusat Data Generasi Berikutnya

Nama GPU

AMD Insting MI250X

NVIDIA Hopper GH100

Intel Ponte Vecchio

Jembatan Intel Rialto

Desain Kemasan

MCM (Kain Tak Terbatas)

Monolitis

MCM (EMIB + Foveros)

MCM (EMIB + Foveros)

Arsitektur GPU

Aldebaran (CDNA 2)

Hopper GH100

Xe-HPC

Xe-HPC

Node Proses GPU

6nm

4N

7nm (Intel 4)

5nm (Intel 3)?

Inti GPU

14.080

16.896

16.384 ALU
(128 Xe Core)

20.480 ALU
(160 Xe Core)

Kecepatan Jam GPU

1700 MHz

~1780 MHz

TBA

TBA

Cache L2/L3

2x8MB

50MB

2×204 MB

TBA

Hitung FP16

383 TOP

2000 TFLOP

TBA

TBA

Hitung FP32

95,7 TFLOP

1000 TFLOP

~45 TFLOP (Silikon A0)

TBA

Hitung FP64

47,9 TFLOP

60 TFLOP

TBA

TBA

Kapasitas memori

128GB HBM2E

80GB HBM3

128GB HBM2e

128 GB HBM3?

Jam Memori

3,2 Gbps

3,2 Gbps

TBA

TBA

Bus Memori

8192-bit

5120-bit

8192-bit

8192-bit

Bandwidth Memori

3,2 TB/dtk

3,0 TB/dtk

~3 TB/dtk

~3 TB/dtk

Faktor Bentuk

OAM

OAM

OAM

OAM v2

Pendinginan

Cairan Pendingin Pasif

Cairan Pendingin Pasif

Cairan Pendingin Pasif

Cairan Pendingin Pasif

TDP

560W

700W

600W

800W

Meluncurkan

Q4 2021

2H 2022

2022?

2024?

Pertanyaan Apa yang Ditanyakan Dalam Konseling Perguruan Tinggi?

Pertanyaan Apa yang Ditanyakan Dalam Konseling Perguruan Tinggi?

Pertanyaan apa yang akan ditanyakan oleh konselor pendidikan kepada saya? Jurusan apa yang kamu minati? Apakah ada sesuatu yang spesifik pada kursus yang ingin Anda pelajari? Tingkat studi... Read more