Awal bulan ini, kami melaporkan bahwa Birentech, sebuah perusahaan yang berasal dari China, sedang mengerjakan GPU tercepatnya hingga saat ini, Biren BR100. Berdasarkan apa yang diungkapkan perusahaan kepada publik, Biren BR100 bertujuan untuk menjadi GPU Serba Guna yang akan menawarkan kinerja lebih cepat daripada GPU NVIDIA A100 dalam pemrosesan AI. Sekarang di Hot Chips 34, perusahaan memberi kami detail lebih lanjut tentang spesifikasi dan arsitektur dalam jajaran GPGPU Biren-nya.

GPU MCM Tujuan Umum Tercepat China, Birentech Biren BR100, Detail Arsitektur

Birentech BR100 adalah GPU General-Purpose unggulan yang ditawarkan China, menampilkan arsitektur GPU internal yang menggunakan node proses 7nm dan menampung 77 Miliar transistor di dalamnya. GPU telah dibuat pada desain 2.5D CoWoS TSMC dan juga dilengkapi dengan cache on-chip 300 MB, HBM2e 64 GB dengan bandwidth memori 2,3 TB/s, dan dukungan untuk PCIe Gen 5.0 (protokol interkoneksi CXL). Seluruh chip berukuran 1074mm2 yang berada di luar batas reticle node proses.

Beberapa dasar yang digunakan untuk mendesain GPU BR100 meliputi:

  • Untuk menembus batas ukuran reticle dan mengintegrasikan lebih banyak transistor pada sebuah chip
  • Satu pita keluar untuk memberdayakan beberapa SKU
  • Mati lebih kecil untuk hasil yang lebih baik, maka biaya lebih rendah
  • Interkoneksi die-to-die berkecepatan tinggi 896 GB/dtk
  • Performa 30% lebih tinggi, dan hasil 20% lebih baik dibandingkan dengan desain monolitik

2 dari 9

Berbicara tentang arsitekturnya sendiri, Biren BR100 terdiri dari dua chiplet, masing-masing menampung 16 SPC atau Streaming Processing Clusters. Setiap SPC memiliki 16 UE dan empat dari UE ini membentuk Compute Unit atau CU internal yang dilampirkan ke 64 KB cache L1 (LSC) sementara SPC menampilkan cache L2 8 MB bersama di semua Unit Eksekusi. Jadi total ada 32 SPC dengan 512 Execution Unit, L2 cache 256 MB, dan L1 cache 8 MB.

Pandangan yang lebih dalam pada Unit Eksekusi mengungkapkan 16 inti pemrosesan streaming (V-Core) dan satu Mesin Tensor (T-Core). Ada 40 KB TLR (Thread Local Register), 4 SFU, dan TDA (Tensor Data Accelerator). Menariknya, setiap CU dapat berisi 4, 8, dan hingga 16 UE. V-Core itu sendiri adalah prosesor SIMT serba guna yang menampilkan 16-core yang mendukung FP32, FP16, INT32 & INT16 bersama dengan SFU, Load/Store, dan Pemrosesan Data, sambil menangani operasi pembelajaran mendalam seperti Batch Norm, ReLu, dll. Ini juga menampilkan Model SIMT yang disempurnakan yang dapat menjalankan hingga 128K utas pada 32 SPC dalam mode skalar super (statis dan dinamis). Untuk T-Core, desain tensor digunakan untuk mempercepat operasi AI seperti MMA, Convolution, dll.

2 dari 9

Birentech mengungkapkan berbagai metrik kinerja chip tersebut. Ini menawarkan hingga 2048 TOPs (INT8), 1024 TFLOPs (BF16), 512 TFLOPs (TF32+), dan 256 TFLOPs (FP32), dan berdasarkan angka kinerja, sepertinya chip ini akan lebih cepat daripada NVIDIA Ampere A100, setidaknya di atas kertas. GPU telah dibandingkan dengan NVIDIA Ampere A100 dalam berbagai beban kerja HPC dan sepertinya akan menawarkan kecepatan rata-rata hingga 2,6x dan kecepatan hingga 2,8x dibandingkan pesaing utamanya.

GPU Hopper H100 menawarkan kinerja hampir 2x atau 2,5x dalam metrik kinerja GPU yang sama. Chip ini juga mendukung pengkodean 64 saluran dan pengkodean 512 saluran. Untuk interkoneksi, chip dilengkapi dengan solusi 8 BLink yang menawarkan bandwidth I/O eksternal 2,3 TB/dtk.

Yang menarik adalah bahwa BR100 tidak jauh ketinggalan dalam hal jumlah transistor secara keseluruhan dibandingkan dengan NVIDIA H100. H100 menampilkan 80 Miliar transistor pada simpul proses N4 baru sedangkan BR100 hanya 3 Miliar transistor di belakang simpul proses 7nm. Ini akan menghasilkan ukuran cetakan yang jauh lebih besar.

2 dari 9

Birentech Biren BR100

Proses

7nm

Antarmuka sistem, bandwidth, protokol interkoneksi

PCIe5.0 X16, 128 GB/dtk, mendukung CXL

FP32 TFLOPS (puncak)

256

TF32+ TFLOPS (puncak)

512

BF16 TFLOPS (puncak)

1.024

INT8 TOPS (puncak)

2.048

Kapasitas memori, lebar bit antarmuka, bandwidth

64GB HBM2E ï¼› 4.096bit, 1,64TB/dtk

interkoneksi

512GB/s BLinkâ„¢, mendukung port 8 x8

Contoh virtual yang aman

Hingga 8 porsi

Kodek video (FHD@30fps)

Pengkodean HEVC/H.264 64 saluran/dekode HEVC/H.264 512 saluran

TDP

550W

Bentuk produk

modul OAM

Biren BR100 bukan satu-satunya chip yang diumumkan oleh perusahaan yang berbasis di China itu. Ada juga Biren BR104 yang menawarkan setengah metrik kinerja BR100 tetapi spesifikasinya belum disebutkan. Satu-satunya detail yang tersedia di chip lain adalah, tidak seperti Biren BR100 yang menggunakan desain chiplet, BR104 adalah cetakan monolitik dan hadir dalam faktor bentuk PCIe standar dengan TDP 300W.

Birentech Biren 104

Proses

7nm

Antarmuka sistem, bandwidth, protokol interkoneksi

PCIe5.0 X16, 128 GB/dtk, mendukung CXL

FP32 TFLOPS (puncak)

128

TF32+ TFLOPS (puncak)

256

BF16 TFLOPS (puncak)

512

INT8 TOPS (puncak)

1.024

Kapasitas memori, lebar bit antarmuka, bandwidth

32 GB HBM2E; 2.048bit, 819GB/dtk

interkoneksi

192GB/s BLinkâ„¢, mendukung port 3 x8

Contoh virtual yang aman

hingga 4 porsi

Kodek video (FHD@30fps)

32 saluran pengkodean HEVC/H.264, 256 saluran pengkodean HEVC/H.264

TDP

300W

Bentuk produk

Kartu PCIe dua slot dengan tinggi penuh dan panjang penuh

2 dari 9

Perusahaan menyatakan bahwa sebuah chip dengan 77 Miliar transistor dapat meniru sel saraf otak manusia dan chip itu sendiri akan digunakan untuk tujuan DNN dan AI sehingga kurang lebih akan menggantikan ketergantungan China pada GPU AI NVIDIA.

Pertanyaan: Apa Bedanya Sekolah Di Jepang?

Pertanyaan: Apa Bedanya Sekolah Di Jepang?

Sistem sekolah dasar di Jepang terdiri dari sekolah dasar (berlangsung enam tahun), sekolah menengah pertama (tiga tahun), sekolah menengah atas (tiga tahun), dan universitas (empat tahun). Pendidikan wajib... Read more