개요
NVIDIA GB300 NVL72는 완전 액체 냉각 방식의 랙 규모 설계를 갖추고 있으며, 72개의 NVIDIA Blackwell Ultra GPU와 36개의 Arm® 기반 NVIDIA Grace™ CPU를 단일 플랫폼에 통합해 테스트 시 확장형 추론에 최적화되어 있습니다. 이는 NVIDIA Hopper™ 플랫폼보다 65배 더 많은 AI 컴퓨팅, 40테라바이트(TB)의 고속 메모리, Quantum-X800 InfiniBand 또는 Spectrum™-X 이더넷을 사용하는 NVIDIA® ConnectX®-8 SuperNIC 를 통한 통합 네트워킹을 제공합니다. Blackwell Ultra는 에이전트 시스템과 AI 추론부터 전 세계 AI 팩토리를 위한 실시간 영상 생성까지, 가장 복잡한 워크로드에서도 획기적인 성능을 제공합니다.
DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72(FP4 Dynamo 세분화 포함). H100(FP8 인플라이트 배칭 포함). 예상 성능은 변경될 수 있습니다.
NVIDIA GB300 NVL72 플랫폼으로 차원이 다른 AI 추론 성능을 경험해 보십시오. GB300 NVL72는 Hopper에 비해 사용자 응답성(사용자당 TPS)이 10배 향상되고 처리량(메가와트(MW)당 TPS)이 5배 향상되었습니다. 이러한 발전이 결합되어 AI 팩토리의 전체 출력이 무려 50배 향상되는 놀라운 성능 향상을 이뤄냅니다.
기능
테스트 시간 확장 및 AI 추론은 서비스 품질과 처리량을 극대화하는 데 필요한 컴퓨팅을 증가시킵니다. NVIDIA Blackwell Ultra의 Tensor 코어는 Blackwell GPU 대비 2배 향상된 어텐션 레이어 가속화와 1.5배 더 많은 초당 AI 컴퓨팅 부동 소수점 연산(FLOPS)을 갖추고 있습니다.
메모리 용량이 클수록 배치 크기 조정과 처리량 성능을 극대화할 수 있습니다. NVIDIA Blackwell Ultra GPU는 1.5배 더 큰 HBM3e 메모리와 추가된 AI 컴퓨팅을 함께 제공하여 가장 긴 컨텍스트 길이에 대한 AI 추론 처리량을 향상합니다.
NVIDIA Blackwell 아키텍처는 가속 컴퓨팅 분야에서 획기적인 발전을 제공하여 탁월한 성능, 효율성, 확장성을 갖춘 새로운 시대를 열어가고 있습니다.
NVIDIA ConnectX-8 SuperNIC의 입출력(IO) 모듈은 2개의 ConnectX-8 장치를 호스팅하여, NVIDIA GB300 NVL72의 각 GPU에 초당 800기가비트(Gb/s)의 네트워크 연결을 제공합니다. 이 제품은 NVIDIA Quantum-X800 InfiniBand 또는 Spectrum-X 이더넷 네트워킹 플랫폼을 통해 동급 최고의 원격 직접 메모리 액세스(RDMA) 기능을 제공하여 최고 수준의 AI 워크로드 효율성을 실현합니다.
NVIDIA Grace CPU는 최신 데이터센터 워크로드를 위해 설계된 획기적인 프로세서입니다. 오늘날의 주요 서버 프로세서에 비해 2배 높은 에너지 효율로 탁월한 성능과 메모리 대역폭을 제공합니다.
가속 컴퓨팅의 잠재력을 최대한 활용하려면 모든 GPU 간에 원활한 통신이 이루어져야 합니다. 5세대 NVIDIA NVLink™는 AI 추론 모델의 성능을 극대화하는 스케일업 인터커넥트 기술입니다.
NVIDIA GB300 NVL72 랙 스케일 솔루션의 빌딩 블록으로, NVIDIA GB300 Grace Blackwell Ultra 슈퍼칩은 4개의 NVIDIA Blackwell Ultra GPU, 2개의 Grace CPU, 4개의 ConnectX-8 SuperNIC를 갖추고 있습니다. NVIDIA NVLink Switch 기술과 NVIDIA BlueField®-3 DPU를 통해, 18개의 슈퍼칩이 AI 추론 시대를 위해 특별히 구축된 하나의 거대한 GPU로 결합됩니다.
사양
구성 | 72개의 NVIDIA Blackwell Ultra GPU, 36에 대한 NVIDIA Grace CPU |
NVLink 대역폭 | 130TB/s |
빠른 메모리 | 최대 40TB |
GPU 메모리 | 대역폭 | 최대 21TB | 최대 576TB/s |
CPU 메모리 | 대역폭 | LPDDR5X를 탑재한 최대 18TB SOCAMM | 최대 14.3TB/s |
CPU 코어 수 | 2,592개의 Arm Neoverse V2 코어 |
FP4 Tensor 코어 | 1,400 | 1,100² 플롭스 |
FP8/FP6 Tensor 코어 | 720 플롭스 |
INT8 Tensor 코어 | 23 플롭스 |
FP16/BF16 Tensor 코어 | 360 플롭스 |
TF32 Tensor 코어 | 180 플롭스 |
FP32 | 6 플롭스 |
FP64 / FP64 Tensor 코어 | 100 테라플롭스 |
1. 예비 사양. 변경될 수 있습니다. 모든 Tensor 코어 사양에는 달리 명시되지 않는 한 희소성이 포함되어 있습니다. |