NVIDIA oficjalnie ogłosiła, że poważny błąd konstrukcyjny w procesorach graficznych Blackwell, wpływający na wydajność produkcji, został naprawiony. Jensen Huang, CEO firmy, przyznał, że to NVIDIA była odpowiedzialna za problem, a partner produkcyjny TSMC nie ponosi winy. Procesory Blackwell B100 i B200, które korzystają z zaawansowanej technologii CoWoS-L, miały problemy z rozszerzalnością cieplną, co powodowało awarie układów. Aby to naprawić, NVIDIA musiała wprowadzić zmiany w metalicznych warstwach układu i poprawić struktury połączeń.
Problemy konstrukcyjne i odpowiedzialność NVIDII
Problemy związane z procesorami Blackwell pojawiły się w wyniku błędów konstrukcyjnych, które powodowały obniżenie wydajności produkcji. Jensen Huang w wywiadzie dla Reutersa jednoznacznie przyznał, że to NVIDIA była odpowiedzialna za te problemy. Początkowe doniesienia sugerowały, że TSMC, partner produkcyjny firmy, mogło mieć udział w kłopotach, ale Huang stanowczo zaprzeczył tym spekulacjom, nazywając je "fake newsami". W pełni podkreślił, że odpowiedzialność za błędy leży wyłącznie po stronie NVIDII. Firma podjęła natychmiastowe kroki w celu naprawienia usterki, a TSMC współpracowało przy rozwiązaniu problemu.
Technologia CoWoS-L i problemy z rozszerzalnością cieplną
Procesory Blackwell B100 i B200 korzystają z technologii pakowania chipów CoWoS-L, opracowanej przez TSMC. Ta zaawansowana technologia pozwala na szybkie przesyłanie danych dzięki mostkom LSI i interposerowi RDL, co umożliwia osiągnięcie prędkości transmisji danych na poziomie 10 TB/s. Niemniej jednak, problem pojawił się z powodu różnic w rozszerzalności cieplnej między różnymi elementami układu, co prowadziło do deformacji i awarii procesorów. Aby rozwiązać te problemy, NVIDIA musiała dokonać zmian w metalicznych warstwach na powierzchni krzemu GPU oraz ulepszyć struktury połączeń. Modyfikacje te obejmowały użycie nowych masek produkcyjnych, co jest typowym rozwiązaniem w przemyśle półprzewodników.
Szybka reakcja i rekordowy czas naprawy
Błędy funkcjonalne i problemy z wydajnością produkcji, jak te, które dotknęły układy Blackwell, nie są rzadkością w branży półprzewodników. Tego typu problemy są często rozwiązywane poprzez wprowadzenie poprawek w metalicznych warstwach procesora, co skutkuje tworzeniem nowych wersji układów, znanych jako "steppings". NVIDIA i TSMC poradziły sobie z naprawą w rekordowo szybkim tempie – cały proces, od wykrycia błędu po opracowanie nowej wersji chipu, zajął zaledwie kilka miesięcy, co jest imponującym wynikiem.
Masowa produkcja Blackwell GPU i wysyłki w 2025 roku
Pomimo naprawienia błędu, NVIDIA ogłosiła, że masowa produkcja poprawionych procesorów Blackwell, przeznaczonych głównie do zastosowań w sztucznej inteligencji i superkomputerach, rozpocznie się w październiku 2024 roku. Wysyłki układów do klientów mają rozpocząć się na początku 2025 roku, co pozwoli firmie dotrzymać terminów dostaw na potrzeby kluczowych klientów, takich jak AWS, Google i Microsoft.
Czy pierwsze układy mogą wykazać wady?
Chociaż naprawione procesory Blackwell wkrótce trafią do masowej produkcji, NVIDIA poinformowała, że pewna liczba początkowych układów, które miały problemy z wydajnością produkcji, zostanie dostarczona jeszcze w 2024 roku. W związku z tym rodzi się pytanie, czy te pierwsze chipy nie zaczną z czasem wykazywać wad w trakcie użytkowania. Firma nie podała szczegółów, ile takich układów trafi na rynek, ale nie wyklucza, że mogą one trafić do niektórych centrów danych jeszcze przed końcem roku.