Wielkoskalowe rozwiązania NVIDIA H100 z chłodzeniem cieczą

2023-07-01

O wdrażaniu rozwiązań, śmiało sięgających po możliwości sztucznej inteligencji, myśli coraz więcej organizacji. Coraz częściej angażują one do pracy zaawansowane modele AI przy najróżniejszych projektach. Odpowiadając na stale rosnące potrzeby biznesu, firma Supermicro sięgnęła m.in. po potężne procesory graficzne NVIDIA H100 i stworzyła niezwykle skalowalne rozwiązanie – Supermicro Rack Scale AI Solution. Jakie możliwości oferują chłodzone cieczą szafy serwerowe producenta? Kto powinien zainteresować się takim rozwiązaniem?

Supermicro i NVIDIA na targach COMPUTEX 2023

Tegoroczne targi COMPUTEX 2023, które odbyły się końcem maja w stolicy Tajwanu, Tajpej, zostały zdominowane przez dwie firmy – Supermicro i NVIDIA. Giganta z Santa Clara nie trzeba przedstawiać prawdopodobnie nikomu – z jego kart graficznych korzysta cały świat. Supermicro generuje wprawdzie kilkukrotnie niższe przychody, jednak również jest niezwykle liczącym się graczem w szeroko rozumianej branży IT. Mająca swoją główną siedzibę w San Jose firma jest liczącym się w świecie dostawcą kompleksowych rozwiązań IT dla chmury, AI/ML, pamięci masowej i 5G/Edge.

Targi COMPUTEX 2023 firmy wykorzystały do zaprezentowania nowości produktowych, które powstały dzięki połączeniu sił. Supermicro przedstawiło szeroką gamę serwerów i rozwiązań pamięci masowej, a także zademonstrowało w pełni zintegrowaną szafę serwerową z najnowszym systemem chłodzenia cieczą.

„Zwiększając nasze moce produkcyjne, by sprostać szybko rosnącemu zapotrzebowaniu na wydajną, wielkoskalową infrastrukturę sztucznej inteligencji i centra danych w chmurze, Supermicro dostarcza najbardziej innowacyjne i zaawansowane systemy w branży, zintegrowane jako kompleksowe rozwiązanie do montażu w szafie serwerowej” — wyjaśniał Charles Liang, prezes i dyrektor generalny Supermicro. „Od najpotężniejszych dostępnych systemów sztucznej inteligencji, z maksymalnie ośmioma procesorami graficznymi NVIDIA H100 HGX, po kompaktowe serwery brzegowe, które muszą działać w trudnych warunkach środowiskowych, zapewniamy najszerszą gamę rozwiązań dla najbardziej wymagających obciążeń, w tym nowe rozwiązania chłodzenia cieczą, które zmniejszają zużycie energii przez centra danych i zwiększają ich wydajność.”

Centra danych i efektywność energetyczna

Rosnące zainteresowanie firm takich jak NVIDIA czy Supermicro kwestiami związanymi z efektywnością energetyczną oferowanych rozwiązań nikogo nie powinno dziwić. Jest to temat żywo dyskutowany na wielu szczeblach władzy i ustawodawstwa. W lipcu bieżącego roku Parlament Europejski przyjął uzgodnione wcześniej z krajami członkowskimi plany oszczędzania energii. Tak zwany Europejski Zielony Ład zakłada zmniejszenie zużycia energii przez UE o 11,7% do 2030 roku.

Jak plany te mają się do centrów danych? Z pewnością nie każdy zdaje sobie z tego sprawę, ale szacuje się, że odpowiadają one za ok. 2% globalnego zużycia energii. Biorąc pod uwagę rosnące apetyt firmy na gromadzenie i biznesowe wykorzystanie danych, a także ogromne zainteresowanie rozwiązaniami z zakresu sztucznej inteligencji, można śmiało przypuszczać, że procent ten będzie się proporcjonalnie zwiększał w najbliższych latach.

Bardzo ciekawe jest również to, jak energia elektryczna jest alokowana do poszczególnych procesów niezbędnych do prawidłowego funkcjonowania serwerowni. Centra danych zużywają energię elektryczną głównie do zasilania serwerów, urządzeń sieciowych, chłodzenia i oświetlenia. Serwery i urządzenia sieciowe pobierają energię elektryczną do pracy i przetwarzania danych, a chłodzenie jest niezbędne do utrzymania optymalnej temperatury i przeciwdziałania przegrzewaniu się sprzętu. Część energii zużywana jest również przez oświetlenie, systemy monitorujące, regulujące wilgotności itp. Mogłoby się wydawać, że większość energii zużywają urządzenia komputerowe, które wykonują właściwą pracę, jednak okazuje się, że sprzęt IT pochłania niewiele ponad 50% energii. Drugim największym jej „pożeraczem” jest właśnie system chłodzenia (20%). Nie powinno zatem dziwić, że właśnie w tym obszarze producenci szukają dziś pola do optymalizacji.

Chłodzenie za pomocą powietrza jest niewątpliwie skuteczne, jednak w zestawieniu z chłodzeniem cieczą wypada dość blado. Ciecz jest lepszym nośnikiem ciepła niż powietrze i w efekcie może skuteczniej rozpraszać ciepło z procesora. Nie jest to jedyna zaleta – wodne układy chłodzenia generują zwykle mniejszy hałas, ponieważ nie posiadają wirnika chłodzącego, w jaki wyposażone są wentylatory w chłodzeniu powietrznym. Bezprecedensowy wzrost efektywności energetycznej ma jednak swoją cenę – jeśli chodzi o koszty, zwycięzcą pojedynku jest niewątpliwie system chłodzenia wykorzystujący powietrze.

Supermicro Liquid Cooling Solution (LCS)

Supermicro Liquid Cooling Solution (LCS) to zaawansowany system chłodzenia cieczą opracowany przez Supermicro. Jest on przeznaczony głównie do chłodzenia mocno obciążonych serwerów i centrów danych. System ten korzysta z cieczy, która przepływa przez układ chłodzenia obwodowego, aby utrzymać optymalną temperaturę pracy urządzeń. Główną jego zaletą jest zdolność do efektywnego chłodzenia w sposób bardziej wydajny niż tradycyjne chłodzenie powietrzne. Nie bez znaczenia jest również to, że zastosowanie cieczy jako środka chłodzącego pozwala na bardziej równomierne niwelowanie ciepła, co eliminuje lokalne obszary o zwiększonej temperaturze, a ponadto zwiększa stabilności i wydajność urządzeń.

W tym miejscu wspomnieć warto również o kolejnej niezwykle istotnej zalecie – modułowości. Supermicro LCS może być dostosowany do różnych wymagań i rozmiarów infrastruktury IT. Może być skalowany w zależności od potrzeb, co pozwala na elastyczne i zrównoważone zarządzanie chłodzeniem wraz ze wzrostem obciążenia serwerów. Wszystko to przy istotnie niższym zużyciu energii, a co za tym idzie niższych kosztach eksploatacji i mniejszym obciążeniu dla środowiska naturalnego.

Z jakich konkretnie elementów składa się Supermicro Liquid Cooling Solution? Za sprawne i niezwykle efektywne działanie rozwiązania odpowiada kilka komponentów:

- jednostka dystrybucji chłodzenia (CDU, ang. Cooling Distribution Unit) – serce całego systemu, wyposażone w podwójne, redundantne pompy chłodziwa z możliwością podłączenia lub odłączenia w czasie pracy urządzenia;

- zimne płyty (ang. cold plates) – to właśnie przez nie przepływa ciecz, której zadaniem jest skuteczne odprowadzanie ciepła generowanego przez CPU lub GPU;

- rozdzielacz dystrybucji chłodzenia (CDM, ang. Cooling Distribution Manifold) – zarządza on efektywnością całego procesu chłodzenia, tj. dystrybucją zimnego płynu i odbieraniem tego, który zdążył się już nagrzać;

- szczelne złącza (ang. leak proof connectors) – mają one za zadanie uniemożliwić kontakt cieczy z elektroniką i tym samym przeciwdziałać ewentualnym wyciekom i zwarciom.

Wielkoskalowe rozwiązania NVIDIA H100 od Supermicro

Wychodząc naprzeciw oczekiwaniom rynku, Supermicro oferuje dziś skalowalne rozwiązanie, które doskonale adresuje potrzeby dużych i średnich firm w zakresie budowy infrastruktury niezbędnej do prowadzenia zaawansowanych projektów analitycznych. Mowa o Supermicro Rack Scale AI Solution – kompleksowym rozwiązaniu, na które składają się serwery, układy chłodzenia i pamięci, a także oprogramowanie wspierające projekty AI. Rozwiązanie to jest zoptymalizowane pod kątem wydajności i wykorzystania zasobów, co umożliwia szybkie przetwarzanie głębokich sieci neuronowych i innych algorytmów AI.

Supermicro Rack Scale AI Solution obsługiwane jest przez jeden z dwóch serwerów producenta: SYS-821GE-TNHR lub AS -8125GS-TNHR. Są to niezwykle wydajne i jednocześnie doskonale zoptymalizowane serwery, które zaprojektowano z myślą o dużych i średnich projektach AI. Oferują dwa procesory (ADM lub Intel) oraz osiem niezwykle wydajnych procesorów graficznych – NVIDIA H100. Jednostki te producent zamknął w chłodzonej powietrzem lub cieczą szafie i stworzył w ten sposób niezwykle skalowalny system, który można rozbudowywać o kolejne jednostki i w ten sposób elastycznie odpowiadać na zmieniającą się w czasie skalę prowadzonych projektów analitycznych.

Kompletna szafa serwerowa w wariancie podstawowym (Scalable Unit-SU) oferuje aż 32 GPU, jednak producent proponuje również możliwość jej skalowania do 128 GPU – 4 szafy serwerowe (POD) lub 256 GPU – 8 szaf serwerowych (SuperPOD), co przekłada się nawet na 8.7 petaflopsów wydajności! W jaki sposób chłodzone są tak silne jednostki? Supermicro Rack Scale AI Solution dostępny jest w dwóch wariantach – klasycznym, z systemem chłodzenia wykorzystującym powietrze oraz znacznie bardziej ekologicznym, wykorzystującym ciecz, co przekłada się na bezprecedensową poprawę efektywności energetycznej oraz niższe koszty utrzymania.

Przyjrzyjmy się teraz parametrom poszczególnych wariantów. Zacznijmy od CPU – w przypadku Scalable Unit-SU SRS-42UGPU-AI-SU1, czyli podstawowego wariantu rozwiązania, mamy aż 8 procesorów Intel® Xeon® Platinum 8480+ lub 8 procesorów AMD EPYC™ 9004. Do tego dochodzą 32 procesory NVIDIA HGX H100 SXM5 oraz ogromna pamięć, wynosząca 32TB DDR5 (X13) lub 24TB DDR5 (H13), co przekłada się na wydajność na poziomie 1.1 petaflopsa.

Decydując się na rozbudowane rozwiązanie – POD SRS-42UGPU-AI-SU2, składające się z czterech szaf serwerowych, liczyć można na proporcjonalny wzrost parametrów i wydajności. W tym przypadku mamy do czynienia z 32 procesorami Intel® Xeon® Platinum 8480+ lub AMD EPYC™ 9004, 128 kartami graficznymi NVIDIA HGX H100 SXM5 i pamięcią na poziomie 128TB DDR5 (X13) lub 96TB DDR5 (H13)! Co z wydajnością? Tu możemy już liczyć na 4.5 petaflopsów.

Najsilniejszą konfiguracją rozwiązania jest SuperPOD SRS-42UGPU-AI-SU3, składający się z 8 szaf serwerowych i oferujący wspominane już wcześniej 8.7 petaflopsów wydajności! Tak doskonały wynik jest możliwy do uzyskania dzięki wykorzystaniu aż 64 procesorów Intel® Xeon® Platinum8480+ lub AMD EPYC™ 9004, 256 kart graficznych NVIDIA HGX H100 SXM5. Imponująca jest również pamięć – 256TB DDR5 (X13) lub 192TB DDR5 (X13).

Ogromna moc obliczeniowa oraz elastyczność w zakresie dopasowania rozwiązania do potrzeb biznesu to niejedyne zalety Supermicro Rack Scale AI Solution. Wspomnieć warto również o szybkiej możliwości wdrożenia takiego systemu. Czas od złożenia zamówienia do posiadania działającego systemu można w tym przypadku skrócić z kilku miesięcy do zaledwie kilku tygodni.

Wielkoskalowe rozwiązania NVIDIA H100 z chłodzeniem cieczą

Ostatnie

Serwery Supermicro GPU – konfiguracje zapewniające maksymalną wydajność

AI a ochrona raf koralowych

NVIDIA L40S – potężne GPU dla centrów danych

Wsparcie NVIDIA w zapewnieniu bezpieczeństwa sztucznej inteligencji

AI w szkole, czyli zaawansowane algorytmy w służbie edukacji

Platformy generatywnej sztucznej inteligencji dla każdej branży

Modułowa architektura NVIDIA MGX

Architektura Grace Hopper – NVIDIA DGX GH200

Zaawansowane aplikacje AI i HPC

Wydajna i skalowalna lokalna chmura AI z NVIDIA AI Enterprise

Wielkoskalowe rozwiązania NVIDIA H100 z chłodzeniem cieczą

Współpraca Supermicro oraz NVIDIA

AI i Metaverse a Automotive

Co to jest Agent Assist?

Pierwszy japoński AI Supercomputer dla przemysłu farmaceutycznego

Moje konto

Informacje

Nasze usługi

Kontakt z nami