Orzeł/Eagle z systemem pamięci masowej XtremIO

Orzeł/Eagle z systemem pamięci masowej XtremIO

Przy budowie jednego z najszybszych superkomputerów w Polsce – Orzeł/Eagle – zbudowanego przez PCSS, wykorzystano rozwiązania XtremIO firmy Dell EMC. System pamięci masowych firmy Dell EMC, XtremIO, który od początku był projektowany w architekturze All-flash i dzięki temu charakteryzuje się bardzo wysoką wydajnością i opóźnieniem dostępu do danych poniżej 1 ms, umożliwił uzyskanie bardzo wysokich wydajności dzięki ekstremalnie szybkiej obsłudze tzw. meta danych zawierających m.in. informacje o rzeczywistym położeniu danych użytkownika na nośnikach pamięci masowych.

​Zbudowany przez Centrum Komputerów Dużej Mocy klaster obliczeniowy „Orzeł/Eagle” jako drugi najszybszy komputer w Polsce i 79 najszybszy komputer na świecie znalazł się na globalnej liście najszybszych komputerów (TOP 500) z listopada 2015 r. Składa się on z ponad 1000 węzłów o łącznej mocy obliczeniowej ponad 1,4 PFlops, zawierających łącznie prawie 33 tys. rdzeni i 300 TB pamięci operacyjnej. Klaster korzysta też z 7,5 PB przestrzeni dyskowej i 47 PB pamięci
masowej w chmurze.

„Budowa i funkcjonowanie klastra obliczeniowego jest całkowicie odmienna od architektury typowego komputera PC. Ze względu na ogromną liczbę procesorów i ich potencjał obliczeniowy kluczowego znaczenia nabiera efektywna komunikacja i szybkie przesyłanie danych pomiędzy poszczególnymi komponentami. Każde, nawet najmniejsze, opóźnienie powoduje, że procesory nie będą miały danych do przetwarzania, co drastycznie obniża wydajność obliczeń zwłaszcza w przypadku, gdy pojedyncza aplikacja wykorzystuje tysiące rdzeni procesora jednocześnie. Z tego względu w ramach klastra używamy m.in. sieci Infiniband FDR (56 GB/s), która gwarantuje minimalizację opóźnień komunikacyjnych, co jest kluczowe dla przetwarzania równoległego” – powiedział Radosław Januszewski, Kierownik Działu HPC i Centrum Danych w PCSS.

„Minimalizacja opóźnień w klastrze obliczeniowym wymaga również stosowania specjalizowanych technologii i architektury pamięci masowych, które są wykorzystywane do przechowywania i przekazywania cząstkowych wyników obliczeń pomiędzy procesorami” – powiedział Maciej Brzeźniak, Kierownik Działu Nowych Technologii Zarządzania Danymi w PCSS.

Zoptymalizowany pod kątem wydajności system pamięci masowych „Orła” składa się z dwóch podstawowych elementów: wysokowydajnych macierzy dyskowych o dużej pojemności (7.5 PB) oraz przepustowości (120 GB/s), na których są przechowywane informacje użytkowników i dane obliczeniowe oraz z macierzy All-Flash Dell EMC XtremIO zawierającej niezbędne informacje pomocnicze i kontrolne systemu plików – tzw. meta-dane. „Meta-dane pozwalają stwierdzić, gdzie dokładnie znajdują się dane, tj. pliki i foldery użytkowników oraz procesów obliczeniowych, jak są zorganizowane, kto ich używa, kiedy zostały zapisane, itd.

Ponieważ każda operacja na plikach i zawartych w nich danych wymaga wielokrotnego dostępu do metadanych, zdecydowaliśmy się umieścić metadane kluczowego systemu plików na urządzeniach XtremIO, w których czas dostępu jest ekstremalnie krótki. Dzięki temu do maksimum wykorzystaliśmy zalety sprzętu: XtremIO wykonuje ogromną ilość operacji na meta-danych w bardzo krótkim czasie, natomiast macierze dyskowe dostarczają dużych ilości danych z wysoką przepustowością. Ma to zasadnicze znaczenie dla wydajności całego systemu” – powiedział Krzysztof Wadówka, Specjalista w Dziale Nowych Technologii Zarządzania Danymi w PCSS.

Macierz XtremIO jest także wykorzystywana do przechowywania szablonów i obrazów tysięcy maszyn wirtualnych tworzących platformę chmury obliczeniowej PCSS. „Kopiowanie danych zapisanych w XtremIO jest realizowane w niemal zerowym czasie, ponieważ wymaga jedynie utworzenia dodatkowych wskaźników do już istniejących informacji. Dopiero modyfikacja tych plików powoduje konieczność zapisu zmienionych danych. Dzięki temu z jednej strony możemy bardzo szybko uruchamiać maszyny wirtualne, a z drugiej – obniżamy zapotrzebowanie na nośniki SSD i związane z tym koszty. Zarazem architektura scale-out tego rozwiązania pozwala nam na uruchamianie ogromnej liczby środowisk wirtualnych w bardzo krótkim czasie” – podsumował Jacek Kochan, specjalista d/s systemów chmurowych w PCSS.