O nas

CLUSTERIX
(National CLUSTER of LInuX Systems)

Konsorcjum:




Abstrakt

Niniejszy dokument zawiera koncepcję budowy Krajowego Klastra Linuxowego CLUSTERIX - rozproszonego klastra PC nowej generacji. Jego realizacja umożliwi wdrożenie produkcyjnego środowiska typu Grid, utworzonego z lokalnych klastrów PC o architekturze 64- i 32-bitowej, zlokalizowanych w wielu niezależnych ośrodkach, geograficznie odległych. Tworzone oprogramowanie zarządzające, umożliwiające m.in. obsługę dynamicznie zmieniającej się wielkości i konfiguracji infrastruktury sprzętowej, bazować będzie na implementacjach dostępnych jako Open Source, rozszerzając funkcjonalność rozwiązań istniejących lub dodając własne narzędzia. Zbudowany system testowany będzie w oparciu o pilotowe aplikacje rozproszone, wytworzone w ramach projektu. Projekt realizuje 12 jednostek KDM i MAN, z Politechniką Częstochowską w roli koordynatora.




Spis treści

  1. Streszczenie projektu
  2. Charakterystyka przedsięwzięcia
  3. Główne założenia projektu CLUSTERIX
  4. Instalacja pilotowa
  5. Oprogramowanie warstwy pośredniej
  6. Aplikacje pilotowe
  7. Wdrożenie i wykorzystanie wyników projektu
  8. Terminologia



  1. Streszczenie projektu
Celem projektu jest opracowanie narzędzi oraz mechanizmów umożliwiających wdrożenie produkcyjnego środowiska typu Grid utworzonego z lokalnych klastrów PC, zlokalizowanych w wielu niezależnych ośrodkach, geograficznie odległych. Instalacja szkieletowa zbudowana zostanie z lokalnych klastrów PC o architekturze 64-bitowej, połączonych dedykowanymi kanałami na bazie sieci optycznej PIONIER. Cele szczegółowe obejmują między innymi przygotowanie systemu umożliwiającego zarządzanie i udostępnianie zasobów, obsługę dynamicznie zmieniającej się wielkości i konfiguracji infrastruktury sprzętowej (z możliwością czasowego dołączania innych klastrów PC i tym samym zwiększania lub zmniejszania infrastruktury), jak również wykorzystanie usług oferowanych przez inne projekty powstałe w ramach prac skojarzonych z programem PIONIER (np. zdalna wizualizacja, dostęp do systemów archiwizacji, dostęp do Krajowego Klastra Obliczeniowego - KKO, itp.).

Tak zbudowany system testowany będzie w oparciu o aplikacje rozproszone wytworzone w ramach projektu. Drugim celem wykonawców projektu jest pomoc w przygotowaniu aplikacji rozproszonych potencjalnym użytkownikom infrastruktury CLUSTERIX i tym samym przygotowanie grupy osób, które wykorzystają klaster w sposób optymalny po zakończeniu prac badawczo-rozwojowych.

W poczynionych założeniach przyjęto istnienie struktury bazowej, złożonej z klastrów lokalnych PC- Linux o architekturze 64-bitowej oraz struktur dynamicznie podłączanych o zróżnicowanej (32- lub 64-bitowej) architekturze (np. klastrów lokalnych będących na wyposażeniu laboratoriów uczelni wyższych; planowane jest ich wykorzystanie w godzinach nocnych i przerwach miedzy zajęciami). Kolejnym celem projektu jest integracja wszystkich istniejących już klastrów PC (np. TASK-Gdańsk, Politechnika Częstochowska, ACK CYFRONET AGH, WCSS-Wrocław) w jedną, wyżej zorganizowaną infrastrukturę i tym samym zwiększenie efektywności wykorzystania zasobów, dzięki opracowanym w projekcie narzędziom. W ramach projektu powstanie instalacja pilotowa klastrów PC, opartych na procesorach 64-bitowych, zarządzanych systemem operacyjnym Linux. Jednym z głównych założeń jest wykorzystanie oraz udostępnienie (po zakończeniu prac badawczych) tylko i wyłącznie oprogramowania typu Open Source, co jest warunkiem koniecznym rozpowszechnienia idei budowy dużego, rozproszonego systemu w skali kraju. Zasadniczy nacisk w projekcie położony został na wykorzystanie rodziny protokółów IP wersji 6 oraz dodatkowej funkcjonalności dostarczanej w ramach tej wersji, np. zwiększonej niezawodność, gwarancji jakości usługi oraz większej możliwości określania wymaganego pasma. Taka funkcjonalność dostarczona na poziom aplikacji i co najmniej wykorzystywana w samej warstwie pośredniej, pozwoliłaby na osiągnięcie znacznie lepszej jakości usług. W chwili obecnej nie istnieje jeszcze produkcyjna struktura Grid oparta na IPv6. Mając jednak na względzie okres realizacji projektu, można sądzić, że standard ten będzie już powszechnie używany. Powstające oprogramowanie zapewni możliwość wykorzystania zarówno IPv6, jak również IPv4.

Tworzone oprogramowanie bazować będzie na implementacjach dostępnych jako Open Source, rozszerzając funkcjonalność rozwiązań istniejących lub dodając własne narzędzia.

Efektem końcowym prac badawczo-rozwojowych będzie oprogramowanie umożliwiające uruchamianie aplikacji zgodnie z preferencjami użytkownika, monitorowanie stanu wykonania procesu. Dodatkowo dodane zostanie środowisko wspomagające tworzenie aplikacji rozproszonych, jak również mechanizmy pozwalające na proste i szybkie dodawanie kolejnych systemów (bądź klastrów) do istniejącej infrastruktury.



  1. Charakterystyka przedsięwzięcia

Całe przedsięwzięcie podzielone zostało na dwa etapy:

  • badawczo-rozwojowy, którego czas realizacji oszacowano na 18 miesięcy,
  • wdrożeniowy, rozpocznie się po zakończeniu prac badawczych i potrwa przez 12 miesięcy.

Czas realizacji całego projektu wynosi 30 miesięcy.

Wynikiem projektu będzie dostarczenie na rynek polski nowego rodzaju produkcyjnej mocy obliczeniowej, która wykorzystana  zostanie do określonego rodzaju zadań obliczeniowych, obejmujących zarówno przetwarzanie typu HPC, jak również HTC.  W chwili obecnej w polskim środowisku brakuje mocy obliczeniowej, którą można potencjalnie wykorzystać do obliczeń mniejszej skali (dużej ilości obliczeń HTC) lub aplikacji dobrze skalujących się w środowisku rozproszonym, odciążając tym samym duże systemy SMP zlokalizowane w centrach KDM (systemy wieloprocesorowe o dużej pamięci operacyjnej).  Moc taką mógłby dostarczyć system CLUSTERIX, zawierający w konfiguracji bazowej infrastrukturę lokalnych klastrów o architekturze 64-bitowej, połączonych szybką siecią kręgosłupową (wydzielone połączenia na bazie sieci optycznej Polskiego Internetu Optycznego).  Do infrastruktury bazowej podłączone zostaną zarówno istniejące (np. na Politechnice Częstochowskiej, TASK w Gdańsku), jak i  nowe klastry, o zróżnicowanej architekturze 32- i 64-bitowej.  Otrzymujemy tym samym rozproszony klaster PC o dynamicznie zmieniającej się wielkości.  Ważne w tym kontekście jest stwierdzenie produkcyjny Grid, co oznacza budowę infrastruktury sprzętowo-programowej udostępnionej na potrzeby obliczeń, w pełni operacyjnej i zintegrowanej z istniejącymi usługami udostępnionymi w KKO, koncepcji KMD, projekcie Progress oraz projekcie budowy laboratorium wirtualnego.  Udostępnienie zaawansowanych i specjalistycznych usług zintegrowanych w jeden spójny system wymaga dodatkowych mechanizmów, do tej pory nie spotykanych w instalacjach pilotowych, których ograniczeniem jest przede wszystkim założenie istnienia statycznej infrastruktury, zarówno pod względem liczby udostępnianych węzłów, ilości usług, jak i liczby użytkowników korzystających z usług, zorganizowanych w wirtualne organizacje.  Warto nadmienić, iż w chwili obecnej nie ma produkcyjnych instalacji Grid, właśnie ze względu na wspomniane powyżej ograniczenia, brak odpowiednich narzędzi, usług oraz standardów wymiany danych.

Wśród wartości dodanych, będących wynikiem projektu wymienić należy między innymi:

  • utworzenie oprogramowania zdolnego do zarządzania strukturą klastra o dynamicznie zmieniającej się konfiguracji (zmienna liczba węzłów, użytkowników, udostępnianych usług); jednym z bardzo ważnych kryteriów rozwoju takiego mechanizmu jest zmniejszenie narzutów czasowych związanych z zarządzaniem,

  • nowa jakość usługi i aplikacji budowanych w oparciu o rodzinę protokołów IPv6,

  • integracja i wykorzystanie dostępnych już usług, dostarczanych w ramach innych projektów badawczych bądź celowych (np. składowanie danych, zdalna wizualizacja, moc obliczeniowa dla aplikacji o dużym poziomie skalowalności – system KKO),

  • uwzględnienie lokalnych polityk administracji i zarządzania infrastrukturą w ramach niezależnych domen,

  • zintegrowany system interfejsu użytkownika końcowego oraz administratora,

  • udostępnienie produkcyjnej infrastruktury  Grid,

  • zapewnienie odpowiedniego poziomu bezpieczeństwa w heterogenicznym środowisku rozproszonym.

Infrastruktura, która powstanie po zakończeniu prac badawczo-rozwojowych, umożliwi w unikalny w tej chwili sposób na dołączanie większej liczby węzłów PC do struktury szkieletowej, jaką jest instalacja pilotowa oparta na architekturze 64-bitowej.  Instalacja pilotowa stanowić będzie (po zakończeniu fazy badań) element statyczny klastra (w rozumieniu zmian konfiguracyjnych), do którego czasowo, np. w godzinach nocnych, dołączone zostaną dodatkowe klastry jednostek zainteresowanych obliczeniami na szerszą skalę. Rozliczanie wykorzystanych zasobów i zdefiniowanie polityki dostępu do całego klastra stanowi integralny element zadań zdefiniowanych w niniejszym wniosku. Z punktu widzenia logicznych połączeń strukturę tworzy krajowy klaster klastrów lokalnych. Szkielet proponowanego klastra wykorzysta połączenia dedykowane udostępnione w ramach sieci optycznej PIONIER.  Dołączenie klastrów lokalnych do szkieletu nastąpi poprzez sieci uczelniane oraz sieci miejskie (Rys.1).




Rys. 1 Struktura sieci Pionier

Infrastruktura sieciowa planowana do realizacji w programie PIONIER przyjmuje za punkt wyjścia fakt istnienia 21 światłowodowych sieci miejskich. Do sieci tych dołączone są prawie wszystkie instytucje naukowe oraz wiele innych instytucji. Wzrost przepustowości w tych sieciach zależy tylko od zainstalowanych urządzeń. Ogólnopolska Sieć Optyczna, której zakończenie budowy planowane jest w latach 2003-2004, będzie stanowić inteligentną sieć optyczną, wielokanałową (w technice DWDM) o przepustowościach rzędu nx(10, 40, ...) Gb/s, wykorzystującą protokół IP. Na poziomie transportowym będzie istniała możliwość przydziału wskazanych zasobów, takich jak: prywatne sieci wirtualne w technice ATM, kanały SDH, lambdy optyczne dla określonych aplikacji, Gridów, sieci tematycznych czy resortowych. Sieć będzie mogła obsłużyć naukę, dydaktykę, służbę zdrowia, administrację i inne dziedziny, na niezależnych, równoprawnych zasadach. Sieć zbudowana zostanie w oparciu o dwie logiczne podsieci na dedykowanych lambdach. Pierwsza z podsieci zbudowana będzie w oparciu o lambdę (lub grupę lambd) synchronicznych o zagregowanej przepustowości 40Gbit/s. Druga podsieć zbudowana będzie w oparciu o grupę lambd asynchronicznych, w celu wykorzystania jej dla połączeń zrealizowanych w technologiach specyficznych dla zastosowań w komputerach dużej mocy np. Fibre Channel.

Opis instalacji doświadczalnej, prototypu nowo zaprojektowanego wyrobu lub wykaz aparatury naukowo-badawczej przewidzianej do wykonania lub zakupu, ze wskazaniem przyszłego właściciela (po rozliczeniu umowy).

Wykonanie prac badawczo-rozwojowych oraz wdrożeniowych, przewidzianych w projekcie i opisanych w kolejnych punktach, wymaga budowy instalacji doświadczalnej, obejmującej 12 węzłów zlokalizowanych w dwunastu różnych ośrodkach akademickich w kraju. Każdy z węzłów, tworzących rdzeń budowanego Krajowego Klastra Linuxowego, reprezentuje sobą klaster obliczeniowy wykorzystujący komputery PC z procesorami o zaawansowanej architekturze 64-bitowej, np. Intel IA-64. Komunikacja między węzłami instalacji pilotowej odbywać się będzie z wykorzystaniem dedykowanych, wysokowydajnych kanałów udostępnianych przez sieć Polskiego Internetu Optycznego PIONIER. Sieć ta w połączeniu z infrastrukturę sieci krajowej POL-34/155/622 oraz sieci miejskich w 21 miastach, powiązanych z sieciami innych operatorów oraz międzynarodową siecią naukową GÉANT, umożliwi także maksymalnie szeroki dostęp do tworzonych usług i aplikacji dla użytkowników i partnerów z kraju oraz zagranicy

 

  1. Główne założenia projektu CLUSTERIX
Do podstawowych założeń projektu budowy Krajowego Klastra Linuxowego CLUSTERIX należą:
  1. Głównym celem realizacji projektu jest opracowanie narzędzi oraz mechanizmów umożliwiających wdrożenie produkcyjnego środowiska typu Grid, udostępniającego w konfiguracji bazowej infrastrukturę lokalnych klastrów PC-Linux o architekturze 64-bitowej, połączonych szybką siecią kręgosłupową udostępnianą przez sieć Polskiego Internetu Optycznego PIONIER
  2. Do infrastruktury bazowej podłączone zostaną zarówno istniejące, jak i nowe klastry, o zróżnicowanej architekturze 32- i 64-bitowej
  3. Otrzymujemy w ten sposób rozproszony klaster PC nowej generacji o dynamicznie zmieniającej się wielkości, w pełni operacyjny i zintegrowany z istniejącymi usługami, udostępnionymi przez inne projekty powstałe w ramach prac skojarzonych z programem PIONIER

Wśród wartości dodanych, będących wynikiem projektu wymienić należy między innymi:
  • utworzenie oprogramowania zdolnego do zarządzania strukturą klastra o dynamicznie zmieniającej się konfiguracji (zmienna liczba węzłów, użytkowników, udostępnianych usług); jednym z bardzo ważnych kryteriów rozwoju takiego mechanizmu jest zmniejszenie narzutów czasowych związanych z zarządzaniem;

  • nowa jakość usługi i aplikacji budowanych w oparciu o rodzinę protokołów IPv6;

  • integracja i wykorzystanie dostępnych już usług, dostarczanych w ramach innych projektów badawczych bądź celowych (np. składowanie danych, zdalna wizualizacja, moc obliczeniowa dla aplikacji o dużym poziomie skalowalności - system Krajowego Klastra Obliczeniowego - KKO);

  • uwzględnienie lokalnych polityk administracji i zarządzania infrastrukturą w ramach niezależnych domen,

  • zintegrowany system interfejsu użytkownika końcowego oraz administratora,

  • udostępnienie produkcyjnej infrastruktury Grid,

  • zapewnienie odpowiedniego poziomu bezpieczeństwa w heterogenicznym środowisku rozproszonym.

 

  1. Instalacja pilotowa
W ramach projektu planuje się budowę instalacji pilotowej (Rys.2) złożonej z 12 klastrów lokalnych połączonych dedykowanymi kanałami opartymi na sieci PIONIER. Rdzeń instalacji pilotowej wyposażony zostanie w węzły PC o architekturze 64-bitowej (typu Intel IA-64) zarządzanych systemem operacyjnym Linux. Pojedynczy węzeł obliczeniowy wyposażony zostanie co najmniej w 2 procesory IA-64, pamięć RAM o odpowiedniej wielkości oraz co najmniej jeden interfejs sieciowy Gigabit Ethernet lub inny np. Myrinet. Węzły obliczeniowe połączone zostaną lokalnie za pomocą przełącznika sieciowego, udostępniającego porty funkcjonujące w tym samym standardzie, umożliwiając organizację zarówno szybkiej sieci komunikacyjnej łączącej węzły klastra lokalnego, jak i wydajnego dostępu do sieci szkieletowej PIONIER. Ponadto instalacja pilotowa uzupełniona zostanie o istniejące instalacje klastrów PC 32-bitowych (Politechnika Częstochowska, TASK Gdańsk, WCSS Wrocław, ACK Cyfronet AGH, PCSS). Wybrane węzły obliczeniowe (w liczbie określonej po wykonaniu projektu) przeznaczone zostaną do celów zarządzania klastrami lokalnymi lub całą infrastrukturą. Na etapie wdrożenia węzły specjalizowane (głównie zarządzania i węzły 'wejściowe') zamienione zostaną na 32-bitowe (wystarczające do zarządzania infrastrukturą CLUSTERIX).


Rys. 2 Schemat instalacji pilotowej CLUSTERIX
 
 
  1. Oprogramowanie warstwy pośredniej
Oprogramowanie warstwy pośredniej (middleware), tworzone w ramach projektu, powinno umożliwiać:
  • zarządzanie, udostępnianie i monitorowanie zasobów, z wykorzystaniem zintegrowanego interfejsu użytkownika końcowego oraz administratora;

  • obsługę klastra o dynamicznie zmieniającej się konfiguracji (zmienna liczba węzłów, użytkowników, udostępnianych usług), z możliwością czasowego dołączania innych klastrów PC, w tym o architekturze 32-bitowej;

  • zlecanie i wykonanie aplikacji HPC i HTC zgodnie z preferencjami użytkownika, wraz z monitorowaniem ich wykonania oraz wspomaganiem tworzenia aplikacji równoległych

  • rejestrowanie nowych użytkowników i organizacji wirtualnych;

  • efektywne zarządzanie zasobami sieciowymi z wykorzystaniem rodziny protokołów IP w wersji 6;

  • wykorzystanie usług, oferowanych przez inne projekty powstałe w ramach prac skojarzonych z programem PIONIER, np. zdalnej wizualizacji, składowania danych, usług obliczeniowych;

  • uwzględnienie lokalnych polityk administracji i zarządzania infrastrukturą w ramach niezależnych domen;

  • zapewnienie odpowiedniego poziomu niezawodności oraz bezpieczeństwa w heterogenicznym środowisku rozproszonym będącym wynikiem realizacji projektu CLUSTERIX.


Opracowywane oprogramowanie będzie wykonane z wykorzystaniem technologii Open Source, w tym systemu Linux i pakietu Globus Toolkit w wersji 3. Pakiet ten bazuje na nowej koncepcji tworzenia systemów gridowych, znanej pod nazwą OGSA (Open Grid Services Architecture). Zapewnia to zgodność oprogramowania z istniejącymi środowiskami do tworzenia systemów gridowych i umożliwia łatwiejsze ponowne wykorzystanie tworzonych usług. Przyjęcie OGSA jako standardu umożliwi współpracę tworzonych serwisów z innymi metaklastrami i systemami gridowymi.
Wykorzystanie idei Open Source oznacza przede wszystkim, że każdy bez wyjątku będzie miał dostęp do kodu źródłowego oprogramowania stworzonego w ramach projektu oraz będzie mógł wprowadzać i publikować własne modyfikacje. Innymi zaletami podejścia Open Source jest zwiększenie niezawodności i bezpieczeństwa oprogramowania, które dzięki dostępności kodu źródłowego może być analizowane i poprawiane przez każdą zainteresowaną osobę czy instytucję. Oprócz tego, otwarte oprogramowanie łatwiej integruje się z istniejącymi rozwiązaniami i zwiększa wkład w rozwój innych technologii, które wykorzystują oprogramowanie Open Source.

Zdefiniowana w wyniku realizacji projektu organizacja wirtualna w postaci Krajowego Klastra Linuxowego zostanie dołączona do innych istniejących lub budowanych organizacji, takich jak Krajowy Klaster Obliczeniowy czy Krajowy Magazyn Danych. Ze względu na brak istniejących mechanizmów i procedur integracji z innymi organizacjami wirtualnymi, prace te zaliczyć należy również do prac badawczo-rozwojowych.
Wspomniane wyżej usługi będą dostępne we wszystkich lokalizacjach objętych siecią PIONIER oraz poszczególnymi sieciami miejskimi. Sieć PIONIER umożliwi także wysokowydajną komunikację pomiędzy klastrami lokalnymi, realizowaną z wykorzystaniem dedykowanych kanałów o przepustowości 1 Gb/s dla instalacji pilotowej oraz dodatkowej funkcjonalności dostarczanej w ramach wersji 6. protokołu IP (np. zwiększona niezawodność, gwarancja jakości usługi komunikacyjnej). Aplikacje rozproszone mogą być uruchamiane nie tylko w ramach pojedynczego klastra lokalnego, lecz również jako meta-aplikacje zaprojektowane do uruchamiania na więcej niż jednym klastrze lokalnym.



  Rys. 3 Architektura Clusterix


  1. Aplikacje pilotowe
Zgodnie z założeniami projektu, Krajowy Klaster Linuxowy (KKL) będzie wykorzystywany zarówno do przetwarzania w technologii HTC, jak i uruchamiania aplikacji rozproszonych dużej skali, wymagających do swojej dyspozycji równoległego wykorzystania zasobów jednego lub więcej klastrów lokalnych (technologia HPC). W celu eksperymentalnej weryfikacji przyjętych założeń i uzyskanych wyników prac badawczo-rozwojowych planowane jest przeprowadzenie badań mających na celu wdrożenie wybranych aplikacji użytkownika końcowego do eksploatacji na zbudowanej w ramach projektu instalacji pilotowej. W ostatecznym rachunku o sukcesie klastrów i gridów obliczeniowych decyduje bowiem rozwój aplikacji wykorzystujących efektywnie zasoby rozproszone.
W przypadku hierarchicznej architektury klastrowej charakteryzującej KKL, zagadnienie dostosowania istniejącej aplikacji rozproszonej do jej efektywnego wykonywania na metaklastrze nie jest zagadnieniem trywialnym. Wymaga bowiem zrównoleglenia aplikacji na kilku poziomach, odzwierciedlających architekturę metaklastra, z uwzględnieniem znacznego stopnia heterogeniczności zarówno pod względem mocy obliczeniowej węzłów, jak i wydajności sieci komunikacyjnych łączących poszczególne podsystemy metaklastra. W szczególności, występuje konieczność rozwiązania niejednokrotnie bardzo skomplikowanego problemu takiej organizacji i przydziału obliczeń do poszczególnych komponentów systemu rozproszonego, aby uzyskać minimalizację wpływu na wydajność obliczeń mniejszej wydajności komunikacji zdalnej pomiędzy klastrami lokalnymi w porównaniu z komunikacją lokalną wewnątrz tych klastrów.
Z tego względu niezwykle istotny staje się rozwój narzędzi pozwalających na implementację aplikacji zrównoleglonych na kilku poziomach. W niniejszym projekcie jako podstawowe narzędzie o wymaganej funkcjonalności zostanie wdrożona gridowa implementacja standardu MPI w postaci pakietu MPICH-G opartego o Globus Toolkit. Praktyczne wykorzystanie MPICH-G będzie wspierane nie tylko przez różnorodne biblioteki matematyczne, ale także przez zaawansowane, dedykowane środowiska do rozwiązywania problemów użytkowników końcowych (naukowców, inżynierów) w postaci pakietów Cactus czy Triana.
Przykładowe aplikacje pracujące już w trybie równoległym wymagać będą przede wszystkim ich dostosowania do heterogenicznej struktury metaklastra. Innym problemem jest zmienna w czasie dostępność elementów Gridu. Zbadać zatem należy możliwość dynamicznej rekonfiguracji tych aplikacji, np. w sytuacji dynamicznej zmianę liczby wykorzystywanych węzłów. Prowadzenie takich badań wymaga dostępu do kodu źródłowego.
Aplikacje rozproszone, które zostaną przystosowane do pracy w środowisku Grid, obejmują m.in.:
  • oprogramowanie do modelowania zjawisk termomechanicznych w krzepnących odlewach, wykorzystujące metodę elementów skończonych (MES), autorstwa grupy z Politechniki Częstochowskiej;

  • oprogramowanie do symulacji przepływu transonicznego oraz projektowania zaawansowanych końcówek skrzydeł, autorstwa grupy z Politechniki Warszawskiej;

  • aplikacja do symulacje wielkiej skali przepływu krwi w mikrokapilarach, przy pomocy heterogenicznego modelu cząstek (wykorzystującego dysypatywną metodę cząstek wraz z modelem siatkowej reprezentacji krwinek i innych komponentów), rozwijana w ACK CYFRONET AGH;

  • oprogramowanie do wizualizacji złożonych struktur, wykorzystujące metody rozpoznawania obrazów, autorstwa ACK CYFRONET AGH;

  • aplikacje służące przewidywanie struktury białek z sekwencji aminokwasowej oraz symulacje procesu zwijania białek (Uniwersytet Gdański, TASK);

  • oprogramowanie umożliwiające badanie właściwości molekularnych układów biologicznych o znaczeniu chemoterapeutycznym, autorstwa zespołu z Politechniki Gdańskiej;

  • oprogramowanie do projektowania układów elektroniki molekularnej oraz symulacji mechanosyntezy (TASK, Politechnika Gdańska);

  • pakiet GAMESS w środowisku CLUSTERIX (WCSS).



W ramach projektu zostaną również opracowane nowe implementacje równoległe/rozproszone dla szerokiej gamy problemów (obliczenia numeryczne, symulacje komputerowe, data mining). Aplikacje te należą do dwóch różnych kategorii:
  1. Meta-aplikacje rozproszone zaprojektowane do uruchomienia na więcej niż jednym klastrze lokalnym. Uwzględniają one fakt heterogeniczności metaklastra pod względem dostępnej mocy obliczeniowej, jak i wydajności połączeń komunikacyjnych.
  2. Aplikacje zaprojektowane z myślą o uruchomienie na pojedynczym klastrze lokalnym. Ograniczenie to dotyczy pojedynczej instancji konkretnej aplikacji, gdyż różne instancje takiej aplikacji mogą być uruchamiane na różnych klastrach lokalnych


 
  1. Wdrożenie i wykorzystanie wyników projektu

W chwili obecnej nie istnieje rozproszony klaster obliczeniowy o zasięgu ogólnokrajowym oparty o komputery klasy PC, wyposażone w 64- bitowe (np. IA-64) lub 32-bitowe procesory firmy Intel lub AMD. Prowadzone są natomiast prace nad łączeniem systemów obliczeniowych przy pomocy systemu kolejkowego LSF w ramach Krajowego Klastra Obliczeniowego. Projekt KKO opiera się o istniejącą infrastrukturę sprzętową bazującą w głównej mierze na homogenicznych systemach obliczeniowych SGI oraz oprogramowaniu LSF i VUS. Licencje na oprogramowanie LSF zostały wykupione przez ośrodki posiadające systemy obliczeniowe SGI, tj. Gdańsk, Łódź, Kraków, Poznań, Wrocław, Szczecin, Gliwice, Toruń. Zadania są zlecane do systemu przetwarzania wsadowego LSF i uruchamiane na systemie zdalnym na specjalnym koncie użytkownika wirtualnego. System ten pozwala na dostęp do zdalnych systemach obliczeniowych bez konieczności zakładania kont na wszystkich potencjalnie wykorzystywanych systemach. W porównaniu z systemem KKO, projekt CLUSTERIX oparty jest na darmowym oprogramowaniu, dla którego nie musi być odnawiana co roku licencja, jak to mam miejsce z oprogramowaniem LSF. Dodatkowo w projekcie CLUSTERIX opracowane zostaną nowe narzędzia i mechanizmy, które ułatwią dodawanie klastrów lokalnych PC oraz zarządzanie kontami w środowisku rozproszonym.

Przy założeniu, że klaster zostanie zbudowany z 80 węzłów dwuprocesorowych, sumaryczna moc obliczeniowa wyniesie około ' 800 Gflops. Należy podkreślić, że do systemu CLUSTERIX będą podłączane także komputery PC znajdujące się w laboratoriach. Zakładając, że w każdym z ośrodków podłączony zostanie tylko jeden klaster lokalny złożony z 20 komputerów PC o mocy pojedynczego procesora równej 1 Gflops, to moc obliczeniowa systemu CLUSTERIX wzrośnie o 240 Gflops do 1040 Gflops.
W projekcie zadeklarowało swoje uczestnictwo 12 jednostek naukowych, które podjęły się wspólnie opracować narzędzia i aplikacje udostępniane nieodpłatnie środowisku naukowemu. Po zakończeniu projektu zostaną one udostępnione, dzięki czemu każdy ośrodek naukowy będzie miał możliwość podłączenia swoich lokalnych klastrów do systemu CLUSTERIX. Możliwość podłączania nowych użytkowników będzie realizowana dzięki architekturze zapewniającej łatwą skalowalność środowiska. Ogólnopolski zasięg projektu oraz jego skala ułatwi dostęp do kolejnych projektów prowadzonych w ramach 6. Programu Ramowego.

Reasumując część wdrożeniowa projektu CLUSTERIX obejmuje następujące kluczowe elementy:
  • udostępnienie usług na bazie instalacji pilotowej;
  • udostępnienie oprogramowania jako Open Source;
  • opracowanie i udostępnienie materiałów szkoleniowych, instrukcji i dokumentacji;
  • wsparcie dla nowych klastrów lokalnych podłączanych do instalacji szkieletowej;
  • powołanie grupy roboczej w ramach konsorcjum PIONIER.


Wśród najważniejszych planowanych sposobów wykorzystania wyników projektu CLUSTERIX wymienić należy:
  • udostępnienie platformy obliczeniowej dużej mocy dla użytkowników ze środowiska naukowego;

  • wykorzystanie aplikacji użytkownika końcowego, także przez małe i średnie przedsiębiorstwa;

  • udostępnienie stworzonej infrastruktury programowo-sprzętowej w charakterze infrastruktury bazowej dla projektów współrealizowanych w ramach 6. PR, jako wkład Polski w budowę środowiska Grid;

  • wykorzystanie usług i aplikacji przez zespoły realizujące projekty finansowane z funduszy 6 PR;

  • wykorzystanie infrastruktury programowo-sprzętowej w realizacji kolejnych projektów programu PIONIER


W szczególności, wyniki uzyskane w projekcie w zakresie infrastruktury programowej pozwolą na zwiększenie stopnia przenośności oprogramowania, jego stabilności, wydajności usług i obliczeń w strukturze typu gridowego. Wielu dotychczasowych użytkowników akademickich centrów obliczeniowych (fizycy, chemicy kwantowi, biolodzy, meteorologowie, inżynierowie) posiadających ogromne potrzeby obliczeniowe (modelowanie, badanie klimatu, prognozy pogody) będzie więc mogło dodatkowo wykorzystać moc obliczeniową klastrów PC, obok istniejących systemów SMP. Pozwoli to na częściowe odciążenie tych systemów, a zarazem wybór najodpowiedniejszej architektury dla danego typu obliczeń. Wykorzystanie infrastruktury sieci miejskich w 21 miastach oraz możliwości sieci krajowej POL-34/622 i budowanej sieci optycznej PIONIER, połączonych z sieciami innych operatorów, umożliwia maksymalnie szeroki dostęp do tworzonych usług i aplikacji. Bardzo ważnym elementem jest połączenie infrastruktury CLUSTERIX z istniejącymi usługami i zintegrowanie ich w jedną całość. Dotyczy to przede wszystkim Krajowego Klastra Obliczeniowego, infrastruktury sprzętowej i usług zrealizowanych w projektach PROGRESS, SGI i w przyszłości Krajowego Magazynu Danych.
Udostępnieniem platformy obliczeniowej dużej mocy zainteresowane są w szczególności zespoły badawcze w Politechnice Gdańskiej i Uniwersytecie Gdańskim, instytutach PAN, takich jak: Instytut Maszyn Przepływowych, Instytut Oceanologii, Centrum Biologii Morza i in., w Politechnice Łódzkiej, uczelniach krakowskich i poznańskich korzystających z usług odpowiednio ACK CYFRONET AGH i PCSS, Uniwersytecie i Politechnice Opolskiej, uczelniach wrocławskich korzystających z usług WCSS, PCSS, UMCS w Lublinie, Politechnice Warszawskiej, Uniwersytecie Zielonogórskim, Politechnice Częstochowskiej. Zbudowana infrastruktura będzie wykorzystywana m.in. do badań w zakresie chemii kwantowej i molekularnej, farmakologii, numerycznej mechaniki płynów i aerodynamiki, inżynierii chemicznej i procesowej, bioinformatyki, maszyn przepływowych, modelowania molekularnego katalizatorów i procesu koordynacyjnej polimeryzacji olefin, fotometrii gęstych pól gwiazdowych, niskoenergetycznej fizyki cząstek elementarnych, fizyki teoretycznej ciała stałego (nanostruktury), świadomości wzrokowej z wykorzystaniem komputerowych symulacji biologicznych sieci neuronowych, projektowania układów elektroniki molekularnej, itd.

 


  1. Terminologia

Condor - system zarządzania zadaniami i zasobami (workload management system for compute- intensive jobs), http://www.cs.wisc.edu/condor

DWDM - Dense Wavelength Division Multiplexing

Globus - middleware do budowy systemów i aplikacji gridowych, http://www.globus.org

GridLab - A Grid Application Toolkit and Testbed (IST-2001-32133), http://www.gridlab.org

HPC - high performance computing

HTC - high throughput computing

IPv6 - rodzina protokołów IP wersja 6

KKL - Krajowy Klaster Linuxowy (CLUSTERIX)

KKO - Krajowy Klaster Obliczeniowy zarządzany z wykorzystaniem systemu kolejkowego LSF, http://www.man.poznan.pl/research

KMD - Krajowy Magazyn Danych

LSF - Load Sharing Facility

middleware - warstwa pośrednia oprogramowania

OGSA - Open Grid Service Architecture, http://www.globus.org/ogsa

PBS - Portable Batch System, http://www.openpbs.org

PROGRESS - projekt celowy KBN współfinansowany przez SUN Microsystems, http://progress.psnc.pl/

QoS - Quality of Service

SGE - SUN Grid Engine, http://wwws.sun.com/software/gridware/

sieć PIONIER - sieć Polskiego Internetu Optycznego

SMP - symmetric multiprocessor

VO - organizacja wirtualna (Virtual Organization)

VUS - System Użytkowników Wirtualnych, http://vus.man.poznan.pl


[webmaster: Tomasz Jewiarz] [design by white]