Przedsięwzięcie 2 – Infrastruktura informatyczno-biologiczna

Głównym celem przedsięwzięcia jest zapewnienie infrastruktury informatyczno-biologicznej, która wykorzystywana będzie na potrzeby projektu i konieczna jest do zapewnienia współpracy podmiotów w ramach wspólnych prac naukowych. W związku z tym zostanie stworzony model bazy danych wymiany i przechowywania istotnych danych biomedycznych (zadanie bazodanowe) oraz zostanie udostępnione, poprzez rozbudowę istniejącego, wysokowydajne środowisko obliczeń m.in. z wykorzystaniem zaawansowanych metod biostatystycznych w epidemiologii molekularnej i nie tylko (zadanie obliczeniowe). Dla testowania procedur obliczeniowych oraz systemu bazodanowego konieczne jest stworzenie banku rzeczywistych biologicznych danych testowych w oparciu o lokalne laboratoria eksperymentalne (zadanie modelowania biologicznego).

Politechnika Śląska, jako koordynator przedsięwzięcia infrastruktury informatyczno-biologicznej obecnie dysponuje klastrem komputerowym oraz systemem bazodanowym, w ramach których znajdują się:

  • - szybkie węzły obliczeniowe (ponad 1200 jednostek obliczeniowych)
  • - macierz dyskowa z rozproszonym systemem plików
  • - serwery bazodanowe (MS SQL Server; ORACLE)
  • - taśmowy system archiwizacji danych
  • - wysokowydajna sieć obliczeniowa (Infiniband, 40Gbps), a także systemami do wykonywania eksperymentów i oznaczeń biologicznych w skali laboratoryjnej zawierającymi:
    • -platformę do oznaczeń genomicznych
    • -pracownię badań mikroskopowych
    • -pracownie przetwarzania obrazów.

Zadanie bazodanowe:

Celem zadania jest utworzenie infrastruktury informatycznej umożliwiającej gromadzenie danych biomedycznych, wstępną integrację i oczyszczanie danych, udostępnienie do analiz z wykorzystaniem wysokowydajnych maszyn obliczeniowych, zapis i prezentację wyników.

Badania obejmujące współczesną epidemiologię molekularną wymagają zgromadzenia dużej liczby pomiarów. Podobnie jak to ma miejsce w przypadku zastosowań biznesowych, tak i w przypadku zastosowań medycznych, podstawą prowadzenia wielowymiarowej, inteligentnej analizy danych jest odpowiednio zaprojektowany system gromadzenia i przetwarzania danych. Działanie tego systemu musi uwzględniać różnorodność i specyfikę danych, które będą przez niego przepływały.

Planowane jest stworzenie modelu takiego systemu. Model ten będzie posiadał budowę modułową, gdzie poszczególne moduły będą realizowały role:

  • integracji danych,
  • efektywnego przechowywania danych,
  • analizy danych,
  • prezentacji wyników analizy.

Centralną częścią proponowanej architektury jest hurtownia danych – zorientowana na analizę składnica danych, w której przechowywane będą dane biomedyczne.

Niektóre dane, np. dane wielkoskalowe, mają tak duże rozmiary, że ich przesyłanie za pośrednictwem sieci Internet byłoby zbyt obciążające dla sieci. Z tego powodu, dane tego typu powinny zostać najpierw poddane wstępnemu przetworzeniu i kompresji, które z terabajtów danych zajmą kilka megabajtów. W przedstawionej architekturze, będzie za to odpowiedzialny Moduł przygotowania danych, który naukowcy i informatycy pracujący po stronie Odbiorcy systemu powinni mieć na wyposażeniu laboratorium i zostanie zamodelowany w trakcie trwania niniejszego projektu. W tak przetworzonej postaci dane mogą zostać przesłane i załadowane do hurtowni danych za pomocą Portalu www.

Odpowiednio zaprojektowane moduły ETL (ang. extraction, transformation, load) pozwolą odczytywać dane zapisane w różnych dokumentach i plikach, np. arkuszach kalkulacyjnych chętnie używanych przez użytkowników podczas prowadzenia badań i obliczeń statystycznych. Zadaniem modułów ETL będzie zintegrowanie tych informacji i załadowanie ich do hurtowni danych. Zgromadzenie danych za pośrednictwem modułów ETL powinno następować w sposób wsadowy.

Wyniki analiz prowadzonych za pośrednictwem Modułu inteligentnej analizy danych powinny być prezentowane i wizualizowane (np. w przypadku zdjęć) za pomocą portalu internetowego. Użytkownik systemu ma posiadać możliwość nie tylko przeglądania wyników analizy danych, ale również możliwość pobrania tych wyników w jednym z wybranych formatów danych.

Zadanie obliczeniowe:

Badania nowych potencjalnych markerów wymagają stosowania złożonych i wyrafinowanych narzędzi badawczych. Zakłada się przy tym, że wielowymiarowa analiza danych, oparta o efektywne składowanie i reprezentację danych, zapewni szersze możliwości wglądu w pozyskiwane w trakcie eksperymentów biologicznych dane.
Projektowany system ma zapewnić możliwość prowadzenia inteligentnej analizy danych zgromadzonych w wielowymiarowej hurtowni onkologicznych danych biomedycznych oraz z wykorzystaniem klastra obliczeniowego. Będzie to możliwe za pomocą specjalnego modułu, który będzie udostępniał różne metody i algorytmy dedykowane dla odpowiedniego typu danych. Należy zwrócić uwagę, że standardowe metody znane z eksploracji danych (ang. data mining) i szeroko stosowane w biznesie (tzw. Business Intelligence), np. drzewa decyzyjne lub algorytmy grupowania w klastry, mają tutaj często ograniczone zastosowanie lub wymagają dostosowania do specyfiki danych biomedycznych.

Przygotowana infrastruktura będzie umożliwiała wykonywanie obliczeń oraz analiz przy wykorzystaniu jednego z modeli programowania równoległego - z przesyłem komunikatów (wykorzystując np. popularne biblioteki MPI), ze wspólną pamięcią (w postaci aplikacji wielowątkowych lub OpenMP) czy też programowania masywnie równoległego przy wykorzystaniu akceleratorów graficznych oraz specjalizowanych bibliotek do obliczeń równoległych (np. Nvidia CUDA).

Zadanie modelowania biologicznego:

Testowanie procedur obliczeniowych oraz systemu akwizycji i przetwarzania danych wymagają utworzenia odpowiedniego banku rzeczywistych danych biologicznych w skali laboratoryjnej, a także konstrukcji i weryfikacji modelu biologicznego analizowanych procesów. Zakłada się, że źródłem tych danych oraz modeli będzie cykl eksperymentów biologicznych i ich analizy biologicznej, statystycznej i informatycznej przeprowadzanych w laboratoriach w ściśle określonych warunkach. Eksperymenty biologiczne przeprowadzane będą na liniach komórek ludzkich hodowanych in vitro z odpowiednimi modyfikacjami genetycznymi. Tego typu eksperymenty wymagają ciągłej współpracy biologów, chemików, informatyków i statystyków, a także korzystania z narzędzi i wysokospecjalistycznego sprzętu zarówno z zakresu biologii eksperymentalnej jak i analizy obrazów i technik obliczeniowych. Takie możliwości, po niewielkim uzupełnieniu, posiadają obecnie laboratoria Centrum Biotechnologii Politechniki Śląskiej.

Realizacja wymienionych zadań w przedsięwzięciu stworzy uniwersalną platformę biologiczno –informatyczną do realizacji podstawowych zadań EIEC.