VirtuDockDL: Platforma oparta na sztucznej inteligencji wspierająca szybsze odkrywanie leków dzięki zaawansowanemu badaniu związków i prognozowaniu wiązań
Odkrywanie nowych leków to złożony, kosztowny i długotrwały proces, w którym odsetek niepowodzeń jest bardzo wysoki. Zazwyczaj tylko jedna skuteczna substancja lecznicza zostaje wybrana spośród miliona testowanych związków chemicznych. Zaawansowane technologie przesiewania związków chemicznych, takie jak wysokoprzepustowe (HTS) i ultrawysokoprzepustowe (uHTS) testy, umożliwiają szybkie badanie ogromnych bibliotek związków, co pozwala firmom farmaceutycznym i biotechnologicznym na eksplorację większej liczby chemikaliów i badań nad nowymi celami biologicznymi. Mimo tych postępów, nadal istnieją wyzwania do pokonania, takie jak ograniczone postępy w identyfikacji nowych celów terapeutycznych oraz problemy z jakością danych. W tym kontekście uczenie maszynowe (ML) i głębokie uczenie (DL) oferują obiecujące rozwiązania, które mogą znacząco usprawnić proces odkrywania leków, dostarczając wglądów opartych na danych oraz umożliwiając bardziej precyzyjną identyfikację potencjalnych kandydatów na nowe leki.
VirtuDockDL – Narzędzie wspomagające odkrywanie leków
VirtuDockDL to platforma oparta na języku Python, zaprojektowana przez zespół badaczy z Instytutu Biologii Molekularnej i Biotechnologii na Uniwersytecie w Lahore, Laboratorium Omiki Integracyjnej i Modelowania Molekularnego na Uniwersytecie Rządowym w Faisalabadzie (GCUF), Uniwersytet w Shenzhen oraz Uniwersytet w Taifie. Wykorzystuje ona głębokie uczenie (deep learning) do usprawnienia procesu odkrywania leków. Kluczowym elementem platformy jest wykorzystanie sieci neuronowej grafów (GNN) do przewidywania skuteczności związków chemicznych. VirtuDockDL osiągnęło imponującą dokładność na poziomie 99% podczas testów na bazie danych HER2, przewyższając tym samym inne narzędzia, takie jak DeepChem czy AutoDock Vina.
Platforma oferuje zautomatyzowaną strukturę, która integruje tworzenie grafów molekularnych, wirtualne przesiewanie oraz klasteryzację związków. Dzięki temu możliwe jest szybkie i efektywne identyfikowanie potencjalnych leków, co stanowi istotny krok naprzód w badaniach farmaceutycznych wspomaganych sztuczną inteligencją.
Procesy analizy i przetwarzania
VirtuDockDL to kompleksowa platforma, która wykorzystuje sieć neuronową grafów do przewidywania i przesiewania biologicznie aktywnych związków. Na początku dane molekularne są kodowane w formacie SMILES, a następnie przekształcane w reprezentacje grafowe za pomocą narzędzia RDKit, które są dalej przetwarzane przez architekturę GNN opartą na PyTorch Geometric. Taka transformacja pozwala GNN na naukę złożonych relacji strukturalnych w molekułach oraz przewidywanie ich właściwości, takich jak aktywność molekularna czy zdolność wiązania.
Architektura GNN w VirtuDockDL składa się z kilku warstw konwolucji grafowej, które wychwytują cechy molekularne na różnych poziomach hierarchicznych. Do stabilizacji procesu treningu i poprawy dokładności predykcji wykorzystuje się takie techniki jak normalizacja partii (batch normalization), dropout oraz połączenia resztkowe (residual connections). Proces ten łączy reprezentacje oparte na grafach z deskryptorami chemioinformatycznymi i odciskami molekularnymi (fingerprints), co zapewnia bogaty zestaw cech do precyzyjnego przewidywania aktywności związków.
Narzędzia do wirtualnego przesiewania i klasteryzacji
Platforma VirtuDockDL oferuje również narzędzia do wirtualnego przesiewania i klasteryzacji, które umożliwiają użytkownikom ocenę dużych bibliotek związków chemicznych w kontekście określonych celów białkowych. Klasteryzacja przesianych związków, oparta na przewidywanej aktywności, jest realizowana za pomocą modeli mieszanki gaussowskiej (GMM), a jakość klasteryzacji oceniana jest za pomocą metryk takich jak współczynnik Silhouette oraz wynik Davies-Bouldina. Co więcej, platforma wspiera udoskonalanie struktury białka przy użyciu narzędzia OpenMM oraz dokowanie ligandów za pomocą AutoDock Vina, co pozwala na przewidywanie zdolności wiązania molekuł.
W ramach badań nad wirusem Marburg, VirtuDockDL został zastosowany do analizy białka VP35. Wygenerowano zestawy danych pozytywnych i negatywnych, a model GNN skutecznie klasyfikował związki za pomocą funkcji straty krzyżowej entropii oraz optymalizatora RMSprop. Wyniki wirtualnego przesiewania oraz dokowania, w tym kluczowe wskaźniki takie jak AUC, dokładność czy wynik F1, są automatycznie wizualizowane, co dostarcza praktycznych wniosków na temat potencjalnych inhibitorów VP35 w kontekście odkrywania leków.
Przyjazny interfejs użytkownika
VirtuDockDL wyróżnia się także przyjaznym interfejsem graficznym (GUI), opartym na frameworku Flask. Użytkownicy mogą łatwo przesyłać molekuły, inicjować zadania oraz pobierać wyniki, co sprawia, że korzystanie z platformy jest intuicyjne. Funkcjonalności są zorganizowane w zakładkach, co dodatkowo ułatwia nawigację. Podczas testów model GNN, trenowany na aktywnych i nieaktywnych molekułach białka VP35, osiągnął imponującą dokładność na poziomie 97,79%, a wartość AUC wyniosła aż 0,9972. Po ponownym przesianiu inhibitorów niekowalencyjnych z baz danych ZINC i PubChem, zidentyfikowano 146 potencjalnych kandydatów.
Dalsze testy przeprowadzone na zestawach danych dla HER2, beta-laktamazy oraz CYP51 wykazały, że VirtuDockDL przewyższa inne narzędzia, takie jak PyRMD, RosettaVS, MzDOCK, AutoDock Vina oraz Glide, w kontekście przewidywania zdolności wiązania związków. Dzięki zintegrowaniu zarówno przesiewania opartego na ligandach, jak i strukturze, platforma zapewnia wydajne i dokładne wyniki wirtualnego przesiewania.
Podsumowanie
VirtuDockDL to nowoczesna platforma internetowa oparta na języku Python, która wykorzystuje głębokie uczenie do usprawnienia procesu odkrywania leków. Dzięki zastosowaniu sieci neuronowej grafów (GNN) do przesiewania związków chemicznych, narzędzie to wykazuje się wyjątkową dokładnością predykcji oraz praktycznym zastosowaniem w badaniach nad różnorodnymi celami biologicznymi. VirtuDockDL osiągnęło 99% dokładności oraz wynik F1 na poziomie 0,992 na bazie danych HER2, przewyższając tym samym inne popularne narzędzia. Dzięki pełnej automatyzacji i przyjaznemu interfejsowi, platforma ta stanowi efektywne i oszczędne narzędzie do wspierania badań farmaceutycznych, co może przyczynić się do rozwiązania pilnych wyzwań zdrowotnych.