Błędy randomizacji w badaniach nad alteplazą – wpływ na jakość dowodów

Czy błędy randomizacji wpływają na jakość dowodów?

Ryzyko biasu randomizacji w badaniach nad alteplazą w udarze mózgu może wpływać na zalecenia kliniczne

Meta-analizy randomizowanych badań klinicznych (RCT) są uznawane za najwyższy poziom dowodów dla zaleceń w wytycznych praktyki klinicznej. Jednak badania te zachowują wszystkie ograniczenia i potencjalne błędy metodologiczne swoich składowych. Nowe badanie opublikowane w czasopiśmie PLOS ONE wskazuje, że dwa kluczowe badania kliniczne dotyczące stosowania alteplazy w udarze niedokrwiennym mózgu – NINDS rt-PA Stroke Study i ECASS-3 – mogły być obarczone istotnym ryzykiem biasu wynikającym z procesu randomizacji, co potencjalnie prowadzi do przeszacowania korzyści z leczenia.

Badacze przeprowadzili szczegółową analizę procesów randomizacji w badaniach klinicznych włączonych do meta-analiz indywidualnych danych pacjentów (IPD) dotyczących alteplazy w ostrym udarze niedokrwiennym. Wykorzystali zarówno jakościową ocenę ryzyka biasu przy użyciu narzędzia Cochrane Risk of Bias 2 (RoB 2), jak i ilościową analizę heterogeniczności zmiennych wyjściowych.

“Metaanalizy są z natury obserwacyjne i zachowują wszystkie obciążenia składowych badań RCT” – zauważają autorzy badania, podkreślając kluczowe znaczenie rzetelnego procesu randomizacji dla wiarygodności wyników.

Według autorów, badanie NINDS rt-PA Stroke Study zostało ocenione jako obarczone wysokim ryzykiem biasu wynikającym z procesu randomizacji, podczas gdy ECASS-3 wzbudziło pewne obawy. Pozostałe pięć analizowanych badań (ATLANTIS, ECASS-2, EPITHET i IST-3) oceniono jako mające niskie ryzyko biasu randomizacji.

Kluczowe problemy metodologiczne w badaniach nad alteplazą:

Badania NINDS rt-PA Stroke Study i ECASS-3 obarczone wysokim ryzykiem biasu randomizacji
Permutowana randomizacja blokowa umożliwiała przewidywanie przydziału pacjentów
Około 2% średniego efektu leczenia można przypisać błędom selekcji
Po wykluczeniu problematycznych badań, bezwzględna różnica ryzyka spadła z 3% do 1%

Jakie narzędzia weryfikują rzetelność randomizacji?

Czy takie problemy metodologiczne mogą wpływać na rzeczywiste efekty leczenia obserwowane w praktyce klinicznej? Autorzy twierdzą, że tak – szacują, że około 2% średniego efektu leczenia (ATE) w meta-analizach można przypisać właśnie błędom selekcji wynikającym z wadliwej randomizacji.

Szczególnie problematyczne okazało się zastosowanie w obu badaniach permutowanej randomizacji blokowej, która ułatwia przewidywalność przyszłych przydziałów i może prowadzić do korzystniejszej selekcji pacjentów w ramieniu eksperymentalnym. W badaniu NINDS rt-PA Stroke Study zastosowano zmienne wielkości bloków, natomiast w ECASS-3 użyto stałej wielkości bloku wynoszącej cztery.

Permutowana randomizacja blokowa to metoda, w której uczestnicy są przydzielani do grup w określonych “blokach”, aby zapewnić równą liczebność grup. Jednak gdy stosuje się małe bloki (np. o wielkości 4), ostatnia alokacja jest w 100% przewidywalna w 1/3 permutacji sekwencji bloków, co może prowadzić do biasu selekcji trzeciego rzędu.

Badacze przeanalizowali trzy ciągłe zmienne wyjściowe: wiek, wynik w Skali Udarowej Narodowego Instytutu Zdrowia (NIHSS) i wagę pacjentów. Wiek i wynik NIHSS wybrano ze względu na ich status najważniejszych zmiennych prognostycznych dla wyników udaru niedokrwiennego, natomiast wagę wybrano jako zmienną walidacyjną. Dla każdej zmiennej obliczono statystykę t z niezależnego testu t dla dwóch próbek, a następnie przeprowadzono meta-analizę efektów stałych, aby zmierzyć heterogeniczność za pomocą wskaźnika I².

Fiksowa metaanaliza dla wieku wykazała, że badanie NINDS rt-PA Stroke Study było jedynym, w którym 95% przedział ufności nie obejmował zera. Heterogeniczność była obecna (I² = 15%, 95% CI 0-50%). Wykluczenie tego badania było konieczne, aby osiągnąć brak heterogeniczności (I² = 0%). Podobnie w przypadku analizy wagi pacjentów, badanie NINDS okazało się jedynym, którego wykluczenie eliminowało heterogeniczność. Z kolei w analizie wyniku w skali NIHSS, to badanie ECASS-3 było jedynym, dla którego 95% przedział ufności nie obejmował zera.

Warto podkreślić, że w badaniu NINDS rt-PA Stroke Study występowały nierównowagi w wyjściowym stosowaniu aspiryny, wyjściowej ciężkości udaru mierzonej wynikiem NIHSS, podtypie udaru i wyjściowej tomografii komputerowej (CT), wszystkie faworyzujące ramię alteplazy. Z kolei w badaniu ECASS-3 podobnie wystąpiła nierównowaga w wyjściowym wyniku NIHSS, a dodatkowo nierównowaga w statusie wcześniejszego udaru, również faworyzująca ramię alteplazy.

Jakie są konsekwencje tych ustaleń dla praktyki klinicznej? Po wykluczeniu obu podejrzanych badań, łączna bezwzględna różnica ryzyka dla wszystkich włączonych badań zmniejszyła się z 3% (95% CI, -1% – 8%) do 1% (95% CI, -4% – 6%). Wskaźnik I² dla wszystkich badań wynosił 58%, a po usunięciu NINDS rt-PA Stroke Study i ECASS-3 zmniejszył się do 50%.

“Nasze wyniki mają istotne implikacje dla metaanaliz i zaleceń wytycznych praktyki klinicznej dotyczących alteplazy w ostrym udarze niedokrwiennym” – piszą autorzy badania. “Dostosowania kowariancyjne nie kontrolują odpowiednio tego błędu, ponieważ wadliwa randomizacja może prowadzić do ukrytych nierównowag kowariancyjnych.”

Rekomendacje dla przyszłych badań klinicznych:

Stosowanie lepszych metod randomizacji (procedura asymptotyczna maksymalna, prosta randomizacja, minimalizacja)
Dokładne raportowanie planowanych proporcji alokacji
Szczegółowe informacje o liczbie pacjentów poddanych skriningowi/randomizacji
Transparentne wyjaśnienie metod utrzymywania tajności przyszłych przydziałów grup
Systematyczna ocena równomiernego rozłożenia charakterystyk uczestników między grupami

Czy ograniczenia randomizacji zmienią podejście do terapii?

Autorzy zwracają uwagę, że w badaniu NINDS rt-PA Stroke Study randomizacja była zdecentralizowana, co mogło dodatkowo zwiększać ryzyko błędów. Ponadto, w tym badaniu koperty z przydziałami do leczenia były dołączone do zestawów badawczych w celu awaryjnego odślepienia w przypadku zdarzeń niepożądanych. Na koniec badania szesnaście kopert zostało otwartych w celu odślepienia, z czego osiem nie miało wymienionych powodów bezpieczeństwa. Dla porównania, tylko pięć kopert zostało otwartych w celu odślepienia w badaniu ECASS-2, które miało większą wielkość próby.

Autorzy sugerują, że siła rekomendacji dotyczących stosowania alteplazy w ostrym udarze niedokrwiennym, obecnie określana jako “silna”, powinna zostać ponownie rozważona w oparciu o ograniczenia w jakości dowodów. Zwracają również uwagę na konieczność stosowania lepszych metod randomizacji w przyszłych badaniach klinicznych, takich jak procedura asymptotyczna maksymalna, prosta randomizacja czy minimalizacja.

Problem biasu selekcji może być szerszy niż się powszechnie uważa. Autorzy przytaczają przykład niedawnego badania trombolitycznego, w którym zastosowano stratyfikowaną randomizację blokową, co doprowadziło do nierównych przydziałów grup według czynnika stratyfikującego i dziesięciu czynników wyjściowych faworyzujących ramię trombolityczne, co budzi obawy o błąd selekcji.

Badanie ma pewne ograniczenia, w tym brak dostępu do harmonogramów randomizacji, co uniemożliwiło obliczenie odwrotnego wyniku skłonności (RPS) w celu ostatecznego wykrycia i skorygowania błędu selekcji. Autorzy nie mogli również replikować wielu analiz podgrup opublikowanych w metaanalizach IPD, choć zaznaczają, że każda podgrupa zachowałaby błąd systematyczny znaleziony w zbiorczym oszacowaniu wszystkich badań. Nie zajmowano się również innymi ograniczeniami metaanaliz IPD, takimi jak odślepienie w badaniu IST-3, obsługa brakujących wyników czy włączenie badań RCT o małej wielkości próby.

Mocną stroną badania jest zastosowanie agnostycznej, zwalidowanej analizy wykorzystującej dane zbiorcze do oceny randomizacji. Procedura ta została zastosowana w metaanalizach kwasu traneksamowego w krwotoku poporodowym, suplementacji witaminy K na gęstość mineralną kości i złamania, skuteczności blokady mięśnia poprzecznego brzucha w histerektomii, interwencji w leczeniu pierwotnego zamrożonego barku oraz atypowych leków przeciwpsychotycznych w demencji, co sugeruje silną walidację zewnętrzną.

Omawiane badanie przypomina lekarzom o konieczności krytycznej oceny dowodów, nawet tych uznawanych za najwyższy poziom w hierarchii medycyny opartej na dowodach. Podkreśla również znaczenie dokładnego raportowania metod randomizacji w badaniach klinicznych, co jest niezbędne do właściwej oceny ryzyka biasu i interpretacji wyników. Autorzy zalecają, aby przyszłe badania kliniczne uwzględniały szczegółowe raportowanie planowanych proporcji alokacji, liczby pacjentów poddanych skriningowi/randomizacji według przydzielonej grupy, informacji o wielokrotnym skriningu uczestników, wyjaśnienia jak utrzymywano w tajemnicy przyszłe przydziały grup oraz oceny i raportowania czy charakterystyki uczestników były równomiernie rozłożone między grupami.

Czy wyniki tego badania zmienią podejście do stosowania alteplazy w praktyce klinicznej? Czy doprowadzą do rewizji wytycznych klinicznych? To pozostaje kwestią otwartą, ale z pewnością stanowią ważny głos w dyskusji na temat jakości dowodów, na których opieramy nasze decyzje terapeutyczne.

Podsumowanie

Nowa analiza opublikowana w PLOS ONE wykazała, że dwa kluczowe badania kliniczne dotyczące stosowania alteplazy w udarze niedokrwiennym mózgu (NINDS rt-PA Stroke Study i ECASS-3) mogły być obarczone znaczącym ryzykiem biasu wynikającym z procesu randomizacji. Głównym problemem okazało się zastosowanie permutowanej randomizacji blokowej, która umożliwiała przewidywanie przyszłych przydziałów pacjentów do grup. W rezultacie około 2% średniego efektu leczenia w meta-analizach można przypisać błędom selekcji. Po wykluczeniu obu problematycznych badań, łączna bezwzględna różnica ryzyka dla wszystkich badań zmniejszyła się z 3% do 1%. Autorzy sugerują potrzebę ponownego rozważenia siły rekomendacji dotyczących stosowania alteplazy w udarze niedokrwiennym oraz zalecają stosowanie lepszych metod randomizacji w przyszłych badaniach klinicznych. Wyniki te podkreślają znaczenie krytycznej oceny dowodów naukowych, nawet tych uznawanych za najwyższy poziom w hierarchii medycyny opartej na dowodach.

Bibliografia

Garg Ravi, Torrealba-Acosta Gabriel, Mickenautsch Steffen, Berger Vance W., Bilgin Cem, Bilgin Cem and Bilgin Cem. A methodological assessment of randomization integrity in alteplase for acute ischemic stroke individual patient data meta-analyses. PLOS One 2025, 20(3), e344-418. DOI: https://doi.org/10.1371/journal.pone.0315342.