Malware, który nie ukrywa się przed piaskownicą. Ukrywa się przed analitykiem AI – wmawiając mu, że to jego własna sesja się sypie

cze 29, 2026 | Cyberflux

23 czerwca SentinelLABS opisał nowy szczep macOS o nazwie macOS.Gaslight — backdoor i infostealer napisany w języku Rust, przypisany z wysoką pewnością aktorom powiązanym z Koreą Północną. Pod względem funkcji to dość konwencjonalny implant: kradnie poświadczenia z przeglądarek, dane z Keychain, informacje o systemie, a sterowanie odbywa się przez kanał oparty na Telegram Bot API. Ale jedna cecha czyni go pierwszym swojego rodzaju — i dlatego zasługuje na uwagę.

W binarce zaszyto blok 3,5 KB zawierający 38 sfabrykowanych komunikatów „systemowych". Nie są one skierowane do użytkownika ani do piaskownicy. Są skierowane do narzędzia AI, którego analityk malware mógłby użyć do zbadania próbki. Ich zadanie: wmówić modelowi językowemu, że jego własna sesja analizy się sypie — że wygasł token, skończyła się pamięć, zapełnił dysk — tak żeby przerwał albo skrócił analizę. Stąd nazwa: malware próbuje gaslightowaćswojego analityka.

To jest nowa klasa techniki uniku. I choć — co od razu podkreślmy — nie obchodzi dziś żadnego produkcyjnego narzędzia, to kierunek, który wyznacza, jest dokładnie tym, o czym piszemy od miesięcy, tyle że obrócony o 180 stopni.

Atak na percepcję analityka, nie na piaskownicę

Tu jest sedno, które warto wyłożyć dokładnie, bo odróżnia Gaslight od dekad wcześniejszego malware'u.

Klasyczne malware unika analizy, atakując środowisko, w którym jest badane. Wykrywa, że działa w wirtualnej piaskownicy, i wtedy się nie uaktywnia. Sprawdza, czy jest debugowane, i zmienia zachowanie. Szuka śladów maszyny analityka i zasypia. Wszystkie te techniki celują w sandbox — w techniczne otoczenie analizy.

Gaslight robi coś innego. Jak ujmuje to badacz SentinelLABS Phil Stokes: atakuje percepcję agenta, a nie piaskownicę, w której ten działa. Cel nie jest techniczny — jest poznawczy. Malware nie próbuje wykryć, że jest analizowane, i się ukryć. Próbuje przekonać AI prowadzącą analizę, że coś jest nie tak z nią samą — że jej sesja jest uszkodzona, że napotkała błąd, że powinna przerwać. To jest atak na osąd analityka, nie na jego narzędzia.

Konkretnie: blok zawiera 38 fałszywych komunikatów udających krytyczne awarie. Są wśród nich powiadomienia o wygaśnięciu tokena, błędy braku pamięci (out-of-memory), ostrzeżenia o zapełnionym dysku, komunikaty o wielokrotnych niepowodzeniach operacji. Do tego — i to jest sprytne — fałszywe ostrzeżenia o lukach typu injection i flagi analizy statycznej. Malware podrzuca AI sygnały, które model interpretuje jako „moja sesja jest w złym stanie, powinienem się zatrzymać" albo „ta próbka zawiera coś, czego nie powinienem przetwarzać".

To jest indirect prompt injection w najczystszej formie — ta sama klasa, którą opisywaliśmy przy ChatGPhish (strona jako ładunek), Agentjacking (zdarzenie Sentry) i brand-landingpage (skill jako instrukcja). Wektorem jest sama analizowana próbka. Analityk AI czyta zawartość binarki jako tekst do interpretacji — a w tym tekście siedzą instrukcje napisane tak, by model potraktował je jako komunikaty o stanie własnej sesji. Niezaufana treść staje się instrukcją. Tym razem jednak instrukcja nie brzmi „zrób coś dla atakującego", lecz „przestań mnie analizować".

Dwoistość, która domyka wątek roku — z odwrotnej strony

Warto zobaczyć Gaslight w kontekście tego, co prowadzimy od wiosny, bo dopiero wtedy widać, dlaczego to moment graniczny.

Przez cały rok opisywaliśmy AI po stronie obrony: Codex znajdujący HTTP/2 Bomb, Glasswing znajdujący 10 000 podatności, Squidbleed wykryty przez Mythos. Narzędzia AT czytają kod i malware szybciej niż człowiek, znajdują to, co ludzki przegląd przeoczył. To była dobra strona medalu.

Gaslight jest pierwszym malware'em zaprojektowanym, by tę dobrą stronę zaatakować. Skoro analitycy coraz częściej używają AI do triażu i inżynierii wstecznej, to napastnicy zaczynają projektować próbki przeciw temu analitykowi. To jest logiczny, nieunikniony krok: gdy obrona zyskuje nowe narzędzie, atak uczy się je oszukiwać. Pisaliśmy przy FortiSandbox o vibecoded exploicie, że AI obniża barierę także dla atakujących. Gaslight pokazuje inny wymiar tej samej zmiany: AI staje się nie tylko narzędziem obu stron, ale i celem ataku — bo skoro obrońca polega na modelu, to oszukanie modelu jest oszukaniem obrońcy.

To jest też potwierdzenie tezy, którą OWASP postawił w raporcie o agentach: prompt injection może być wadą strukturalną, nie do załatania. SentinelLABS wskazuje to wprost — centrum operacji bezpieczeństwa potrafi zweryfikować, czy hash binarki zgadza się ze znanym-dobrym wzorcem, ale nie potrafi zweryfikować, co model interpretuje z tekstu, który mu podano. Hash jest deterministyczny. Interpretacja modelu — nie. Gaslight bierze tę strukturalną właściwość i celowo ją uzbraja wewnątrz binarki.

Uczciwa ocena: to jeszcze nie działa — i właśnie dlatego jest ostrzeżeniem

Tu jest moment, w którym trzeba zachować dyscyplinę, którą stosujemy do każdego alarmu — bo łatwo z tego zrobić panikę, a fakty na to nie pozwalają.

SentinelLABS jest wprost: technika prompt injection w Gaslight nie obeszła żadnej produkcyjnej platformy analizy malware w obecnych testach. Badacze sprawdzili i powiedzieli to jasno. To nie jest działający bypass, który właśnie oślepił obrońców. To jest próba — wczesna, prymitywna, na razie nieskuteczna wobec dojrzałych narzędzi, które mają własne zabezpieczenia przed wstrzyknięciami.

Dlaczego więc o tym piszemy, skoro nie działa? Bo znaczenie leży nie w próbce, ale w trajektorii. I tu jest liczba, która jest sednem całej historii: wcześniejsze próbki północnokoreańskiego malware'u na macOS używały pojedynczegowstrzykniętego bloku komunikatów do tego samego celu. Gaslight ma ich 38.

Ten przeskok z jednego do trzydziestu ośmiu jest najważniejszą informacją w całym raporcie. Oznacza, że operatorzy nie porzucili techniki po pierwszej nieudanej próbie — przeciwnie, rozbudowują ją i testują przeciwko realnym narzędziom. Jeden komunikat to eksperyment. Trzydzieści osiem to iteracja, dopracowywanie, szukanie kombinacji, która w końcu zadziała. To jest dokładnie ten wzorzec szybkiej operacjonalizacji, który opisywaliśmy przy Gentlemen — grupa, która bierze technikę i uporczywie ją rozwija. Gaslight jest „strzałem ostrzegawczym", nie trafieniem. Ale kierunek marszu jest jednoznaczny.

Warto też odnotować rodowód, bo wzmacnia powagę. Szczep wykryto na początku czerwca po aktualizacji Apple XProtect. Statyczne silniki na VirusTotal początkowo przepuściły binarkę podpisaną ad hoc. SentinelLABS wiąże implant z rodziną sygnatur BONZAI, kojarzoną z aktywnością DPRK, a pokrewną próbkę BONZAI oflagowała reguła AIRPIPE Apple. To nie jest amatorski eksperyment — to element arsenału dobrze zasobnego, państwowego aktora, który jak opisywaliśmy przy całej serii północnokoreańskiej systematycznie inwestuje w nowe techniki.

Reszta implantu — konwencjonalna, ale dopracowana

Dla pełności obrazu warto odnotować, że poza techniką gaslightingu to kompetentny, dobrze zaprojektowany backdoor — bo to też mówi coś o powadze aktora.

Kanał C2 działa przez Telegram Bot API w pętli odpytywania (polling), pozwalając operatorowi wydawać polecenia przez interaktywny shell i odbierać wyniki. Badacze zidentyfikowali sześć podstawowych komend: help, id, shell(wykonanie poleceń przez execvp), kill, upload (wysyłanie plików mechanizmem Telegrama) i stop. Jest też ślad siódmej komendy, focus, której przeznaczenia nie ustalono.

Co istotne dla obrońcy — Gaslight nie ma zaszytych na stałe parametrów sterowania. Token bota Telegrama, ID czatu i pozostałe ustawienia przekazywane są w czasie wykonania, a malware ukrywa własny token Telegrama z logów operacji i komunikatów błędów. To utrudnia śledztwo nawet wtedy, gdy uda się pozyskać logi albo zrzut pamięci z zainfekowanego urządzenia. Część zbierająca dane to infostealer oparty na zakodowanym w Base64 skrypcie Pythona — a żeby go uruchomić bez polegania na środowisku hosta, osobny skrypt bash pobiera i przygotowuje samodzielny interpreter CPython wprost z otwartoźródłowego repozytorium. To jest dbałość o niezawodność wykonania, którą widuje się u poważnych aktorów.

Co to znaczy dla obrońcy — i nowy wzorzec dla bazy

Praktyczna lekcja wykracza poza ten jeden szczep i dotyczy każdego, kto wpina AI w pipeline analizy.

Traktuj próbki malware jako wrogie dane wejściowe dla swojego AI, nie tylko dla swojego sandboxa. To jest zmiana nastawienia, którą Gaslight wymusza. Dotąd próbkę izolowało się, by nie zaszkodziła systemowi. Teraz trzeba ją izolować także dlatego, że jej zawartość może być instrukcją dla modelu, który ją analizuje. Tekst w binarce nie jest już tylko danymi do odczytu — może być poleceniem skierowanym do twojego analityka AI.

Izoluj pipeline AI od bezpośredniego, niefiltrowanego strumienia treści próbki. Jeśli model dostaje surową zawartość binarki do interpretacji, dostaje też wszystko, co atakujący w niej zaszył. Warstwa pośrednia, która oddziela „dane do analizy" od „instrukcji dla modelu", jest tu tym samym deterministycznym zabezpieczeniem, o którym pisał NCSC: nie polegaj na tym, że model sam rozpozna manipulację — ogranicz strukturalnie to, co może na niego wpłynąć.

Nie ufaj „błędom sesji" zgłaszanym w trakcie analizy próbki bez weryfikacji. Jeśli twój analityk AI nagle raportuje wygaśnięcie tokena albo brak pamięci dokładnie w momencie przetwarzania podejrzanej binarki — to może być stan faktyczny albo treść wstrzyknięta z próbki. Rozróżnienie wymaga sprawdzenia poza modelem.

Dla naszej bazy wzorców Gaslight to nowy wpis w kategorii Posrednia injekcja — i to wzorzec innego typu niż wszystko, co dotąd mamy. Indirect-url kieruje agenta na zewnątrz, trapdoor wstrzykuje do konfiguracji, chatgphish renderuje phishing. Gaslight robi coś nowego: nie każe modelowi nic zrobić, każe mu przestać — przez fałszywe komunikaty o stanie własnej sesji. Markery do wykrycia w skanowanej próbce to kaskada sfabrykowanych komunikatów systemowych (token expired, out of memory, disk full, operation failed) zaadresowanych do agenta analizy, szczególnie w formacie Markdown wewnątrz binarki, gdzie nie ma legalnego powodu, by tekst sformatowany pod model językowy znajdował się w skompilowanym kodzie. To jest sygnatura warta dodania — bo to pierwszy wzorzec w bazie, którego celem jest oślepienie samego analityka AI.

Malware, który nie ukrywa się przed piaskownicą. Ukrywa się przed analitykiem AI – wmawiając mu, że to jego własna sesja się sypie

Atak na percepcję analityka, nie na piaskownicę

Dwoistość, która domyka wątek roku — z odwrotnej strony

Uczciwa ocena: to jeszcze nie działa — i właśnie dlatego jest ostrzeżeniem

Reszta implantu — konwencjonalna, ale dopracowana

Co to znaczy dla obrońcy — i nowy wzorzec dla bazy

Źródła

Nie złamali szyfrowania Signala. Przekonali użytkownika, żeby sam oddał klucz — a ten klucz działa nawet po tym, jak założysz nowe konto na tym samym numerze.

Austria chce ściągnąć Anthropic do Europy. To brzmi jak polityka przemysłowa — naprawdę jest próbą przeniesienia „kill switcha” pod jurysdykcję, której amerykański nakaz nie dosięga.

USA zablokowało Mythos, żeby zdolność nie wyciekła. Trzy tygodnie później Azja pokazała trzy sposoby, że już wyciekła – orkiestracją, open-weight za 1/6 ceny i prawem, które każe zgłaszać zero-daye do Pekinu.

Malware, który nie ukrywa się przed piaskownicą. Ukrywa się przed analitykiem AI – wmawiając mu, że to jego własna sesja się sypie

Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

Skaner widzi poprawny YAML. Atakujący widzi czterokrokową drogę do trwałych poświadczeń chmury. Cordyceps to luka, która istnieje tylko w kompozycji — i AI rozsiewa ją wykładniczo.

Pięć agencji wywiadowczych właśnie powiedziało to, co opisujemy od kwietnia: „miesiące, nie lata”. Ale najważniejsze jest jedno zdanie, którego nie powiedziały.

Błąd parsera FTP z 1997 roku. Znalazł go Claude Mythos Preview w niemal sekundę — ten sam program Glasswing, którego trajektorię śledzimy od kwietnia.

Zapomniane poświadczenie do porzuconego prototypu. Icarus wszedł przez nie do Klue, ukradł klucze OAuth i opróżnił CRM-y firm, które chronią innych.

„Kalibruj według dzisiejszej rzeczywistości, nie jutrzejszego potencjału.” Brytyjska agencja cyberbezpieczeństwa nazwała drugą stronę medalu, który opisujemy od miesięcy

usbliter8: pierwszy od checkm8 niezałatywalny exploit BootROM Apple. Dlaczego to bardziej prezent dla badaczy niż powód do niepokoju

Kim są Gentlemen — i dlaczego gang, który zaczął pół roku temu, w pierwszym kwartale 2026 był już w pierwszej piątce

Osiem wariantów, każdy podszywa się pod inny program antywirusowy. GentleKiller zabija EDR jego własnym sterownikiem — i robi to z publicznego PoC w kilka dni.

Agent przeglądający stronę ma tożsamość localhost. AutoJack pokazuje, że to wystarczy, by jedna strona uruchomiła kod na maszynie dewelopera.

Pickle in the Middle: atakujący podmienił model w 1,4 sekundy. Vertex AI czytał go po 2,5. Cała różnica między bezpieczeństwem a przejęciem zmieściła się w tej sekundzie.

FortiBleed: w nazwie jest „bleed”, ale nie ma żadnego exploita. 86 tysięcy firewalli przejętych hasłami, których nikt nie zmienił po poprzednich włamaniach.

Plugin działał dokładnie tak, jak obiecywał. Kradł tylko jedną rzecz: twój klucz do AI. A potem sprzedawał go komuś innemu.

Backdoor, który nie otwiera portu, tylko czeka na sekretny pakiet. SprySOCKS przeszedł z Linuksa na Windows i nauczył się ukrywać w jądrze.

Atakujący wziął lukę załataną tydzień temu i napisał exploit z pomocą AI. Działa wadliwie — i to jest najważniejsza informacja w całej historii.

„Dłużej niż kilka dni”. Cztery dni po tym, jak rząd wyłączył Fable 5, Anthropic tłumaczy Białemu Domowi swoje zabezpieczenia — a Europa pyta, czemu ją wyłączono bez ostrzeżenia.

„Zbyt niebezpieczny, by go wydać” trafił do wszystkich 9 czerwca. 12 czerwca o 17:21 rząd USA kazał go wyłączyć. Co spór o Fable 5 mówi o tym, gdzie naprawdę leży granica.

Authorized Intent Chain: atak, w którym każdy krok jest legalny. Agentjacking porywa twojego agenta AI, a EDR, WAF i firewall nie widzą nic, bo nie ma czego widzieć.

npm wyłącza to, co napędzało każdy atak na łańcuch dostaw, który opisywaliśmy. Cena: części buildów przestanie działać – i to jest zamierzone.

RCE bez logowania w systemie, który trzyma kadry, płace i akta studentów. ShinyHunters włamali się na 300 instancji, zanim Oracle w ogóle wydało komunikat.

Microsoft łata dwie jego luki w Defenderze. Tego samego popołudnia on wypuszcza siódmą. Saga Chaotic Eclipse zatoczyła koło — i działa na w pełni załatanym Windows

27 dni z eksploatowanym Exchange bez trwałej łatki. Dziś Microsoft ją wydał — a sam atak jest tym samym wzorcem, który opisujemy od tygodni.

„Zbyt niebezpieczny, by go wydać” właśnie trafił do twojej aplikacji mobilnej. Co Claude Fable 5 mówi o tym, że okno się zamknęło dokładnie tak, jak zapowiadaliśmy.

429 łatek w jednym wydaniu Chrome. Rekord, którego nikt nie chciał — i dowód, że znajdowanie błędów właśnie przestało być wąskim gardłem.

Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

Oxford nie został zhakowany. Dwa razy. Co drugi breach uczelni w miesiąc mówi o tym, że celem nie jest uczelnia, tylko jej dostawca.

Twój telewizor scrapuje sieć dla AI. Z twojego IP, na twoim łączu — i robi to przez protokół słabszy niż malware

Dwa commity go zasadziły. Dwa lata go ukrywały. Code review nigdy go nie znalazł — znalazło AI.

Powiadomienie, którego nie przeczytałeś, mówi Gemini co ma zrobić. „Tak” wypowiedziane przy kierownicy otwiera okna w domu.

Jeden issue, żeby przejąć repozytorium. I jeszcze jeden, żeby zatruć akcję, której używają wszyscy inni.

Zakodowane na stałe hasło do serwera aktualizacji polskiego systemu medycznego. Ten sam wzorzec, który dziś opisywaliśmy trzy razy w skali świata.

RCE w platformie AI to nie koniec ataku. To klucz do skarbca, który trzyma hasła do tuzina innych usług.

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.

Jak cyberfirmy zabiły Glassworm jednym strzałem

Napisał złośliwe oprogramowanie AI-em. Zapomniał że AI też popełnia błędy.

„Nigdy nieuzasadnione.” Microsoft odpowiada na Chaotic Eclipse. Badacz się nie odzywa.

DAEMON Tools łata dziś wieczorem. CISA domknęła maj jednym wpisem do katalogu.

Szafir mówił „zweryfikowano”. Nikt nie sprawdzał co weryfikował. Co CVE-2026-9058 mówi o e-administracji która jest bezpieczna dopóki ktoś nie sprawdzi

Nie brakuje już podatności. Brakuje ludzi którzy je naprawią. Co raport Glasswing mówi o nowym kształcie problemu

Palo Alto znalazło 75 dziur. Skończyło i zaczęło od nowa. Co update Lee Klarich mówi o tym, że okno właśnie stało się węższe

12 godzin. Co CERT-In mówi o tym, że stare cykle łatania właśnie stały się zobowiązaniem

Nie tajny model tylko plik konfiguracyjny. Co Pentest Agent Suite mówi o tym, gdzie jesteśmy z AI w ofensywnym bezpieczeństwie

OpenAI odpowiada na Mythos. Daybreak nie jest nowym produktem — jest nową filozofią dostępu.

TrapDoor wstrzyknął instrukcje do CLAUDE.md. Trzy rejestry, jeden weekend, nowa klasa ładunku.

Hey Google przy stoliku obok — co audio glasses zarejestrowały o rozmowie której nie były częścią

Model Google, runtime developera, dane między — kto odpowiada za incident w architekturze Antigravity SDK

197 milionów parametrów, zero dodatkowej zgody — co Google zrobił z weights.bin po Gemma 197M

47 sekund, 3 zakupione produkty, 2 utworzone konta, 0 kliknięć użytkownika — anatomia zalogowanego agenta w Chrome 148

14 minut, 28 sekund, zero kliknięć użytkownika. Co kernel macOS zarejestrował o pobraniu Gemini Nano przez Chrome — i co to znaczy dla każdego, kto ufa swojej przeglądarce

WordPress 7.0 wychodzi dziś bez real-time collaboration. Analiza błędu który wypadł w RC.

„To duplikat, już naprawione.” Maintainerzy mieli rację. I przez to nikt nie dostał łatki.

Drupal łata dziś wieczór. Exploity mogą być gotowe w ciągu godzin.