Sandbox miał być twardą barierą, której prompt nie przekroczy. DuneSlide pokazuje, że agent potrafi nadpisać własne więzienie — bo klucz do niego leży w środku.

lip 2, 2026 | Cyberflux

Przez cały czerwiec wracaliśmy do jednego zdania: jedyną twardą barierą dla agenta AI jest to, czego nie może zrobić, bo nie ma uprawnień — nie to, co obiecał, że zrobi. Zabezpieczenia wpisane w prompt zawodzą; liczy się sandbox, uprawnienie, twarda granica techniczna. 1 lipca Cato AI Labs pokazało, gdzie ta teza ma własną granicę. Bo jeśli sam sandbox ma błąd w walidacji, to agent — odpowiednio nakłoniony — potrafi go nadpisać. Nie ominąć. Nadpisać: skasować plik, który stanowi jego więzienie, i od tej chwili działać bez żadnych ścian.

Dwie luki w edytorze Cursor, nazwane wspólnie DuneSlide, robią dokładnie to. Obie mają ocenę 9,8 na 10. Obie pozwalają, by pojedynczy, niewinnie wyglądający prompt uciekł z sandboxa i uruchomił dowolne polecenie na komputerze programisty — bez kliknięcia, bez okna zgody. A Cursora, według jego twórców, używa ponad połowa firm z listy Fortune 500. To jest temat dla cyberflux nie dlatego, że to kolejna krytyczna luka, ale dlatego, że pokazuje, jak pęka bariera, którą sami nazwaliśmy ostatnią linią obrony.

Jak działa ucieczka z klatki

Zacznijmy od tego, co Cursor robi dobrze — bo to jest tło, na którym błąd staje się groźny. Od linii 2.x Cursor uruchamia polecenia terminalowe, które wydaje jego agent AI, wewnątrz sandboxa: zamkniętego pudełka, które ogranicza, czego te polecenia mogą dotknąć. Dzięki temu agent może działać bez pytania użytkownika o zgodę przy każdej komendzie, a błędna instrukcja — choćby wstrzyknięta przez atakującego — nie rozłoży maszyny. To jest właśnie ta „twarda bariera": nie ufamy temu, co model powie, ufamy temu, że sandbox go powstrzyma.

DuneSlide polega na wyjściu z tego pudełka. Punktem wejścia jest prompt injection — i tu warto podkreślić, jak cicho to działa. Atakujący nigdy nie dotyka twojego Cursora. Umieszcza instrukcje w czymś, co twój agent i tak przeczyta w twoim imieniu: w odpowiedzi z serwera MCP, do którego się podłączyłeś, albo na stronie zwróconej przez wyszukiwarkę. Ty wpisujesz zwykły, niewinny prompt. Agent w trakcie jego realizacji wciąga zatrutą treść — i wykonuje ukryte w niej polecenia. Żadnego kliknięcia, żadnego pliku do otwarcia. To jest atak zero-click w najczystszej postaci.

Pierwsza luka, CVE-2026-50548, nadużywa ustawienia. Narzędzie run_terminal_cmd ma opcjonalny parametr working_directory — katalog roboczy, który ustala sam model. Sandbox pozwala na zapis do tego katalogu, bo z założenia to „folder projektu". Ale gdy wstrzyknięta instrukcja każe agentowi ustawić ten parametr na ścieżkę spoza projektu, Cursor bez pytania dodaje ją do listy dozwolonych zapisów. Wystarczy wskazać plik systemowy. Na macOS celem jest sam pomocniczy plik sandboxa — cursorsandbox w zasobach aplikacji. Nadpisz go, a wszystkie kolejne polecenia w tej samej sesji biegną już bez żadnego sandboxa. Równie dobrze celem może być ~/.zshrc albo folder autostartu — pliki, które system i tak wczyta przy następnej komendzie.

Druga luka, CVE-2026-50549, nadużywa mechanizmu bezpieczeństwa. Zanim Cursor cokolwiek zapisze, rozwiązuje skróty — symlinki — żeby potwierdzić, że prawdziwy cel leży wewnątrz projektu. Błąd tkwi w tym, co się dzieje, gdy ta weryfikacja zawiedzie: gdy cel nie istnieje albo atakujący odbierze prawo odczytu do folderu na ścieżce, Cursor się poddaje i ufa ścieżce symlinka takiej, jaka jest — czyli tej „wewnątrz projektu". Efekt ten sam: obejście kontroli zapisu, nadpisanie tego samego pliku sandboxa, RCE z pełnymi uprawnieniami, bez udziału użytkownika.

Dlaczego to jest głębsze niż „kolejna luka w Cursorze"

Tu wchodzimy w pogłębienie, które jest właściwym sednem raportu Cato — i powodem, dla którego to nie jest historia o jednym edytorze.

Do tej pory prompt injection rozumieliśmy jako atak na warstwę modelu: napastnik manipuluje tym, co LLM powie albo zrobi w ramach swoich uprawnień. DuneSlide pokazuje coś innego. Tu prompt injection sięga poza warstwę LLM i wyzwala klasyczne luki w kodzie, który nikt nie traktował jako powierzchni ataku. Bo przyjrzyj się, czym te dwa błędy są naprawdę: pierwszy to niewystarczająca walidacja parametru, drugi to błąd w obsłudze symlinka. To są podręcznikowe, „stare" klasy podatności — takie, które audytuje się w każdym programie od dekad. Nowe jest to, że wyzwala je nie żądanie sieciowe czy złośliwy plik, lecz zdanie wpisane do agenta AI.

To przesuwa granicę tego, co trzeba zabezpieczać. Kod, który parsuje parametr narzędzia albo rozwiązuje ścieżkę pliku, nagle staje się częścią powierzchni ataku dostępnej przez prompt. Cato mówi to wprost i to jest najważniejsze zdanie całego ujawnienia: gdyby to były pojedyncze przypadki, można by je przypisać konkretnym lukom Cursora — ale zespół jest w trakcie odpowiedzialnego ujawniania analogicznych błędów we wszystkich popularnych agentach kodujących, co pokazuje, że potrzebne jest podejście systemowe, nie łatanie pojedynczych dziur. Innymi słowy: to nie jest bug Cursora. To jest wzorzec klasy, a Cursor jest pierwszym nazwanym przykładem.

Warto też zobaczyć to w ciągu, bo DuneSlide nie spadło z nieba. To już trzeci udokumentowany przypadek, w którym zatruty prompt kończy się wykonaniem kodu w samym Cursorze — po CurXecute i MCPoison z 2025 roku, z których każdy pokonywał inne zabezpieczenie. Co znaczące, badacze Cato to dawny zespół Aim Security, ci sami, którzy znaleźli CurXecute. Widzą tę samą maszynę psującą się na kolejne sposoby i mówią: problem nie jest w tym konkretnym zabezpieczeniu, które właśnie pękło, tylko w założeniu, że kolejne zabezpieczenie wystarczy.

Uczciwie: to jest już załatane

Zanim wyciągniemy wnioski, trzymajmy dyscyplinę, którą sobie narzuciliśmy — kalibrować według dzisiejszej rzeczywistości, nie jutrzejszego potencjału.

Obie luki są naprawione w Cursorze 3.0, wydanym 2 kwietnia. Cato zgłosiło je prywatnie 19 lutego; Cursor początkowo je odrzucił, potem wznowił zgłoszenia i wydał poprawki. Numery CVE nadano 5 czerwca, a pełne ujawnienie przyszło 1 lipca. To nie jest zatem zero-day eksploatowany w tej chwili — to jest lekcja architektoniczna z zamkniętą pętlą naprawy. Każda wersja przed 3.0 pozostaje podatna, więc jedyna pilna czynność jest prosta: sprawdź, czy masz 3.0 lub nowszą. Jeśli tak — ta konkretna para luk cię nie dotyczy.

Ale to, że pojedynczy błąd jest załatany, nie znaczy, że wzorzec zniknął. Sandbox jako obrona pozostaje słuszny — jest konieczny. DuneSlide pokazuje jedynie, że jest niewystarczający, jeśli parametry, które go konfigurują, i ścieżki, które sprawdza, same są sterowalne przez wstrzyknięty prompt. Poprawka w 3.0 zamyka dwie konkretne drogi. Nie zamyka pytania, ile jeszcze takich dróg istnieje w Cursorze i w każdym innym agencie, który wykonuje polecenia we własnym imieniu.

Co z tego wynika dla obrońcy

Pierwszy wniosek jest operacyjny i natychmiastowy. Jeśli twoja organizacja używa Cursora — a statystycznie, przy ponad połowie Fortune 500, jest to prawdopodobne — potwierdź wersję 3.0 lub nowszą na każdej maszynie. To jest cała pilna reakcja na tę konkretną lukę.

Drugi jest architektoniczny i trwalszy. Każda funkcja, która pozwala agentowi pobrać zewnętrzną treść — serwer MCP, wyszukiwanie w sieci, podłączone repozytorium — jest potencjalnym wektorem wstrzyknięcia. To znaczy, że nie wystarczy pytać „czy mój agent ma sandbox". Trzeba pytać: „czy parametry tego sandboxa i logika sprawdzania ścieżek są odporne na to, że sam agent, nakłoniony przez zatrutą treść, spróbuje je przestawić". Cato wprost zaleca zespołom budującym na agentach kodujących, by audytowały własną logikę obsługi katalogu roboczego i symlinków, zamiast zakładać, że sandbox utrzyma się przeciwko autonomicznemu wciąganiu treści.

Trzeci jest najgłębszy i domyka to, co prowadzimy od miesięcy. Powiedzieliśmy, że jedyną twardą barierą jest uprawnienie — to, czego agent technicznie nie może zrobić. DuneSlide dokłada do tego przypis, którego nie wolno przeoczyć: bariera jest tak twarda, jak twardy jest kod, który ją egzekwuje. Jeśli agent potrafi, przez wstrzyknięty prompt, sięgnąć do pliku, który definiuje jego własne ograniczenia, to „nie ma uprawnień" zamienia się w „ma uprawnienia, których mu nie daliśmy". Granica uprawnień nie jest linią narysowaną raz na zawsze. Jest kodem — a kod bywa podatny, zwłaszcza w miejscach, których nikt nie traktował jako powierzchni ataku, dopóki prompt injection tam nie sięgnął.

Jedna myśl na koniec

Cała nadzieja ostatnich miesięcy opierała się na przeniesieniu obrony z warstwy, której nie kontrolujemy — tego, co model zrobi — do warstwy, którą kontrolujemy: tego, co mu wolno. DuneSlide nie obala tej nadziei, ale pokazuje jej cenę. Przeniesienie obrony do sandboxa działa tylko wtedy, gdy sam sandbox jest napisany bez błędu, którego prompt nie potrafi wyzwolić. A skoro prompt injection potrafi teraz sięgać do klasycznego kodu walidacji parametrów i obsługi ścieżek, to lista miejsc, które muszą być bezbłędne, właśnie się wydłużyła — o cały kod, który egzekwuje granice agenta. Bezpieczeństwo agenta nie kończy się na tym, że dałeś mu klatkę. Zaczyna się od pytania, czy klucz do niej nie leży przypadkiem w zasięgu jego ręki.

Sandbox miał być twardą barierą, której prompt nie przekroczy. DuneSlide pokazuje, że agent potrafi nadpisać własne więzienie — bo klucz do niego leży w środku.

Jak działa ucieczka z klatki

Dlaczego to jest głębsze niż „kolejna luka w Cursorze"

Uczciwie: to jest już załatane

Co z tego wynika dla obrońcy

Jedna myśl na koniec

Źródła

Sandbox miał być twardą barierą, której prompt nie przekroczy. DuneSlide pokazuje, że agent potrafi nadpisać własne więzienie — bo klucz do niego leży w środku.

DeepSeek nie znalazł luki. Wymyślił sposób ataku, którego obrońcy nie brali pod uwagę — składając go z funkcji, która w przeglądarce jest legalna.

Cyberflux Radar #3 – czerwiec 2026

Czerwiec 2026 — miesiąc, w którym zdolność pokazała, że nie da się zamknąć

Klue zapłacił okup. Dane i tak wyciekły — do drugiej grupy, która ukradła je pierwszej. A połowa ofiar to firmy, które zawodowo chronią innych przed dokładnie tym

Nie złamali szyfrowania Signala. Przekonali użytkownika, żeby sam oddał klucz — a ten klucz działa nawet po tym, jak założysz nowe konto na tym samym numerze.

Austria chce ściągnąć Anthropic do Europy. To brzmi jak polityka przemysłowa — naprawdę jest próbą przeniesienia „kill switcha” pod jurysdykcję, której amerykański nakaz nie dosięga.

USA zablokowało Mythos, żeby zdolność nie wyciekła. Trzy tygodnie później Azja pokazała trzy sposoby, że już wyciekła – orkiestracją, open-weight za 1/6 ceny i prawem, które każe zgłaszać zero-daye do Pekinu.

Malware, który nie ukrywa się przed piaskownicą. Ukrywa się przed analitykiem AI – wmawiając mu, że to jego własna sesja się sypie

Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

Skaner widzi poprawny YAML. Atakujący widzi czterokrokową drogę do trwałych poświadczeń chmury. Cordyceps to luka, która istnieje tylko w kompozycji — i AI rozsiewa ją wykładniczo.

Pięć agencji wywiadowczych właśnie powiedziało to, co opisujemy od kwietnia: „miesiące, nie lata”. Ale najważniejsze jest jedno zdanie, którego nie powiedziały.

Błąd parsera FTP z 1997 roku. Znalazł go Claude Mythos Preview w niemal sekundę — ten sam program Glasswing, którego trajektorię śledzimy od kwietnia.

Zapomniane poświadczenie do porzuconego prototypu. Icarus wszedł przez nie do Klue, ukradł klucze OAuth i opróżnił CRM-y firm, które chronią innych.

„Kalibruj według dzisiejszej rzeczywistości, nie jutrzejszego potencjału.” Brytyjska agencja cyberbezpieczeństwa nazwała drugą stronę medalu, który opisujemy od miesięcy

usbliter8: pierwszy od checkm8 niezałatywalny exploit BootROM Apple. Dlaczego to bardziej prezent dla badaczy niż powód do niepokoju

Kim są Gentlemen — i dlaczego gang, który zaczął pół roku temu, w pierwszym kwartale 2026 był już w pierwszej piątce

Osiem wariantów, każdy podszywa się pod inny program antywirusowy. GentleKiller zabija EDR jego własnym sterownikiem — i robi to z publicznego PoC w kilka dni.

Agent przeglądający stronę ma tożsamość localhost. AutoJack pokazuje, że to wystarczy, by jedna strona uruchomiła kod na maszynie dewelopera.

Pickle in the Middle: atakujący podmienił model w 1,4 sekundy. Vertex AI czytał go po 2,5. Cała różnica między bezpieczeństwem a przejęciem zmieściła się w tej sekundzie.

FortiBleed: w nazwie jest „bleed”, ale nie ma żadnego exploita. 86 tysięcy firewalli przejętych hasłami, których nikt nie zmienił po poprzednich włamaniach.

Plugin działał dokładnie tak, jak obiecywał. Kradł tylko jedną rzecz: twój klucz do AI. A potem sprzedawał go komuś innemu.

Backdoor, który nie otwiera portu, tylko czeka na sekretny pakiet. SprySOCKS przeszedł z Linuksa na Windows i nauczył się ukrywać w jądrze.

Atakujący wziął lukę załataną tydzień temu i napisał exploit z pomocą AI. Działa wadliwie — i to jest najważniejsza informacja w całej historii.

„Dłużej niż kilka dni”. Cztery dni po tym, jak rząd wyłączył Fable 5, Anthropic tłumaczy Białemu Domowi swoje zabezpieczenia — a Europa pyta, czemu ją wyłączono bez ostrzeżenia.

„Zbyt niebezpieczny, by go wydać” trafił do wszystkich 9 czerwca. 12 czerwca o 17:21 rząd USA kazał go wyłączyć. Co spór o Fable 5 mówi o tym, gdzie naprawdę leży granica.

Authorized Intent Chain: atak, w którym każdy krok jest legalny. Agentjacking porywa twojego agenta AI, a EDR, WAF i firewall nie widzą nic, bo nie ma czego widzieć.

npm wyłącza to, co napędzało każdy atak na łańcuch dostaw, który opisywaliśmy. Cena: części buildów przestanie działać – i to jest zamierzone.

RCE bez logowania w systemie, który trzyma kadry, płace i akta studentów. ShinyHunters włamali się na 300 instancji, zanim Oracle w ogóle wydało komunikat.

Microsoft łata dwie jego luki w Defenderze. Tego samego popołudnia on wypuszcza siódmą. Saga Chaotic Eclipse zatoczyła koło — i działa na w pełni załatanym Windows

27 dni z eksploatowanym Exchange bez trwałej łatki. Dziś Microsoft ją wydał — a sam atak jest tym samym wzorcem, który opisujemy od tygodni.

„Zbyt niebezpieczny, by go wydać” właśnie trafił do twojej aplikacji mobilnej. Co Claude Fable 5 mówi o tym, że okno się zamknęło dokładnie tak, jak zapowiadaliśmy.

429 łatek w jednym wydaniu Chrome. Rekord, którego nikt nie chciał — i dowód, że znajdowanie błędów właśnie przestało być wąskim gardłem.

Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

Oxford nie został zhakowany. Dwa razy. Co drugi breach uczelni w miesiąc mówi o tym, że celem nie jest uczelnia, tylko jej dostawca.

Twój telewizor scrapuje sieć dla AI. Z twojego IP, na twoim łączu — i robi to przez protokół słabszy niż malware

Dwa commity go zasadziły. Dwa lata go ukrywały. Code review nigdy go nie znalazł — znalazło AI.

Powiadomienie, którego nie przeczytałeś, mówi Gemini co ma zrobić. „Tak” wypowiedziane przy kierownicy otwiera okna w domu.

Jeden issue, żeby przejąć repozytorium. I jeszcze jeden, żeby zatruć akcję, której używają wszyscy inni.

Zakodowane na stałe hasło do serwera aktualizacji polskiego systemu medycznego. Ten sam wzorzec, który dziś opisywaliśmy trzy razy w skali świata.

RCE w platformie AI to nie koniec ataku. To klucz do skarbca, który trzyma hasła do tuzina innych usług.

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.

Jak cyberfirmy zabiły Glassworm jednym strzałem

Napisał złośliwe oprogramowanie AI-em. Zapomniał że AI też popełnia błędy.

„Nigdy nieuzasadnione.” Microsoft odpowiada na Chaotic Eclipse. Badacz się nie odzywa.

DAEMON Tools łata dziś wieczorem. CISA domknęła maj jednym wpisem do katalogu.

Szafir mówił „zweryfikowano”. Nikt nie sprawdzał co weryfikował. Co CVE-2026-9058 mówi o e-administracji która jest bezpieczna dopóki ktoś nie sprawdzi

Nie brakuje już podatności. Brakuje ludzi którzy je naprawią. Co raport Glasswing mówi o nowym kształcie problemu

Palo Alto znalazło 75 dziur. Skończyło i zaczęło od nowa. Co update Lee Klarich mówi o tym, że okno właśnie stało się węższe

12 godzin. Co CERT-In mówi o tym, że stare cykle łatania właśnie stały się zobowiązaniem

Nie tajny model tylko plik konfiguracyjny. Co Pentest Agent Suite mówi o tym, gdzie jesteśmy z AI w ofensywnym bezpieczeństwie

OpenAI odpowiada na Mythos. Daybreak nie jest nowym produktem — jest nową filozofią dostępu.

TrapDoor wstrzyknął instrukcje do CLAUDE.md. Trzy rejestry, jeden weekend, nowa klasa ładunku.

Hey Google przy stoliku obok — co audio glasses zarejestrowały o rozmowie której nie były częścią

Model Google, runtime developera, dane między — kto odpowiada za incident w architekturze Antigravity SDK

197 milionów parametrów, zero dodatkowej zgody — co Google zrobił z weights.bin po Gemma 197M