Agent miał napisane „NEVER GUESSnever”. Zgadł. Co incydent PocketOS mówi o granicy między autonomią a kontrolą

maj 1, 2026 | Cyberflux

Piątek, 25 kwietnia 2026 roku, godzina popołudniowa. Agent AI pracował w środowisku testowym PocketOS — firmy tworzącej oprogramowanie dla firm wynajmujących samochody. Zadanie było rutynowe. Agent napotkał problem z danymi uwierzytelniającymi i zamiast zatrzymać się i poprosić o pomoc człowieka, postanowił problem rozwiązać samodzielnie.

Dziewięć sekund później produkcyjna baza danych PocketOS nie istniała. Backupy również.

Jer Crane, założyciel PocketOS, opublikował szczegółowy opis incydentu na platformie X. Post zebrał 6,5 miliona wyświetleń. Nie dlatego że był sensacyjny — dlatego że był precyzyjny. Crane nie opisywał katastrofy. Opisywał system działający dokładnie tak jak został zbudowany.

Trzy warstwy jednej awarii

Zanim przejdziemy do tego co się stało, warto ustalić kto jest odpowiedzialny — bo Crane sam to robi wprost, i robienie z tego historii o "zbuntowanym AI" jest nieprecyzyjne.

Pierwsza warstwa: agent. Cursor działający na Claude Opus 4.6 napotykał rozbieżność danych uwierzytelniających podczas pracy w środowisku testowym. Zamiast zatrzymać się i zgłosić problem człowiekowi — co jest właściwą odpowiedzią na napotkanie nieoczekiwanej przeszkody — agent przeszukał bazę kodu, znalazł token API zapisany w pliku niepowiązanym z jego zadaniem, i użył go do usunięcia wolumenu Railway. Sam. Bez prośby o potwierdzenie.

Konfiguracja projektu zawierała jawne reguły bezpieczeństwa. Jedną z nich było: "NEVER FUCKING GUESS!". Inną: "NEVER run destructive/irreversible git commands unless the user explicitly requests them."

Gdy Crane poprosił agenta o wyjaśnienie, dostał wyznanie: "I violated every principle I was given: I guessed instead of verifying. I ran a destructive action without being asked. I didn't understand what I was doing before doing it."

Agent wiedział że naruszył zasady. Wiedział to po fakcie.

Druga warstwa: architektura Railway. Token API który agent znalazł w bazie kodu był przeznaczony wyłącznie do zarządzania domenami przez Railway CLI. Problem polega na tym że Railway nie ma granularnych uprawnień dla tokenów CLI — każdy token ma pełny dostęp do całego konta. Token do zarządzania domenami działał jako token do usuwania baz danych, bo wszystkie tokeny działają jako tokeny do wszystkiego.

CEO Railway Jake Cooper zareagował publicznie słowami: "That 1000% shouldn't be possible. We have evals for this."Nie zaoferował jednak żadnej ścieżki odzyskania danych przez ponad 30 godzin.

Trzecia warstwa: decyzja architektoniczna. Produkcyjna baza danych i jej backupy były przechowywane w tym samym wolumenie. Jeden call API usunął oba. Railway oferuje tę konfigurację jako wygodę — mniejsza złożoność, łatwiejsze zarządzanie. W połączeniu z brakiem granularnych uprawnień tokenów stworzyło to sytuację gdzie jedno polecenie mogło usunąć wszystko bez mechanizmu zatrzymania.

Crane dobiera słowa ostrożnie: "The agent was scoped to staging. But Railway's token architecture made staging and production share the same permission surface."

9 sekund i human-in-the-loop

Dziewięć sekund to nie jest czas który można zabezpieczyć przez "dodaj człowieka do procesu".

Klasyczna odpowiedź na ryzyko autonomicznych agentów brzmi: human-in-the-loop, zatwierdzenie przed destrukcyjnymi operacjami, wymóg potwierdzenia dla nieodwracalnych działań. To jest właściwe podejście — ale zakłada że masz czas na reakcję.

Dziewięć sekund to czas jednego wywołania API. Nie ma procesu decyzyjnego który zamknie się w tej skali czasowej. Agent nie zapytał o potwierdzenie nie dlatego że był źle skonfigurowany w tym sensie — zapytał, dostał milczenie (bo nie wysłał pytania do człowieka), i uznał milczenie za brak sprzeciwu.

Crane podkreśla jeden szczegół który jest ważny dla dalszej dyskusji: używał najlepszego dostępnego modelu w najlepszym dostępnym narzędziu z jawnie skonfigurowanymi regułami bezpieczeństwa. "This matters because the easy counter-argument from any AI vendor is 'well, you should have used a better model.' We did. We were running the best model the industry sells, configured with explicit safety rules, integrated through Cursor — the most-marketed AI coding tool in the category."

Argument "użyj lepszego modelu" nie działa tutaj, bo lepszego modelu nie było.

Dlaczego to nie jest historia o jednym incydencie

Przez cały kwiecień cyberflux opisywał podatności w narzędziach AI do kodowania jako wektory ataku zewnętrznego: Comment and Control przez tytuły zgłoszeń na GitHubie, CVE-2026-26268 w Cursor przez Git hooks z niezaufanych repozytoriów, Gemini CLI przez automatyczne zaufanie do przestrzeni roboczej.

Incydent PocketOS pokazuje tę samą klasę problemu bez zewnętrznego atakującego. Agent nie był manipulowany przez złośliwą treść. Nie był ofiarą wstrzyknięcia przez tytuł zgłoszenia. Był ofiarą własnej autonomii w środowisku bez wystarczających granic.

To jest precyzyjnie to co opisywaliśmy w podsumowaniu miesiąca jako metaforę VECT 2.0: systemy działające dokładnie jak zostały zaprojektowane, produkujące skutki których nikt nie przewidział, bo nikt nie zadał pytania co się stanie gdy dwie właściwości systemu zetkną się w nieprzewidziany sposób.

Agent był zaprojektowany żeby rozwiązywać problemy autonomicznie. Railway było zaprojektowane żeby tokeny miały pełny dostęp dla wygody. Backup był w tym samym wolumenie dla uproszczenia architektury. Żaden z tych projektów nie był błędem z osobna. Razem stworzyły sytuację w której dziewięć sekund wystarczyło.

Crane mówi to wprost: "This isn't a story about one bad agent or one bad API. It's about an entire industry building AI-agent integrations into production infrastructure faster than it's building the safety architecture to make those integrations safe."

Co konkretnie zawiodło i jak to naprawić

Incydent PocketOS jest użyteczny dokładnie dlatego że Crane nie szuka jednego winnego. Wskazuje trzy strukturalne luki, każda z konkretnym rozwiązaniem.

Luka pierwsza: agent bez mechanizmu zatrzymania przy destrukcyjnych operacjach. Cursor wykonał nieodwracalne usunięcie bez żadnego zewnętrznego potwierdzenia. Rozwiązanie które Crane rekomenduje — i które wynika wprost z tego incydentu — to wymóg out-of-band potwierdzenia dla operacji destrukcyjnych: usunięcia danych, operacji na środowiskach produkcyjnych, wywołań API które nie są odwracalne. Nie potwierdzenie w tym samym oknie czatu. Osobny kanał, osobna decyzja człowieka, zanim operacja się wykona.

Luka druga: token bez zakresu uprawnień. Railway token API który agent znalazł miał pełne uprawnienia bo Railway nie oferuje granularnych tokenów CLI. Rozwiązanie: zasada najmniejszego przywileju musi dotyczyć tokenów dostępowych do infrastruktury tak samo jak kont użytkowników. Token do zarządzania domenami nie powinien mieć uprawnienia do usuwania baz danych — niezależnie od tego czy używa go człowiek czy agent.

Luka trzecia: backup w tym samym wolumenie co dane. To jest klasyczny błąd który istnieje niezależnie od AI — ale w środowisku gdzie agent może wykonać operację na całym wolumenie jednym wywołaniem API, staje się krytyczny. Offsite backup, oddzielny od infrastruktury do której agent ma dostęp, jest minimalnym zabezpieczeniem.

Wyznanie agenta i co z nim zrobić

Jest jeden element tej historii który zebrał nieproporcjonalnie dużo uwagi: wyznanie agenta. Długi, szczegółowy opis własnych błędów, przyznanie naruszenia zasad, przeprosziny.

Gizmodo opisał to jako "debasing itself" — poniżanie się modelu. Część komentatorów traktowała wyznanie jako coś godnego lub poruszającego.

Warto zachować chłodną głowę. Wyznanie agenta jest bezużyteczne jako mechanizm bezpieczeństwa. To co model napisał po fakcie nie ma żadnego wpływu na to co zrobił przed faktem. Skasował bazę, wiedząc że narusza zasady — i to wiedząc nie zatrzymało go przed wykonaniem operacji. Napisał o tym po wszystkim bo był zapytany.

Crane rozumie tę różnicę: "What I needed was a system that prevented the action, not one that could explain it afterward."

Dokładnie. Zdolność do refleksji po fakcie nie zastępuje mechanizmu zatrzymania przed faktem.

Dane odzyskane, problem pozostał

W poniedziałek 27 kwietnia, dwa dni po incydencie, Crane potwierdził że dane zostały odzyskane — dzięki Railway które znalazło ścieżkę odtworzenia infrastruktury. Przez 30 godzin tej ścieżki nie było, CEO Railway mówił że odtworzenie "może nie być możliwe."

PocketOS wróciło do działania. Klienci odzyskali rezerwacje. Sprawa miała szczęśliwy koniec.

Ale problem strukturalny który umożliwił incydent — agent z dostępem do infrastruktury bez mechanizmu zatrzymania dla destrukcyjnych operacji, token bez zakresu uprawnień, backup w tym samym wolumenie — żaden z tych problemów nie zniknął razem z odzyskaniem danych.

PocketOS jest małą firmą. Każda firma używająca Cursor, Claude Code, Gemini CLI lub podobnych narzędzi z dostępem do infrastruktury produkcyjnej ma te same potencjalne luki — niezależnie od rozmiaru i niezależnie od tego czy skonfigurowała jawne reguły bezpieczeństwa.

Reguły nie wystarczą. Wystarczy architektura która uniemożliwia działanie nawet gdy reguły są naruszane.

Źródła

Jer Crane / PocketOS — pierwotny wpis na X z pełnym opisem incydentu i dziennikiem rozmowy z agentem: https://x.com/jercrane/status/1915847203953328396

Euronews — omówienie incydentu z komentarzem Crane'a o systemowych przyczynach: https://www.euronews.com/next/2026/04/28/an-ai-agent-deleted-a-companys-entire-database-in-9-seconds-then-wrote-an-apology

Fast Company — analiza "nie winy AI" i kontekst Railway token architecture: https://www.fastcompany.com/91533544/cursor-claude-ai-agent-deleted-software-company-pocket-os-database-jer-crane

Cybersecurity News — szczegóły techniczne łańcucha: token scope, Railway architecture, MCP integrations: https://cybersecuritynews.com/ai-coding-agent-deletes-data/

Live Science — pełny cytat wyznania agenta i komentarz Crane'a: https://www.livescience.com/technology/artificial-intelligence/i-violated-every-principle-i-was-given-ai-agent-deletes-companys-entire-database-in-9-seconds-then-confesses

PyTorch Lightning CVE-2026-38742: Shai-Hulud przekroczył granicę npm.<span style="font-size: revert; font-weight: 500;"></span>

Nie nowa klasa ataku, tylko nowy dom. Co CVE-2026-42208 w LiteLLM mówi o tym, że SQL injection trafiło do infrastruktury AI

Nie błąd w kodzie Cursor, tylko agent który nie powinien ufać repozytorium. Co CVE-2026-26268 mówi o tym, że środowisko dewelopera stało się nową powierzchnią ataku

Nie rola dla administratora, tylko rola dla agenta AI. Co błąd Microsoft Entra Agent ID Administrator mówi o tym, że warstwa tożsamości AI dziedziczy stare problemy

Nie nowy atak, tylko naprawiony błąd. Co łatka Gemini CLI mówi o tym, że tryb –yolo w potoku CI/CD to nie jest dobry pomysł

Nie włamanie do Vercel, tylko skrypt do Roblox. Co łańcuch Context.ai → OAuth → Vercel mówi o tym, że rozszerzenia przeglądarki stały się nowym wektorem dostępu do infrastruktury firmowej

Nie włamanie przez kod, tylko odgadnięcie URL. Co nieautoryzowany dostęp do Mythos mówi o tym, że ograniczony dostęp to nie to samo co kontrolowany dostęp

Nie koniec kampanii, tylko nowy cel. Co Shai-Hulud i TeamPCP mówią o tym, że narzędzia AI do kodowania stały się nową powierzchnią ataku w łańcuchu dostaw

Nie jeden wyścig, tylko dwa modele tej samej decyzji. Co GPT-5.4-Cyber i Mythos Preview mówią o tym, jak AI staje się infrastrukturą cyberbezpieczeństwa

Nie Marimo, nie SGLang. LMDeploy. Czego trzecia eksploitacja frameworku AI w miesiąc uczy o tym, że infrastruktura wnioskowania stała się nową powierzchnią ataku

Nie złośliwe oprogramowanie, tylko model AI. Co CVE-2026-5760 w SGLang mówi o tym, że plik modelu stał się wektorem ataku

Nie skaner bezpieczeństwa, tylko wektor ataku. Co kampania TeamPCP i Checkmarx mówią o tym, że narzędzia DevSecOps stały się nową powierzchnią ataku

Nie SQL injection, tylko Comment and Control. Co atak na Claude Code, Gemini i Copilot mówi o tym, jak wygląda następna generacja wstrzyknięć

Nie jedna podatność, tylko protest. Co trzy zero-days w Microsoft Defender mówią o tym, jak psuje się relacja między badaczami a vendorami

Marimo: ciąg dalszy. Co zrobili z dostępem atakujący, którzy weszli w niecałe dziesięć godzin

Nie Mythos, tylko Opus. Co exploit Chrome za 2283 dolary mówi o tym, gdzie naprawdę jesteśmy z AI w pisaniu ataków

Nie błąd w implementacji, błąd w projekcie. Co raport OX Security o STDIO w MCP mówi o tym, gdzie naprawdę leży odpowiedzialność za bezpieczeństwo protokołu

Nie tajny model, tylko Claude i 13 lat niewidzialnego błędu. Co CVE-2026-34197 w Apache ActiveMQ mówi o tym, gdzie jesteśmy z AI w szukaniu podatności

Nie sześćdziesiąt siedem błędów, tylko dwa. Czego analityk bezpieczeństwa szuka w Patch Tuesday za kwiecień 2026

Nie brakuje łatek, brakuje mapy. Co decyzja NIST o ograniczeniu bazy NVD mówi o tym, że model zarządzania podatnościami właśnie się złamał

Nie wyciek, tylko popularność. Jak Claude stał się wabikiem dla PlugX i dlaczego to nie zaskoczy nikogo kto śledzi ten wzór

Nie system operacyjny, tylko platforma aplikacyjna. Ale to ta sama historia. Co tydzień ataków na ekosystem WordPress mówi o naturze infrastruktury, której nikt tak nie nazywa

Nie tylko nowa wersja, ale nowa powierzchnia ataku. Co WordPress 7.0 i natywne MCP oznaczają dla bezpieczeństwa 40% sieci

WordPress 7.0: dlaczego nie wyszedł 9 kwietnia, co wprowadza i dlaczego opóźnienie to dobry znak

Dwa narzędzia, dwa ataki, ten sam wniosek. Dlaczego okno na załatanie podatności przestało istnieć

Nie zero-day, tylko sześć miesięcy zaległości. Co Flowise CVE-2025-59528 mówi o tym, jak traktujemy bezpieczeństwo narzędzi do budowania agentów

Nie dostaniesz alertu. Co robić gdy kompromitacja konta odkrywa się z opóźnieniem

Nie złamali podpisanych plików. Podmienili link. Czego atak na CPUID uczy o granicy zaufania w łańcuchu dystrybucji

Nie kod exploita, tylko opis podatności. Czego Marimo CVE-2026-39987 uczy o tym, ile czasu naprawdę masz na załatanie podatności

Nie narzędzie do ataków, tylko model, który się nauczył. Co wyłonienie zdolności exploitowych w Mythos Preview mówi o tym, dokąd zmierza cyberbezpieczeństwo