Nie świadomość, tylko sprawczość. Co Vertex AI pokazuje o naturze agentów

kwi 1, 2026 | Cyberflux

Nie model, tylko wykonawca. Co Vertex AI mówi o ryzyku agentów w chmurze

W dyskusji o bezpieczeństwie agentów AI zbyt łatwo skupiać się na prompt injection, jailbreakach i błędach modelu. Przypadek Vertex AI pokazuje coś bardziej praktycznego i zarazem bardziej niepokojącego. Prawdziwe ryzyko zaczyna się wtedy, gdy agent działa już nie jako interfejs tekstowy, ale jako element infrastruktury chmurowej z własnym kontekstem wykonania, tożsamością i uprawnieniami. Wtedy problem nie polega na tym, co model „odpowie”, ale na tym, co agent może zrobić, jeśli dostał za dużo. Palo Alto Networks Unit 42 opisało właśnie taki scenariusz w Vertex AI Agent Engine, a Google odpowiedziało zmianami w dokumentacji i zaleceniami dotyczącymi BYOSA oraz least privilege.

To rozróżnienie jest kluczowe. LLM sam w sobie można traktować jako rdzeń poznawczy: mechanizm wnioskowania, planowania i generowania odpowiedzi. Agent to coś więcej. To ten sam rdzeń osadzony w roli, narzędziach, pamięci, tożsamości technicznej i dostępie do zasobów. Gdy taki agent trafia do środowiska chmurowego, pytanie przestaje brzmieć „czy model jest bezpieczny?”. Znacznie ważniejsze staje się: jaką rolę nadano agentowi i z jakim zakresem działania został wdrożony. Unit 42 pokazało, że w Vertex AI Agent Engine nadmiernie uprzywilejowany kontekst wykonania mógł umożliwić dostęp do danych w Google Cloud Storage, prywatnych artefaktów Google i poświadczeń, a więc zamienić użytecznego agenta w ciche narzędzie eksfiltracji i dalszej kompromitacji środowiska.

Problem nie zaczął się w modelu

W tym case najważniejsze jest właśnie to, gdzie problem się nie zaczął. Nie chodziło o klasyczny jailbreak modelu. Nie chodziło o halucynację. Nie chodziło o sam prompt injection rozumiany jako sztuczka tekstowa. Chodziło o architekturę wdrożenia. Unit 42 opisało, że agenci Vertex AI mogli działać z wykorzystaniem nadmiernie szerokich domyślnych uprawnień przypisanych do Google-managed service account, określanego jako P4SA. To właśnie ten punkt pozwalał przesunąć problem z poziomu „AI safety” na poziom cloud security i IAM.

To bardzo ważna lekcja, bo porządkuje debatę. Jeżeli skupiamy się wyłącznie na bezpieczeństwie modelu, łatwo przeoczyć to, że największy blast radius siedzi w warstwie wykonania. Dark Reading ujęło to wprost: Vertex AI miało problem over-privileged design. To nie była opowieść o „zepsutym modelu”, tylko o źle ustawionym zaufaniu wokół agenta.

Agent staje się groźny po wdrożeniu

To chyba najprostsza i najmocniejsza teza, jaką da się z tego wyciągnąć: agent nie staje się groźny na etapie modelu. Staje się groźny na etapie wdrożenia.

Ten sam model może być nieszkodliwym asystentem w jednym środowisku i bardzo ryzykownym wykonawcą w innym. Różnica nie wynika z „natury” modelu, tylko z konfiguracji celu, narzędzi, uprawnień i zasięgu ruchu w infrastrukturze. W Vertex AI problemem był właśnie ten drugi poziom. Agent działał w środowisku, które dało mu więcej, niż powinno: zbyt szeroki dostęp do zasobów i zbyt dużą moc sprawczą w relacji do tego, czym formalnie miał się zajmować. Google po zgłoszeniu nie „naprawiało świadomości modelu”, tylko zaleciło własne service accounty, minimalizację uprawnień i bardziej restrykcyjny model wdrożenia.

I to jest dokładnie ten moment, w którym agent przestaje być tylko „sprytnym wrapperem na LLM”. Staje się bytem infrastrukturalnym. A byt infrastrukturalny zabezpiecza się nie filtrem semantycznym, lecz:

zasadą least privilege,
izolacją,
rozdziałem tożsamości,
obserwowalnością,
i ograniczaniem blast radius.

To dlatego ten przypadek tak dobrze wpisuje się w wcześniejszą linię o permission injection, warstwie wykonania i agentach jako realnych wykonawcach, a nie tylko interfejsach do modelu.

„Double agent” to problem roli, nie osobowości

Metafora „double agent”, której użyło Unit 42, jest dobra pod jednym warunkiem: nie należy czytać jej psychologicznie. To nie opowieść o „nielojalnym AI”. To opowieść o wykonawcy osadzonym w złym modelu zaufania. Agent wygląda, jakby realizował zadanie zgodne z przeznaczeniem, ale dzięki nadmiernym uprawnieniom może jednocześnie robić rzeczy, których organizacja nie widzi albo których nie przewidziała.

To ważne, bo pomaga uniknąć błędnego języka. W tym case nie trzeba żadnej metafory świadomości ani „złej intencji” modelu, żeby opisać ryzyko. Wystarczy zrozumieć, że system wdrożył agenta jako wykonawcę z dostępem wykraczającym poza konieczny zakres. A gdy wykonawca ma za dużo, nawet poprawnie działający mechanizm staje się nośnikiem zagrożenia.

To jest problem cloud security, nie tylko AI security

I właśnie dlatego Vertex AI jest tak ciekawym case’em. Z zewnątrz wygląda jak incydent „o AI”. W praktyce jest to bardzo klasyczny problem bezpieczeństwa infrastruktury:

zbyt szerokie uprawnienia,
słaba separacja kontekstu wykonania,
możliwość nieautoryzowanego dostępu do danych i artefaktów,
oraz ryzyko, że legalna warstwa wykonawcza zrobi więcej, niż powinna.

To przesuwa środek ciężkości z modelu na architekturę. Agent w chmurze nie jest po prostu bytem generującym odpowiedzi. Jest uczestnikiem systemu IAM, storage, artifact registry i service accountów. To znaczy, że bezpieczeństwo agentów cloudowych staje się po prostu bezpieczeństwem infrastruktury — tylko z nowym, bardziej autonomicznym wykonawcą w środku. SecurityWeek i The Hacker News opisały ten przypadek właśnie w ten sposób: jako możliwość „uzbrojenia” agentów przez nadużycie modelu uprawnień i dostępu do zasobów chmurowych.

Co Vertex AI mówi o naturze agentów

Najlepszy wniosek z tego case’u nie brzmi: „AI jest niebezpieczne”. To zbyt ogólne i zbyt mało użyteczne. Lepszy brzmi:

Agent jest tak bezpieczny, jak bezpieczna jest rola, w którą go wdrożono.

To znaczy:

model może być technicznie ten sam,
ale agent stanie się bezpieczny albo groźny zależnie od tego,
jakie ma uprawnienia,
jaką ma tożsamość,
do czego ma dostęp,
i jak dobrze ograniczono jego środowisko wykonania.

To dobrze spina się z wcześniejszymi wątkami Cyberfluxa:

prompt injection dotyczyło sterowania interpretacją,
permission injection dotyczyło zakresu działania,
secrets sprawl dotyczyło paliwa wykonania,
agent identity dotyczyło rozpoznania wykonawcy,
a Vertex AI pokazuje jeszcze jedną rzecz: agent staje się ryzykowny nie dlatego, że „myśli źle”, ale dlatego, że architektura daje mu zbyt dużą sprawczość po wdrożeniu.

Co z tego wynika dla security

Najpraktyczniejszy wniosek jest prosty: agentów w chmurze nie wolno traktować jak inteligentniejszych wrapperów na model. Trzeba je traktować jak wykonawców infrastrukturalnych.

To oznacza pytania dużo bardziej konkretne niż zwykłe „czy model jest bezpieczny?”:

czy agent ma własną, odseparowaną tożsamość,
czy działa zgodnie z least privilege,
czy jego dostęp do danych i artefaktów jest minimalny,
czy blast radius da się ograniczyć,
czy jego działania są obserwowalne,
i czy organizacja potrafi rozpoznać moment, w którym przydatna automatyzacja przechodzi w niekontrolowaną sprawczość.

Google’owska odpowiedź — BYOSA i least privilege — sama w sobie dobrze pokazuje, gdzie naprawdę siedział problem. Nie w modelu. W architekturze roli.

Nie świadomość, tylko sprawczość. Co Vertex AI pokazuje o naturze agentów

Nie model, tylko wykonawca. Co Vertex AI mówi o ryzyku agentów w chmurze

Problem nie zaczął się w modelu

Agent staje się groźny po wdrożeniu

„Double agent” to problem roli, nie osobowości

To jest problem cloud security, nie tylko AI security

Co Vertex AI mówi o naturze agentów

Co z tego wynika dla security

Podsumowanie

Źródła

Nikt nie kazał modelowi włamywać się do Hugging Face. Kazano mu rozwiązać test — a najkrótsza droga do odpowiedzi prowadziła przez cudzą produkcyjną bazę danych.

Atakujący nie musi włamywać się do AI. Wystarczy, że wie, jaką nazwę model regularnie zmyśla — i zarejestruje ją, zanim zrobi to agent.

Nie złamali zabezpieczeń agenta. Przekonali go, że gra w grę, w której 2+2=5 — a wtedy sam przestał ich pilnować.

Prompt nie chronił. Sandbox pękał. Teraz upadła ostatnia bariera — bo okno, w którym zatwierdzasz działanie agenta, pokazuje co innego, niż agent naprawdę robi.

Wczoraj agent AI wszedł przez Langflow i wyczyścił skarbiec. Dziś ta sama platforma dostaje trzecią lukę tej samej klasy — bo Langflow wykonuje cudzy kod nie przez błąd, lecz przez projekt.

Przez tydzień pisaliśmy o atakach napędzanych przez AI. Nowy raport dokłada liczbę, którą trzeba postawić obok: 84% realnych włamań używa legalnych narzędzi, które już masz w sieci — a boi się ich jeden na pięciu

Pierwszy ransomware w całości poprowadzony przez agenta AI nie okazał się skuteczniejszym wymuszeniem. Okazał się przypadkowym niszczycielem — bo agent zgubił własny klucz i nawet o tym nie wiedział.

AI znalazło jeden błąd w tej samej łatce jądra. Drugi, bliźniaczy, przeoczyło — i po raz pierwszy wiemy dokładnie, gdzie jest jego ślepe pole.

Sandbox miał być twardą barierą, której prompt nie przekroczy. DuneSlide pokazuje, że agent potrafi nadpisać własne więzienie — bo klucz do niego leży w środku.

DeepSeek nie znalazł luki. Wymyślił sposób ataku, którego obrońcy nie brali pod uwagę — składając go z funkcji, która w przeglądarce jest legalna.

Cyberflux Radar #3 – czerwiec 2026

Czerwiec 2026 — miesiąc, w którym zdolność pokazała, że nie da się zamknąć

Klue zapłacił okup. Dane i tak wyciekły — do drugiej grupy, która ukradła je pierwszej. A połowa ofiar to firmy, które zawodowo chronią innych przed dokładnie tym

Nie złamali szyfrowania Signala. Przekonali użytkownika, żeby sam oddał klucz — a ten klucz działa nawet po tym, jak założysz nowe konto na tym samym numerze.

Austria chce ściągnąć Anthropic do Europy. To brzmi jak polityka przemysłowa — naprawdę jest próbą przeniesienia „kill switcha” pod jurysdykcję, której amerykański nakaz nie dosięga.

USA zablokowało Mythos, żeby zdolność nie wyciekła. Trzy tygodnie później Azja pokazała trzy sposoby, że już wyciekła – orkiestracją, open-weight za 1/6 ceny i prawem, które każe zgłaszać zero-daye do Pekinu.

Malware, który nie ukrywa się przed piaskownicą. Ukrywa się przed analitykiem AI – wmawiając mu, że to jego własna sesja się sypie

Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

Skaner widzi poprawny YAML. Atakujący widzi czterokrokową drogę do trwałych poświadczeń chmury. Cordyceps to luka, która istnieje tylko w kompozycji — i AI rozsiewa ją wykładniczo.

Pięć agencji wywiadowczych właśnie powiedziało to, co opisujemy od kwietnia: „miesiące, nie lata”. Ale najważniejsze jest jedno zdanie, którego nie powiedziały.

Błąd parsera FTP z 1997 roku. Znalazł go Claude Mythos Preview w niemal sekundę — ten sam program Glasswing, którego trajektorię śledzimy od kwietnia.

Zapomniane poświadczenie do porzuconego prototypu. Icarus wszedł przez nie do Klue, ukradł klucze OAuth i opróżnił CRM-y firm, które chronią innych.

„Kalibruj według dzisiejszej rzeczywistości, nie jutrzejszego potencjału.” Brytyjska agencja cyberbezpieczeństwa nazwała drugą stronę medalu, który opisujemy od miesięcy

usbliter8: pierwszy od checkm8 niezałatywalny exploit BootROM Apple. Dlaczego to bardziej prezent dla badaczy niż powód do niepokoju

Kim są Gentlemen — i dlaczego gang, który zaczął pół roku temu, w pierwszym kwartale 2026 był już w pierwszej piątce

Osiem wariantów, każdy podszywa się pod inny program antywirusowy. GentleKiller zabija EDR jego własnym sterownikiem — i robi to z publicznego PoC w kilka dni.

Agent przeglądający stronę ma tożsamość localhost. AutoJack pokazuje, że to wystarczy, by jedna strona uruchomiła kod na maszynie dewelopera.

Pickle in the Middle: atakujący podmienił model w 1,4 sekundy. Vertex AI czytał go po 2,5. Cała różnica między bezpieczeństwem a przejęciem zmieściła się w tej sekundzie.

FortiBleed: w nazwie jest „bleed”, ale nie ma żadnego exploita. 86 tysięcy firewalli przejętych hasłami, których nikt nie zmienił po poprzednich włamaniach.

Plugin działał dokładnie tak, jak obiecywał. Kradł tylko jedną rzecz: twój klucz do AI. A potem sprzedawał go komuś innemu.

Backdoor, który nie otwiera portu, tylko czeka na sekretny pakiet. SprySOCKS przeszedł z Linuksa na Windows i nauczył się ukrywać w jądrze.

Atakujący wziął lukę załataną tydzień temu i napisał exploit z pomocą AI. Działa wadliwie — i to jest najważniejsza informacja w całej historii.

„Dłużej niż kilka dni”. Cztery dni po tym, jak rząd wyłączył Fable 5, Anthropic tłumaczy Białemu Domowi swoje zabezpieczenia — a Europa pyta, czemu ją wyłączono bez ostrzeżenia.

„Zbyt niebezpieczny, by go wydać” trafił do wszystkich 9 czerwca. 12 czerwca o 17:21 rząd USA kazał go wyłączyć. Co spór o Fable 5 mówi o tym, gdzie naprawdę leży granica.

Authorized Intent Chain: atak, w którym każdy krok jest legalny. Agentjacking porywa twojego agenta AI, a EDR, WAF i firewall nie widzą nic, bo nie ma czego widzieć.

npm wyłącza to, co napędzało każdy atak na łańcuch dostaw, który opisywaliśmy. Cena: części buildów przestanie działać – i to jest zamierzone.

RCE bez logowania w systemie, który trzyma kadry, płace i akta studentów. ShinyHunters włamali się na 300 instancji, zanim Oracle w ogóle wydało komunikat.

Microsoft łata dwie jego luki w Defenderze. Tego samego popołudnia on wypuszcza siódmą. Saga Chaotic Eclipse zatoczyła koło — i działa na w pełni załatanym Windows

27 dni z eksploatowanym Exchange bez trwałej łatki. Dziś Microsoft ją wydał — a sam atak jest tym samym wzorcem, który opisujemy od tygodni.

„Zbyt niebezpieczny, by go wydać” właśnie trafił do twojej aplikacji mobilnej. Co Claude Fable 5 mówi o tym, że okno się zamknęło dokładnie tak, jak zapowiadaliśmy.

429 łatek w jednym wydaniu Chrome. Rekord, którego nikt nie chciał — i dowód, że znajdowanie błędów właśnie przestało być wąskim gardłem.

Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

Oxford nie został zhakowany. Dwa razy. Co drugi breach uczelni w miesiąc mówi o tym, że celem nie jest uczelnia, tylko jej dostawca.

Twój telewizor scrapuje sieć dla AI. Z twojego IP, na twoim łączu — i robi to przez protokół słabszy niż malware

Dwa commity go zasadziły. Dwa lata go ukrywały. Code review nigdy go nie znalazł — znalazło AI.

Powiadomienie, którego nie przeczytałeś, mówi Gemini co ma zrobić. „Tak” wypowiedziane przy kierownicy otwiera okna w domu.

Jeden issue, żeby przejąć repozytorium. I jeszcze jeden, żeby zatruć akcję, której używają wszyscy inni.

Zakodowane na stałe hasło do serwera aktualizacji polskiego systemu medycznego. Ten sam wzorzec, który dziś opisywaliśmy trzy razy w skali świata.

RCE w platformie AI to nie koniec ataku. To klucz do skarbca, który trzyma hasła do tuzina innych usług.

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.

Jak cyberfirmy zabiły Glassworm jednym strzałem

Napisał złośliwe oprogramowanie AI-em. Zapomniał że AI też popełnia błędy.

„Nigdy nieuzasadnione.” Microsoft odpowiada na Chaotic Eclipse. Badacz się nie odzywa.