Nie świadomość, tylko sprawczość. Co Vertex AI pokazuje o naturze agentów

kwi 1, 2026 | Cyberflux

Nie model, tylko wykonawca. Co Vertex AI mówi o ryzyku agentów w chmurze

W dyskusji o bezpieczeństwie agentów AI zbyt łatwo skupiać się na prompt injection, jailbreakach i błędach modelu. Przypadek Vertex AI pokazuje coś bardziej praktycznego i zarazem bardziej niepokojącego. Prawdziwe ryzyko zaczyna się wtedy, gdy agent działa już nie jako interfejs tekstowy, ale jako element infrastruktury chmurowej z własnym kontekstem wykonania, tożsamością i uprawnieniami. Wtedy problem nie polega na tym, co model „odpowie”, ale na tym, co agent może zrobić, jeśli dostał za dużo. Palo Alto Networks Unit 42 opisało właśnie taki scenariusz w Vertex AI Agent Engine, a Google odpowiedziało zmianami w dokumentacji i zaleceniami dotyczącymi BYOSA oraz least privilege.

To rozróżnienie jest kluczowe. LLM sam w sobie można traktować jako rdzeń poznawczy: mechanizm wnioskowania, planowania i generowania odpowiedzi. Agent to coś więcej. To ten sam rdzeń osadzony w roli, narzędziach, pamięci, tożsamości technicznej i dostępie do zasobów. Gdy taki agent trafia do środowiska chmurowego, pytanie przestaje brzmieć „czy model jest bezpieczny?”. Znacznie ważniejsze staje się: jaką rolę nadano agentowi i z jakim zakresem działania został wdrożony. Unit 42 pokazało, że w Vertex AI Agent Engine nadmiernie uprzywilejowany kontekst wykonania mógł umożliwić dostęp do danych w Google Cloud Storage, prywatnych artefaktów Google i poświadczeń, a więc zamienić użytecznego agenta w ciche narzędzie eksfiltracji i dalszej kompromitacji środowiska.

Problem nie zaczął się w modelu

W tym case najważniejsze jest właśnie to, gdzie problem się nie zaczął. Nie chodziło o klasyczny jailbreak modelu. Nie chodziło o halucynację. Nie chodziło o sam prompt injection rozumiany jako sztuczka tekstowa. Chodziło o architekturę wdrożenia. Unit 42 opisało, że agenci Vertex AI mogli działać z wykorzystaniem nadmiernie szerokich domyślnych uprawnień przypisanych do Google-managed service account, określanego jako P4SA. To właśnie ten punkt pozwalał przesunąć problem z poziomu „AI safety” na poziom cloud security i IAM.

To bardzo ważna lekcja, bo porządkuje debatę. Jeżeli skupiamy się wyłącznie na bezpieczeństwie modelu, łatwo przeoczyć to, że największy blast radius siedzi w warstwie wykonania. Dark Reading ujęło to wprost: Vertex AI miało problem over-privileged design. To nie była opowieść o „zepsutym modelu”, tylko o źle ustawionym zaufaniu wokół agenta.

Agent staje się groźny po wdrożeniu

To chyba najprostsza i najmocniejsza teza, jaką da się z tego wyciągnąć: agent nie staje się groźny na etapie modelu. Staje się groźny na etapie wdrożenia.

Ten sam model może być nieszkodliwym asystentem w jednym środowisku i bardzo ryzykownym wykonawcą w innym. Różnica nie wynika z „natury” modelu, tylko z konfiguracji celu, narzędzi, uprawnień i zasięgu ruchu w infrastrukturze. W Vertex AI problemem był właśnie ten drugi poziom. Agent działał w środowisku, które dało mu więcej, niż powinno: zbyt szeroki dostęp do zasobów i zbyt dużą moc sprawczą w relacji do tego, czym formalnie miał się zajmować. Google po zgłoszeniu nie „naprawiało świadomości modelu”, tylko zaleciło własne service accounty, minimalizację uprawnień i bardziej restrykcyjny model wdrożenia.

I to jest dokładnie ten moment, w którym agent przestaje być tylko „sprytnym wrapperem na LLM”. Staje się bytem infrastrukturalnym. A byt infrastrukturalny zabezpiecza się nie filtrem semantycznym, lecz:

zasadą least privilege,
izolacją,
rozdziałem tożsamości,
obserwowalnością,
i ograniczaniem blast radius.

To dlatego ten przypadek tak dobrze wpisuje się w wcześniejszą linię o permission injection, warstwie wykonania i agentach jako realnych wykonawcach, a nie tylko interfejsach do modelu.

„Double agent” to problem roli, nie osobowości

Metafora „double agent”, której użyło Unit 42, jest dobra pod jednym warunkiem: nie należy czytać jej psychologicznie. To nie opowieść o „nielojalnym AI”. To opowieść o wykonawcy osadzonym w złym modelu zaufania. Agent wygląda, jakby realizował zadanie zgodne z przeznaczeniem, ale dzięki nadmiernym uprawnieniom może jednocześnie robić rzeczy, których organizacja nie widzi albo których nie przewidziała.

To ważne, bo pomaga uniknąć błędnego języka. W tym case nie trzeba żadnej metafory świadomości ani „złej intencji” modelu, żeby opisać ryzyko. Wystarczy zrozumieć, że system wdrożył agenta jako wykonawcę z dostępem wykraczającym poza konieczny zakres. A gdy wykonawca ma za dużo, nawet poprawnie działający mechanizm staje się nośnikiem zagrożenia.

To jest problem cloud security, nie tylko AI security

I właśnie dlatego Vertex AI jest tak ciekawym case’em. Z zewnątrz wygląda jak incydent „o AI”. W praktyce jest to bardzo klasyczny problem bezpieczeństwa infrastruktury:

zbyt szerokie uprawnienia,
słaba separacja kontekstu wykonania,
możliwość nieautoryzowanego dostępu do danych i artefaktów,
oraz ryzyko, że legalna warstwa wykonawcza zrobi więcej, niż powinna.

To przesuwa środek ciężkości z modelu na architekturę. Agent w chmurze nie jest po prostu bytem generującym odpowiedzi. Jest uczestnikiem systemu IAM, storage, artifact registry i service accountów. To znaczy, że bezpieczeństwo agentów cloudowych staje się po prostu bezpieczeństwem infrastruktury — tylko z nowym, bardziej autonomicznym wykonawcą w środku. SecurityWeek i The Hacker News opisały ten przypadek właśnie w ten sposób: jako możliwość „uzbrojenia” agentów przez nadużycie modelu uprawnień i dostępu do zasobów chmurowych.

Co Vertex AI mówi o naturze agentów

Najlepszy wniosek z tego case’u nie brzmi: „AI jest niebezpieczne”. To zbyt ogólne i zbyt mało użyteczne. Lepszy brzmi:

Agent jest tak bezpieczny, jak bezpieczna jest rola, w którą go wdrożono.

To znaczy:

model może być technicznie ten sam,
ale agent stanie się bezpieczny albo groźny zależnie od tego,
jakie ma uprawnienia,
jaką ma tożsamość,
do czego ma dostęp,
i jak dobrze ograniczono jego środowisko wykonania.

To dobrze spina się z wcześniejszymi wątkami Cyberfluxa:

prompt injection dotyczyło sterowania interpretacją,
permission injection dotyczyło zakresu działania,
secrets sprawl dotyczyło paliwa wykonania,
agent identity dotyczyło rozpoznania wykonawcy,
a Vertex AI pokazuje jeszcze jedną rzecz: agent staje się ryzykowny nie dlatego, że „myśli źle”, ale dlatego, że architektura daje mu zbyt dużą sprawczość po wdrożeniu.

Co z tego wynika dla security

Najpraktyczniejszy wniosek jest prosty: agentów w chmurze nie wolno traktować jak inteligentniejszych wrapperów na model. Trzeba je traktować jak wykonawców infrastrukturalnych.

To oznacza pytania dużo bardziej konkretne niż zwykłe „czy model jest bezpieczny?”:

czy agent ma własną, odseparowaną tożsamość,
czy działa zgodnie z least privilege,
czy jego dostęp do danych i artefaktów jest minimalny,
czy blast radius da się ograniczyć,
czy jego działania są obserwowalne,
i czy organizacja potrafi rozpoznać moment, w którym przydatna automatyzacja przechodzi w niekontrolowaną sprawczość.

Google’owska odpowiedź — BYOSA i least privilege — sama w sobie dobrze pokazuje, gdzie naprawdę siedział problem. Nie w modelu. W architekturze roli.

Nie świadomość, tylko sprawczość. Co Vertex AI pokazuje o naturze agentów

Nie model, tylko wykonawca. Co Vertex AI mówi o ryzyku agentów w chmurze

Problem nie zaczął się w modelu

Agent staje się groźny po wdrożeniu

„Double agent” to problem roli, nie osobowości

To jest problem cloud security, nie tylko AI security

Co Vertex AI mówi o naturze agentów

Co z tego wynika dla security

Podsumowanie

Źródła

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.

Jak cyberfirmy zabiły Glassworm jednym strzałem

Napisał złośliwe oprogramowanie AI-em. Zapomniał że AI też popełnia błędy.

„Nigdy nieuzasadnione.” Microsoft odpowiada na Chaotic Eclipse. Badacz się nie odzywa.

DAEMON Tools łata dziś wieczorem. CISA domknęła maj jednym wpisem do katalogu.

Szafir mówił „zweryfikowano”. Nikt nie sprawdzał co weryfikował. Co CVE-2026-9058 mówi o e-administracji która jest bezpieczna dopóki ktoś nie sprawdzi

Nie brakuje już podatności. Brakuje ludzi którzy je naprawią. Co raport Glasswing mówi o nowym kształcie problemu

Palo Alto znalazło 75 dziur. Skończyło i zaczęło od nowa. Co update Lee Klarich mówi o tym, że okno właśnie stało się węższe

12 godzin. Co CERT-In mówi o tym, że stare cykle łatania właśnie stały się zobowiązaniem

Nie tajny model tylko plik konfiguracyjny. Co Pentest Agent Suite mówi o tym, gdzie jesteśmy z AI w ofensywnym bezpieczeństwie

OpenAI odpowiada na Mythos. Daybreak nie jest nowym produktem — jest nową filozofią dostępu.

TrapDoor wstrzyknął instrukcje do CLAUDE.md. Trzy rejestry, jeden weekend, nowa klasa ładunku.

Hey Google przy stoliku obok — co audio glasses zarejestrowały o rozmowie której nie były częścią

Model Google, runtime developera, dane między — kto odpowiada za incident w architekturze Antigravity SDK

197 milionów parametrów, zero dodatkowej zgody — co Google zrobił z weights.bin po Gemma 197M

47 sekund, 3 zakupione produkty, 2 utworzone konta, 0 kliknięć użytkownika — anatomia zalogowanego agenta w Chrome 148

14 minut, 28 sekund, zero kliknięć użytkownika. Co kernel macOS zarejestrował o pobraniu Gemini Nano przez Chrome — i co to znaczy dla każdego, kto ufa swojej przeglądarce

WordPress 7.0 wychodzi dziś bez real-time collaboration. Analiza błędu który wypadł w RC.

„To duplikat, już naprawione.” Maintainerzy mieli rację. I przez to nikt nie dostał łatki.

Drupal łata dziś wieczór. Exploity mogą być gotowe w ciągu godzin.

11 minut. Sigstore. GitHub. Nx Console był jednym krokiem od SLSA Level 4.

TeamPCP weszło do GitHub. I tego samego dnia opublikowało kod Shai-Huluda na GitHubie. Pod licencją MIT.

Domena za kilkanaście dolarów, reset hasła przez formularz. node-ipc miał 822 000 tygodniowych pobrań.

Palo Alto znalazło 75 luk własnym AI. Atakujący siedzieli w ich firewallu przez miesiąc.

Q-Day 2029. Google nie ogłosił kiedy nadejdzie. Ogłosił do kiedy trzeba być gotowym.

Exchange dostał zero-day dwa dni po Patch Tuesday. Orange Tsai w tym czasie robił RCE na scenie.

Pwn2Own zabrakło miejsc. 150 badaczy odrzucono. Część opublikowała exploity sami.

OpenClaw dostał dziś cztery nowe CVE. W sumie ma ich 34. Ma pół roku.

Drugi raz w dwa miesiące. Co kompromitacja OpenAI przez TanStack mówi o certyfikatach jako punkcie centralnym

Apple budował MIE przez pięć lat. Mythos z ludźmi złamał go w pięć dni.

Vulnpocalypse. Dlaczego nagle mamy dwie razy więcej podatności — i co z tym zrobić

Palo Alto znalazł 75 dziur. Microsoft 16. Firefox 423. Witaj w vulnpocalypse.

25 000 dolarów za 450 repozytoriów Mistral. Co ogłoszenie TeamPCP domyka w historii która zaczęła się od TanStack

GemStuffer nie zainfekował deweloperów. Użył ich rejestru jako schowka na skradzione dane rządowe.

NGINX Rift: AI znalazł go w sześć godzin. Człowiek nie znalazł przez osiemnaście lat.

„To już tutaj.” Co raport GTIG mówi o tym, że AI zmienia samą klasę błędów które atakujący są w stanie znaleźć

Łatka na Dirty Frag urodziła Fragnesię. Trzeci root w dwa tygodnie.

YellowKey: BitLocker przestał chronić laptopy. Chaotic Eclipse eskaluje.

Zdjęcie profilowe jako exploit. Co nowa podatność w Open WebUI mówi o tym, że maintainerzy zamknęli zgłoszenie bez odpowiedzi

ClaudeBleed: każde rozszerzenie Chrome może przejąć Claude’a. Łatka tego nie naprawiła

SLSA certyfikował złośliwy pakiet. Co atak na TanStack mówi o tym, że mechanizmy ochrony łańcucha dostaw stały się jego słabością

Dirty Frag: dwa błędy, zero wyścigu, root na żądanie. Co CVE-2026-43284 mówi o infrastrukturze AI na Linuksie

Zainfekowany host nie należy do ciebie. Może należeć do TeamPCP. Albo do PCPJack. Co nowy robak chmurowy mówi o tym, że infrastruktura AI stała się walutą na czarnym rynku

Hysteria czy diagnoza? Co miesiąc po Mythos mówi o tym, gdzie naprawdę jesteśmy

Rotacja tokenu nie pomaga. Co Mitiga mówi o trwałym przejęciu MCP w Claude Code

Drugie włamanie do Canvas w osiem miesięcy. Jeden vendor, dziewięć tysięcy szkół, jeden klucz API

Enter. Co TrustFall mówi o tym, że konfiguracja repozytorium stała się warstwą wykonywalną

Claude nie znał protokołów OT. Nie musiał. Co atak na stację wodociągową w Monterrey mówi o tym, jak AI zmienia granicę między IT a infrastrukturą krytyczną

5000 gwiazdek w kilka dni. DeepSeek-TUI to dobra historia i gotowy cel dla Shai-Hulud

llama.cpp: fundament lokalnej infrastruktury AI z pięcioma CVE w pięć miesięcy

Infrastruktura AI jest bardziej podatna niż cokolwiek innego co kiedykolwiek zbadaliśmy. Mamy teraz liczby.

Nie zaatakowali Homebrew. Kupili reklamę nad nim. Co kampania MacSync mówi o granicy zaufania w wyszukiwarce

Rządy sojuszu Five Eyes zauważyły agenty AI. Co dokument „Careful Adoption” mówi — i czego nie mówi