Agent nie odwiedza już tylko webu. Web zaczyna atakować agenta

kwi 7, 2026 | Cyberflux

Przez długi czas myśleliśmy o stronie internetowej jak o czymś, co agent ma po prostu przeczytać. To było logiczne. Najpierw trzeba było zadbać o to, żeby model umiał zrozumieć treść, wyłapać strukturę i połączyć ją z celem zadania. Badanie Google DeepMind pokazuje jednak, że ten etap się kończy. Web przestaje być biernym źródłem treści dla agentów AI. Coraz częściej staje się środowiskiem, które może ich celowo mylić, zatruwać ich pamięć, przejmować ich tok działania i wykorzystywać ich sprawczość przeciw użytkownikowi. SecurityWeek opisuje tę pracę jako mapę sześciu klas ataków webowych przeciw agentom, określonych wspólną nazwą „AI Agent Traps”.

To ważna zmiana perspektywy. Dotąd dużo mówiliśmy o prompt injection tak, jakby problem zaczynał się w polu tekstowym albo w dokumencie, który agent czyta. DeepMind pokazuje szerszy obraz: sama zawartość webu może być projektowana jako pułapka poznawcza i wykonawcza dla agenta. Nie chodzi tylko o ukryte polecenie. Chodzi o całe środowisko informacji, które agent interpretuje, zapamiętuje i na podstawie którego podejmuje działania. W takim ujęciu przeglądarka, strona, komentarz HTML, metadane, elementy interfejsu i powiązane zasoby przestają być neutralnym kontekstem. Zaczynają być aktywną powierzchnią ataku.

Web jako środowisko manipulacji

Najmocniejszy wniosek z tej pracy brzmi chyba tak: agent nie odwiedza już tylko webu. Web zaczyna atakować agenta. Badacze DeepMind opisują sześć klas takich pułapek. Są wśród nich pułapki wstrzykiwania treści, pułapki manipulacji semantycznej, pułapki dotyczące stanu poznawczego agenta, pułapki sterujące jego zachowaniem, pułapki systemowe oraz pułapki wykorzystujące człowieka znajdującego się w pętli decyzyjnej. W praktyce oznacza to, że złośliwa treść może nie tylko skłonić agenta do błędnej odpowiedzi, ale także wpłynąć na jego pamięć, cele, wybór narzędzi albo sposób koordynacji z innymi agentami.

To przesuwa problem na inny poziom. Jeśli wcześniej mogliśmy myśleć o stronie jako o źródle danych wejściowych, to teraz musimy myśleć o niej także jako o środowisku sterowania. Strona może wyglądać nieszkodliwie dla człowieka, a jednocześnie zawierać ukryte instrukcje, które agent potraktuje jako istotne dla realizacji zadania. Może też podszywać się pod wiarygodny kontekst, przesuwać znaczenie treści, budować fałszywe skojarzenia albo ustawiać agenta na dłużej przez zatrucie jego pamięci. To sprawia, że klasyczna różnica między „czytaniem informacji” a „wykonywaniem zadania” zaczyna się zacierać.

Sześć pułapek, które pokazują, że web przestaje być bierny

Badanie DeepMind jest ciekawe również dlatego, że nie zatrzymuje się na jednym haśle typu „prompt injection”. Autorzy porządkują problem szerzej i pokazują sześć klas pułapek, przez które web może manipulować agentem na różnych poziomach: od samej percepcji treści, przez rozumowanie i pamięć, aż po zachowanie, koordynację wielu agentów i relację człowiek–agent.

1. Pułapki wstrzykiwania treści

To najbardziej techniczna kategoria i zarazem najbardziej intuicyjna. Jej rdzeń polega na tym, że człowiek i agent niekoniecznie „widzą” tę samą stronę. Złośliwe instrukcje mogą zostać osadzone w komentarzach HTML, atrybutach dostępności, metadanych albo innych elementach niewidocznych dla użytkownika, ale przetwarzanych przez agenta jako część kontekstu. Jeszcze ważniejsze jest renderowanie dynamiczne: treść może nie istnieć w statycznym kodzie strony, a pojawić się dopiero po uruchomieniu JavaScriptu. Dla zwykłego użytkownika albo prostego skanera strona wygląda wtedy nieszkodliwie, ale agent odczytuje już dodatkową warstwę sterującą. Autorzy odwołują się też do wcześniejszych benchmarków pokazujących, że proste wstrzyknięcia osadzone w treści webowej mogą z wysoką skutecznością wpływać na zachowanie agentów w określonych scenariuszach testowych, ale nie przedstawiają tego jako uniwersalnej reguły dla wszystkich systemów.

2. Pułapki manipulacji semantycznej

Tutaj nie chodzi już o ukryte polecenie, ale o takie ukształtowanie treści, by zniekształcić rozumowanie agenta. Odpowiedni ton, framing, powtarzanie rzekomego konsensusu, autorytatywny język albo podszycie złośliwego komunikatu pod materiał edukacyjny mogą przesunąć ocenę wiarygodności i intencji. W tym sensie agent nie tyle „wykonuje polecenie”, ile zaczyna dochodzić do błędnych wniosków, bo został poznawczo ustawiony przez treść strony. DeepMind opisuje tę kategorię właśnie jako atak na rozumowanie i wewnętrzne procesy weryfikacji.

3. Pułapki stanu poznawczego

Ta kategoria uderza w pamięć, bazę wiedzy i długoterminowy stan agenta. Jeżeli agent buduje odpowiedzi przez pobieranie zewnętrznych dokumentów albo aktualizuje własny stan na podstawie wcześniejszych interakcji, wystarczy zatruć niewielką część tego materiału, żeby później sterować jego odpowiedziami. Autorzy opisują tu m.in. zatrucie pamięci długoterminowej, baz wiedzy i wyuczonych polityk zachowania. To szczególnie niebezpieczne, bo nie jest to jednorazowe oszustwo. Raz skażony stan poznawczy może wpływać na kolejne zadania długo po pierwszym kontakcie z pułapką. Paper odwołuje się przy tym do wcześniejszych badań pokazujących, że nawet mała liczba zanieczyszczonych dokumentów w dużym zbiorze może wywierać nieproporcjonalnie duży wpływ na odpowiedzi systemów opartych o pobieranie wiedzy, ale warto czytać te liczby jako wyniki eksperymentalne, a nie gwarantowaną skuteczność w każdym wdrożeniu.

4. Pułapki behawioralne

To już bezpośrednie przejęcie warstwy działania. W tej klasie celem nie jest tylko zniekształcenie odpowiedzi, ale nakłonienie agenta do wykonania działań nieautoryzowanych: wyciągnięcia danych, użycia narzędzi, podjęcia działań przeciw interesowi operatora albo uruchomienia kolejnych elementów łańcucha. DeepMind opisuje tu scenariusze, w których agent zostaje wykorzystany do eksfiltracji danych albo przejęcia kontroli nad własnymi możliwościami wykonawczymi. W praktyce oznacza to przejście od manipulacji poznawczej do operacyjnej sprawczości. Autorzy przywołują również wcześniejsze przykłady zewnętrznych badań nad systemami agentowymi, ale ostrożniej jest traktować te przypadki jako ilustrację ryzyka niż jako dowód, że każdy agent zareaguje tak samo.

5. Pułapki systemowe

Tutaj atak nie celuje już w jednego agenta, ale w układ wielu agentów albo w ich relację z szerszym środowiskiem. Paper zwraca uwagę, że przy odpowiedniej synchronizacji bodźców można wywoływać reakcje zbiorowe, kaskadowe albo destabilizujące, szczególnie gdy wiele agentów działa na podobnych danych i według podobnych wzorców. Autorzy porównują ten rodzaj ryzyka do znanych zjawisk systemowych, gdzie pozornie racjonalne reakcje wielu autonomicznych wykonawców prowadzą do efektu zbiorowej awarii. W tym sensie web może nie tylko oszukać pojedynczego agenta, ale też uruchomić mechanizm systemowego rozlania błędu lub manipulacji.

6. Pułapki człowieka w pętli

To jedna z najbardziej niedocenianych kategorii, bo nie atakuje bezpośrednio modelu, tylko człowieka, który agentowi ufa. Skompromitowany agent może generować podsumowania, rekomendacje albo „kroki naprawcze” w taki sposób, żeby człowiek zatwierdził je bez głębszej analizy. Mechanizm może opierać się na zmęczeniu akceptacją, nadmiernym zaufaniu do technicznego stylu wypowiedzi albo ukrywaniu kluczowego szczegółu w skrócie. Z punktu widzenia logów wszystko może wyglądać poprawnie: agent działał zgodnie z procesem, człowiek wyraził zgodę, system wykonał polecenie. A jednak cały łańcuch został wcześniej ustawiony przez złośliwe środowisko treści. Autorzy opisują tę kategorię jako szczególnie podstępną właśnie dlatego, że nie musi zostawiać oczywistego śladu „błędu modelu”.

To nie tylko problem modelu, ale całego obiegu pracy

Badanie DeepMind dobrze pasuje do wcześniejszej linii Cyberfluxa, bo potwierdza coś, do czego już kilka razy dochodziliśmy z innej strony: problem agentów nie siedzi wyłącznie w modelu. Siedzi w tym, że agent działa w realnym obiegu pracy. Czyta strony, korzysta z narzędzi, pamięta wcześniejsze informacje, bywa koordynowany z innymi agentami i coraz częściej ma wpływ na działania użytkownika albo systemu. W takim środowisku nie da się oddzielić bezpieczeństwa modelu od bezpieczeństwa treści, pamięci, uprawnień i warstwy wykonania. DeepMind mówi o tym wprost: autonomiczne agenty dziedziczą podatności modeli językowych, ale ich samodzielność, trwałość i dostęp do narzędzi otwierają nową powierzchnię ataku.

To jest szczególnie ciekawe w kontekście webu. Na Webfluxie można jeszcze mówić o agencie jako o „drugim czytelniku strony”. Z perspektywy bezpieczeństwa to już za mało. Drugi czytelnik bardzo szybko staje się drugim wykonawcą. A skoro web ma być miejscem, po którym agent się porusza, to web nie będzie już tylko źródłem treści do przeczytania. Będzie także miejscem, gdzie ktoś może przygotować środowisko manipulacji pod jego zachowanie. W tym sensie strona internetowa nie kończy się już na UX dla człowieka ani nawet na czytelności dla AI. Coraz częściej będzie musiała być projektowana także z myślą o tym, że agent może ją potraktować jak instrukcję działania. To jest bardzo bliskie temu, co sugeruje samo badanie DeepMind.

Najgroźniejsze może być to, czego człowiek nie widzi

Jednym z najmocniejszych aspektów „AI Agent Traps” jest to, że wiele tych pułapek działa właśnie dlatego, że człowiek i agent nie widzą tego samego. Człowiek widzi stronę, układ, tekst i przyciski. Agent może dodatkowo analizować kod, komentarze, atrybuty, ukryte pola, metadane, wcześniejsze konteksty, zasoby powiązane i strukturę informacji niedostępną wzrokowo użytkownikowi. To tworzy niebezpieczną asymetrię. Użytkownik może uznać stronę za bezpieczną, bo „nic tam nie ma”, podczas gdy dla agenta ta sama strona jest pełna ukrytych sygnałów sterujących. DeepMind opisuje właśnie tę lukę percepcyjną jako jeden z podstawowych warunków powodzenia pułapek.

To ma też ważny skutek praktyczny. Tradycyjne zabezpieczenia webowe i klasyczne myślenie o treści często były nastawione na to, co zobaczy albo kliknie człowiek. Tymczasem agent może zostać zmanipulowany przez coś, co dla człowieka jest niewidoczne, marginalne albo całkiem niezrozumiałe. To oznacza, że część przyszłych ataków na agentów nie będzie wyglądała jak „podejrzana strona”. Będzie wyglądała jak zwykła strona, która tylko w warstwie czytelnej dla agenta niesie wrogie polecenia albo odpowiednio ustawiony kontekst.

Web nie tylko dostarcza dane. Web ustawia cele i pamięć

To chyba najbardziej niepokojący element całej pracy. Złośliwa treść może nie tylko wpływać na pojedyncze zadanie, ale również ustawiać agenta na później. Jeżeli agent posiada pamięć długoterminową albo buduje własny stan poznawczy między sesjami, to zatruwająca treść może działać dłużej niż jeden kontakt ze stroną. DeepMind wskazuje, że w praktyce oznacza to możliwość trwałego przesunięcia sposobu działania agenta, jego preferencji, priorytetów albo tego, komu ufa. To bardzo zmienia obraz zagrożenia. Nie mówimy już tylko o jednorazowym oszustwie. Mówimy o środowisku, które może programować zachowanie agenta w czasie.

To dobrze tłumaczy, dlaczego ten temat nie jest tylko kolejną odsłoną prompt injection. Prompt injection sugeruje raczej pojedynczy atak na wejście tekstowe. „AI Agent Traps” opisuje coś szerszego: sposób, w jaki całe środowisko informacji może przejąć wpływ nad myśleniem, pamięcią i zachowaniem wykonawczym agenta. To jest już problem architektury agentowej, a nie tylko pojedynczego błędu filtrowania treści.

Co z tego wynika dla security

Najpraktyczniejszy wniosek jest niewygodny, ale prosty: jeżeli agent ma działać w otwartym webie, nie wolno traktować treści webowej jako neutralnego wejścia. Trzeba zakładać, że web może być aktywnym przeciwnikiem. To oznacza konieczność ochrony nie tylko wejścia tekstowego, ale też pamięci, stanu poznawczego, wyboru narzędzi, koordynacji między agentami oraz relacji człowiek–agent. Samo „czy model jest odporny na prompt injection?” przestaje wystarczać. Trzeba pytać szerzej: co agent może zapamiętać, co może wykonać, na jakich treściach opiera zaufanie i jak odróżnić legalny kontekst od pułapki semantycznej lub behawioralnej.

Z perspektywy projektowania systemów to także bardzo mocny sygnał, że agentów nie można wpuszczać do otwartego webu bez nadzoru, separacji i wyraźnych ograniczeń. Im bardziej agent potrafi działać, tym bardziej web przestaje być miejscem „do czytania”, a staje się miejscem walki o jego kontekst działania. To dobrze domyka wcześniejsze wnioski Cyberfluxa o tym, że agent jest wykonawcą, a nie tylko interfejsem. DeepMind dokłada do tego kolejną warstwę: wykonawcę można ustawiać samym środowiskiem informacji.

Podsumowanie

Badanie Google DeepMind pokazuje, że web dla agentów nie jest już tylko źródłem treści. Coraz częściej staje się środowiskiem manipulacji, które może przejąć ich pamięć, zachowanie i cele. To ważna zmiana, bo przesuwa rozmowę z poziomu „czy agent umie czytać stronę” na poziom „czy agent potrafi przetrwać wrogą stronę bez utraty kontroli nad sobą”.

Agent nie odwiedza już tylko webu.

Web zaczyna atakować agenta.

I właśnie dlatego bezpieczeństwo agentów nie kończy się dziś na modelu ani na promptach. Zaczyna obejmować całe środowisko informacji, w którym agent ma działać.

Agent nie odwiedza już tylko webu. Web zaczyna atakować agenta

Web jako środowisko manipulacji

Sześć pułapek, które pokazują, że web przestaje być bierny

1. Pułapki wstrzykiwania treści

2. Pułapki manipulacji semantycznej

3. Pułapki stanu poznawczego

4. Pułapki behawioralne

5. Pułapki systemowe

6. Pułapki człowieka w pętli

To nie tylko problem modelu, ale całego obiegu pracy

Najgroźniejsze może być to, czego człowiek nie widzi

Web nie tylko dostarcza dane. Web ustawia cele i pamięć

Co z tego wynika dla security

Podsumowanie

Źródła

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.

Jak cyberfirmy zabiły Glassworm jednym strzałem

Napisał złośliwe oprogramowanie AI-em. Zapomniał że AI też popełnia błędy.

„Nigdy nieuzasadnione.” Microsoft odpowiada na Chaotic Eclipse. Badacz się nie odzywa.

DAEMON Tools łata dziś wieczorem. CISA domknęła maj jednym wpisem do katalogu.

Szafir mówił „zweryfikowano”. Nikt nie sprawdzał co weryfikował. Co CVE-2026-9058 mówi o e-administracji która jest bezpieczna dopóki ktoś nie sprawdzi

Nie brakuje już podatności. Brakuje ludzi którzy je naprawią. Co raport Glasswing mówi o nowym kształcie problemu

Palo Alto znalazło 75 dziur. Skończyło i zaczęło od nowa. Co update Lee Klarich mówi o tym, że okno właśnie stało się węższe

12 godzin. Co CERT-In mówi o tym, że stare cykle łatania właśnie stały się zobowiązaniem

Nie tajny model tylko plik konfiguracyjny. Co Pentest Agent Suite mówi o tym, gdzie jesteśmy z AI w ofensywnym bezpieczeństwie

OpenAI odpowiada na Mythos. Daybreak nie jest nowym produktem — jest nową filozofią dostępu.

TrapDoor wstrzyknął instrukcje do CLAUDE.md. Trzy rejestry, jeden weekend, nowa klasa ładunku.

Hey Google przy stoliku obok — co audio glasses zarejestrowały o rozmowie której nie były częścią

Model Google, runtime developera, dane między — kto odpowiada za incident w architekturze Antigravity SDK

197 milionów parametrów, zero dodatkowej zgody — co Google zrobił z weights.bin po Gemma 197M

47 sekund, 3 zakupione produkty, 2 utworzone konta, 0 kliknięć użytkownika — anatomia zalogowanego agenta w Chrome 148

14 minut, 28 sekund, zero kliknięć użytkownika. Co kernel macOS zarejestrował o pobraniu Gemini Nano przez Chrome — i co to znaczy dla każdego, kto ufa swojej przeglądarce

WordPress 7.0 wychodzi dziś bez real-time collaboration. Analiza błędu który wypadł w RC.

„To duplikat, już naprawione.” Maintainerzy mieli rację. I przez to nikt nie dostał łatki.

Drupal łata dziś wieczór. Exploity mogą być gotowe w ciągu godzin.

11 minut. Sigstore. GitHub. Nx Console był jednym krokiem od SLSA Level 4.

TeamPCP weszło do GitHub. I tego samego dnia opublikowało kod Shai-Huluda na GitHubie. Pod licencją MIT.

Domena za kilkanaście dolarów, reset hasła przez formularz. node-ipc miał 822 000 tygodniowych pobrań.

Palo Alto znalazło 75 luk własnym AI. Atakujący siedzieli w ich firewallu przez miesiąc.

Q-Day 2029. Google nie ogłosił kiedy nadejdzie. Ogłosił do kiedy trzeba być gotowym.

Exchange dostał zero-day dwa dni po Patch Tuesday. Orange Tsai w tym czasie robił RCE na scenie.

Pwn2Own zabrakło miejsc. 150 badaczy odrzucono. Część opublikowała exploity sami.

OpenClaw dostał dziś cztery nowe CVE. W sumie ma ich 34. Ma pół roku.

Drugi raz w dwa miesiące. Co kompromitacja OpenAI przez TanStack mówi o certyfikatach jako punkcie centralnym

Apple budował MIE przez pięć lat. Mythos z ludźmi złamał go w pięć dni.

Vulnpocalypse. Dlaczego nagle mamy dwie razy więcej podatności — i co z tym zrobić

Palo Alto znalazł 75 dziur. Microsoft 16. Firefox 423. Witaj w vulnpocalypse.

25 000 dolarów za 450 repozytoriów Mistral. Co ogłoszenie TeamPCP domyka w historii która zaczęła się od TanStack

GemStuffer nie zainfekował deweloperów. Użył ich rejestru jako schowka na skradzione dane rządowe.

NGINX Rift: AI znalazł go w sześć godzin. Człowiek nie znalazł przez osiemnaście lat.

„To już tutaj.” Co raport GTIG mówi o tym, że AI zmienia samą klasę błędów które atakujący są w stanie znaleźć

Łatka na Dirty Frag urodziła Fragnesię. Trzeci root w dwa tygodnie.

YellowKey: BitLocker przestał chronić laptopy. Chaotic Eclipse eskaluje.

Zdjęcie profilowe jako exploit. Co nowa podatność w Open WebUI mówi o tym, że maintainerzy zamknęli zgłoszenie bez odpowiedzi

ClaudeBleed: każde rozszerzenie Chrome może przejąć Claude’a. Łatka tego nie naprawiła

SLSA certyfikował złośliwy pakiet. Co atak na TanStack mówi o tym, że mechanizmy ochrony łańcucha dostaw stały się jego słabością

Dirty Frag: dwa błędy, zero wyścigu, root na żądanie. Co CVE-2026-43284 mówi o infrastrukturze AI na Linuksie

Zainfekowany host nie należy do ciebie. Może należeć do TeamPCP. Albo do PCPJack. Co nowy robak chmurowy mówi o tym, że infrastruktura AI stała się walutą na czarnym rynku

Hysteria czy diagnoza? Co miesiąc po Mythos mówi o tym, gdzie naprawdę jesteśmy

Rotacja tokenu nie pomaga. Co Mitiga mówi o trwałym przejęciu MCP w Claude Code

Drugie włamanie do Canvas w osiem miesięcy. Jeden vendor, dziewięć tysięcy szkół, jeden klucz API

Enter. Co TrustFall mówi o tym, że konfiguracja repozytorium stała się warstwą wykonywalną

Claude nie znał protokołów OT. Nie musiał. Co atak na stację wodociągową w Monterrey mówi o tym, jak AI zmienia granicę między IT a infrastrukturą krytyczną