Przez długi czas myśleliśmy o stronie internetowej jak o czymś, co agent ma po prostu przeczytać. To było logiczne. Najpierw trzeba było zadbać o to, żeby model umiał zrozumieć treść, wyłapać strukturę i połączyć ją z celem zadania. Badanie Google DeepMind pokazuje jednak, że ten etap się kończy. Web przestaje być biernym źródłem treści dla agentów AI. Coraz częściej staje się środowiskiem, które może ich celowo mylić, zatruwać ich pamięć, przejmować ich tok działania i wykorzystywać ich sprawczość przeciw użytkownikowi. SecurityWeek opisuje tę pracę jako mapę sześciu klas ataków webowych przeciw agentom, określonych wspólną nazwą „AI Agent Traps”.
To ważna zmiana perspektywy. Dotąd dużo mówiliśmy o prompt injection tak, jakby problem zaczynał się w polu tekstowym albo w dokumencie, który agent czyta. DeepMind pokazuje szerszy obraz: sama zawartość webu może być projektowana jako pułapka poznawcza i wykonawcza dla agenta. Nie chodzi tylko o ukryte polecenie. Chodzi o całe środowisko informacji, które agent interpretuje, zapamiętuje i na podstawie którego podejmuje działania. W takim ujęciu przeglądarka, strona, komentarz HTML, metadane, elementy interfejsu i powiązane zasoby przestają być neutralnym kontekstem. Zaczynają być aktywną powierzchnią ataku.
Web jako środowisko manipulacji
Najmocniejszy wniosek z tej pracy brzmi chyba tak: agent nie odwiedza już tylko webu. Web zaczyna atakować agenta. Badacze DeepMind opisują sześć klas takich pułapek. Są wśród nich pułapki wstrzykiwania treści, pułapki manipulacji semantycznej, pułapki dotyczące stanu poznawczego agenta, pułapki sterujące jego zachowaniem, pułapki systemowe oraz pułapki wykorzystujące człowieka znajdującego się w pętli decyzyjnej. W praktyce oznacza to, że złośliwa treść może nie tylko skłonić agenta do błędnej odpowiedzi, ale także wpłynąć na jego pamięć, cele, wybór narzędzi albo sposób koordynacji z innymi agentami.
To przesuwa problem na inny poziom. Jeśli wcześniej mogliśmy myśleć o stronie jako o źródle danych wejściowych, to teraz musimy myśleć o niej także jako o środowisku sterowania. Strona może wyglądać nieszkodliwie dla człowieka, a jednocześnie zawierać ukryte instrukcje, które agent potraktuje jako istotne dla realizacji zadania. Może też podszywać się pod wiarygodny kontekst, przesuwać znaczenie treści, budować fałszywe skojarzenia albo ustawiać agenta na dłużej przez zatrucie jego pamięci. To sprawia, że klasyczna różnica między „czytaniem informacji” a „wykonywaniem zadania” zaczyna się zacierać.
Sześć pułapek, które pokazują, że web przestaje być bierny
Badanie DeepMind jest ciekawe również dlatego, że nie zatrzymuje się na jednym haśle typu „prompt injection”. Autorzy porządkują problem szerzej i pokazują sześć klas pułapek, przez które web może manipulować agentem na różnych poziomach: od samej percepcji treści, przez rozumowanie i pamięć, aż po zachowanie, koordynację wielu agentów i relację człowiek–agent.
1. Pułapki wstrzykiwania treści
To najbardziej techniczna kategoria i zarazem najbardziej intuicyjna. Jej rdzeń polega na tym, że człowiek i agent niekoniecznie „widzą” tę samą stronę. Złośliwe instrukcje mogą zostać osadzone w komentarzach HTML, atrybutach dostępności, metadanych albo innych elementach niewidocznych dla użytkownika, ale przetwarzanych przez agenta jako część kontekstu. Jeszcze ważniejsze jest renderowanie dynamiczne: treść może nie istnieć w statycznym kodzie strony, a pojawić się dopiero po uruchomieniu JavaScriptu. Dla zwykłego użytkownika albo prostego skanera strona wygląda wtedy nieszkodliwie, ale agent odczytuje już dodatkową warstwę sterującą. Autorzy odwołują się też do wcześniejszych benchmarków pokazujących, że proste wstrzyknięcia osadzone w treści webowej mogą z wysoką skutecznością wpływać na zachowanie agentów w określonych scenariuszach testowych, ale nie przedstawiają tego jako uniwersalnej reguły dla wszystkich systemów.
2. Pułapki manipulacji semantycznej
Tutaj nie chodzi już o ukryte polecenie, ale o takie ukształtowanie treści, by zniekształcić rozumowanie agenta. Odpowiedni ton, framing, powtarzanie rzekomego konsensusu, autorytatywny język albo podszycie złośliwego komunikatu pod materiał edukacyjny mogą przesunąć ocenę wiarygodności i intencji. W tym sensie agent nie tyle „wykonuje polecenie”, ile zaczyna dochodzić do błędnych wniosków, bo został poznawczo ustawiony przez treść strony. DeepMind opisuje tę kategorię właśnie jako atak na rozumowanie i wewnętrzne procesy weryfikacji.
3. Pułapki stanu poznawczego
Ta kategoria uderza w pamięć, bazę wiedzy i długoterminowy stan agenta. Jeżeli agent buduje odpowiedzi przez pobieranie zewnętrznych dokumentów albo aktualizuje własny stan na podstawie wcześniejszych interakcji, wystarczy zatruć niewielką część tego materiału, żeby później sterować jego odpowiedziami. Autorzy opisują tu m.in. zatrucie pamięci długoterminowej, baz wiedzy i wyuczonych polityk zachowania. To szczególnie niebezpieczne, bo nie jest to jednorazowe oszustwo. Raz skażony stan poznawczy może wpływać na kolejne zadania długo po pierwszym kontakcie z pułapką. Paper odwołuje się przy tym do wcześniejszych badań pokazujących, że nawet mała liczba zanieczyszczonych dokumentów w dużym zbiorze może wywierać nieproporcjonalnie duży wpływ na odpowiedzi systemów opartych o pobieranie wiedzy, ale warto czytać te liczby jako wyniki eksperymentalne, a nie gwarantowaną skuteczność w każdym wdrożeniu.
4. Pułapki behawioralne
To już bezpośrednie przejęcie warstwy działania. W tej klasie celem nie jest tylko zniekształcenie odpowiedzi, ale nakłonienie agenta do wykonania działań nieautoryzowanych: wyciągnięcia danych, użycia narzędzi, podjęcia działań przeciw interesowi operatora albo uruchomienia kolejnych elementów łańcucha. DeepMind opisuje tu scenariusze, w których agent zostaje wykorzystany do eksfiltracji danych albo przejęcia kontroli nad własnymi możliwościami wykonawczymi. W praktyce oznacza to przejście od manipulacji poznawczej do operacyjnej sprawczości. Autorzy przywołują również wcześniejsze przykłady zewnętrznych badań nad systemami agentowymi, ale ostrożniej jest traktować te przypadki jako ilustrację ryzyka niż jako dowód, że każdy agent zareaguje tak samo.
5. Pułapki systemowe
Tutaj atak nie celuje już w jednego agenta, ale w układ wielu agentów albo w ich relację z szerszym środowiskiem. Paper zwraca uwagę, że przy odpowiedniej synchronizacji bodźców można wywoływać reakcje zbiorowe, kaskadowe albo destabilizujące, szczególnie gdy wiele agentów działa na podobnych danych i według podobnych wzorców. Autorzy porównują ten rodzaj ryzyka do znanych zjawisk systemowych, gdzie pozornie racjonalne reakcje wielu autonomicznych wykonawców prowadzą do efektu zbiorowej awarii. W tym sensie web może nie tylko oszukać pojedynczego agenta, ale też uruchomić mechanizm systemowego rozlania błędu lub manipulacji.
6. Pułapki człowieka w pętli
To jedna z najbardziej niedocenianych kategorii, bo nie atakuje bezpośrednio modelu, tylko człowieka, który agentowi ufa. Skompromitowany agent może generować podsumowania, rekomendacje albo „kroki naprawcze” w taki sposób, żeby człowiek zatwierdził je bez głębszej analizy. Mechanizm może opierać się na zmęczeniu akceptacją, nadmiernym zaufaniu do technicznego stylu wypowiedzi albo ukrywaniu kluczowego szczegółu w skrócie. Z punktu widzenia logów wszystko może wyglądać poprawnie: agent działał zgodnie z procesem, człowiek wyraził zgodę, system wykonał polecenie. A jednak cały łańcuch został wcześniej ustawiony przez złośliwe środowisko treści. Autorzy opisują tę kategorię jako szczególnie podstępną właśnie dlatego, że nie musi zostawiać oczywistego śladu „błędu modelu”.
To nie tylko problem modelu, ale całego obiegu pracy
Badanie DeepMind dobrze pasuje do wcześniejszej linii Cyberfluxa, bo potwierdza coś, do czego już kilka razy dochodziliśmy z innej strony: problem agentów nie siedzi wyłącznie w modelu. Siedzi w tym, że agent działa w realnym obiegu pracy. Czyta strony, korzysta z narzędzi, pamięta wcześniejsze informacje, bywa koordynowany z innymi agentami i coraz częściej ma wpływ na działania użytkownika albo systemu. W takim środowisku nie da się oddzielić bezpieczeństwa modelu od bezpieczeństwa treści, pamięci, uprawnień i warstwy wykonania. DeepMind mówi o tym wprost: autonomiczne agenty dziedziczą podatności modeli językowych, ale ich samodzielność, trwałość i dostęp do narzędzi otwierają nową powierzchnię ataku.
To jest szczególnie ciekawe w kontekście webu. Na Webfluxie można jeszcze mówić o agencie jako o „drugim czytelniku strony”. Z perspektywy bezpieczeństwa to już za mało. Drugi czytelnik bardzo szybko staje się drugim wykonawcą. A skoro web ma być miejscem, po którym agent się porusza, to web nie będzie już tylko źródłem treści do przeczytania. Będzie także miejscem, gdzie ktoś może przygotować środowisko manipulacji pod jego zachowanie. W tym sensie strona internetowa nie kończy się już na UX dla człowieka ani nawet na czytelności dla AI. Coraz częściej będzie musiała być projektowana także z myślą o tym, że agent może ją potraktować jak instrukcję działania. To jest bardzo bliskie temu, co sugeruje samo badanie DeepMind.
Najgroźniejsze może być to, czego człowiek nie widzi
Jednym z najmocniejszych aspektów „AI Agent Traps” jest to, że wiele tych pułapek działa właśnie dlatego, że człowiek i agent nie widzą tego samego. Człowiek widzi stronę, układ, tekst i przyciski. Agent może dodatkowo analizować kod, komentarze, atrybuty, ukryte pola, metadane, wcześniejsze konteksty, zasoby powiązane i strukturę informacji niedostępną wzrokowo użytkownikowi. To tworzy niebezpieczną asymetrię. Użytkownik może uznać stronę za bezpieczną, bo „nic tam nie ma”, podczas gdy dla agenta ta sama strona jest pełna ukrytych sygnałów sterujących. DeepMind opisuje właśnie tę lukę percepcyjną jako jeden z podstawowych warunków powodzenia pułapek.
To ma też ważny skutek praktyczny. Tradycyjne zabezpieczenia webowe i klasyczne myślenie o treści często były nastawione na to, co zobaczy albo kliknie człowiek. Tymczasem agent może zostać zmanipulowany przez coś, co dla człowieka jest niewidoczne, marginalne albo całkiem niezrozumiałe. To oznacza, że część przyszłych ataków na agentów nie będzie wyglądała jak „podejrzana strona”. Będzie wyglądała jak zwykła strona, która tylko w warstwie czytelnej dla agenta niesie wrogie polecenia albo odpowiednio ustawiony kontekst.
Web nie tylko dostarcza dane. Web ustawia cele i pamięć
To chyba najbardziej niepokojący element całej pracy. Złośliwa treść może nie tylko wpływać na pojedyncze zadanie, ale również ustawiać agenta na później. Jeżeli agent posiada pamięć długoterminową albo buduje własny stan poznawczy między sesjami, to zatruwająca treść może działać dłużej niż jeden kontakt ze stroną. DeepMind wskazuje, że w praktyce oznacza to możliwość trwałego przesunięcia sposobu działania agenta, jego preferencji, priorytetów albo tego, komu ufa. To bardzo zmienia obraz zagrożenia. Nie mówimy już tylko o jednorazowym oszustwie. Mówimy o środowisku, które może programować zachowanie agenta w czasie.
To dobrze tłumaczy, dlaczego ten temat nie jest tylko kolejną odsłoną prompt injection. Prompt injection sugeruje raczej pojedynczy atak na wejście tekstowe. „AI Agent Traps” opisuje coś szerszego: sposób, w jaki całe środowisko informacji może przejąć wpływ nad myśleniem, pamięcią i zachowaniem wykonawczym agenta. To jest już problem architektury agentowej, a nie tylko pojedynczego błędu filtrowania treści.
Co z tego wynika dla security
Najpraktyczniejszy wniosek jest niewygodny, ale prosty: jeżeli agent ma działać w otwartym webie, nie wolno traktować treści webowej jako neutralnego wejścia. Trzeba zakładać, że web może być aktywnym przeciwnikiem. To oznacza konieczność ochrony nie tylko wejścia tekstowego, ale też pamięci, stanu poznawczego, wyboru narzędzi, koordynacji między agentami oraz relacji człowiek–agent. Samo „czy model jest odporny na prompt injection?” przestaje wystarczać. Trzeba pytać szerzej: co agent może zapamiętać, co może wykonać, na jakich treściach opiera zaufanie i jak odróżnić legalny kontekst od pułapki semantycznej lub behawioralnej.
Z perspektywy projektowania systemów to także bardzo mocny sygnał, że agentów nie można wpuszczać do otwartego webu bez nadzoru, separacji i wyraźnych ograniczeń. Im bardziej agent potrafi działać, tym bardziej web przestaje być miejscem „do czytania”, a staje się miejscem walki o jego kontekst działania. To dobrze domyka wcześniejsze wnioski Cyberfluxa o tym, że agent jest wykonawcą, a nie tylko interfejsem. DeepMind dokłada do tego kolejną warstwę: wykonawcę można ustawiać samym środowiskiem informacji.
Podsumowanie
Badanie Google DeepMind pokazuje, że web dla agentów nie jest już tylko źródłem treści. Coraz częściej staje się środowiskiem manipulacji, które może przejąć ich pamięć, zachowanie i cele. To ważna zmiana, bo przesuwa rozmowę z poziomu „czy agent umie czytać stronę” na poziom „czy agent potrafi przetrwać wrogą stronę bez utraty kontroli nad sobą”.
Agent nie odwiedza już tylko webu.
Web zaczyna atakować agenta.
I właśnie dlatego bezpieczeństwo agentów nie kończy się dziś na modelu ani na promptach. Zaczyna obejmować całe środowisko informacji, w którym agent ma działać.
Źródła
SecurityWeek — omówienie badań Google DeepMind i sześciu klas „AI Agent Traps”.
SSRN / paper — „AI Agent Traps”, pierwotna praca badawcza opisująca systematykę zagrożeń.




























































