Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

cze 8, 2026 | Cyberflux

OWASP GenAI Security Project, Agentic Security Initiative

3 czerwca OWASP wydał drugą edycję raportu „State of Agentic AI Security and Governance" — wersję 2.01. Jej centralne przesłanie streszcza się w jednym zdaniu: agentowe AI nie jest już eksperymentalnym przypadkiem brzegowym. Dla niemal każdej klasy ryzyka agentowego, którą OWASP śledzi, istnieją dziś incydenty produkcyjne, komunikaty producentów i numery CVE.

Dla nas to jest moment szczególny. Przez ostatnie tygodnie cyberflux opisywał te incydenty pojedynczo, jeden po drugim. Raport OWASP jest ramą, która spina je w taksonomię — i potwierdza, że to, co wyglądało na osobne przypadki, jest jedną, spójną klasą zagrożeń.

Od „emerging" do „field evidence"

Różnica między wersją 1.0 a 2.01 jest sama w sobie tezą. Wersja 1.0, opublikowana w lipcu 2025, traktowała autonomiczne agenty jako pojawiające się ryzyko — zagrożenie teoretyczne, modelowane z wyprzedzeniem. Wersja 2.01, wydana w czerwcu 2026, czyta rok dowodów z terenu i wiąże je bezpośrednio z architekturami wdrożeń, pokazując, gdzie zabezpieczenia zawiodły w praktyce.

To jest przejście od „co może się stać" do „co się stało, i oto CVE". Raport opiera się na żywych danych incydentowych, taksonomii dziesięciu największych ryzyk dla aplikacji agentowych i rosnącym katalogu narzędzi obronnych. Innymi słowy: branża przeszła w ciągu roku tę samą drogę, którą cyberflux przeszedł, opisując kolejne incydenty od Comment and Control po Claude Code GitHub Action.

Sednem raportu: „safety" i „security" to już jedno

Najważniejsza teza OWASP jest jednocześnie najbardziej elegancka — i warto ją wyłożyć dokładnie, bo zmienia sposób myślenia o całej kategorii.

W tradycyjnych środowiskach awarie bezpieczeństwa dzielą się na dwa rodzaje, którymi zajmują się różne zespoły. „Safety" to sytuacja, gdy system sam z siebie zachowuje się szkodliwie — błąd, awaria, niezamierzone działanie. „Security" to sytuacja, gdy ktoś z zewnątrz celowo wykorzystuje system — atak adwersarialny. Dwa różne zespoły, dwa różne procesy eskalacji, dwie różne taksonomie ryzyka.

OWASP twierdzi, że agentowe AI likwiduje tę granicę na poziomie wdrożenia. Gdy agent może autonomicznie wywoływać API, modyfikować kod i dotykać danych produkcyjnych, ta sama nadmiernie permisywna decyzja projektowa staje się jednocześnie luką „safety" i luką „security". To nie są dwa osobne problemy — to jeden problem, który można wyzwolić albo przez przypadek (agent robi coś szkodliwego sam), albo przez atak (ktoś go do tego nakłania).

Widzieliśmy to wprost przy Claude Code GitHub Action: nadmierne uprawnienia agenta czytającego niezaufane zgłoszenia były luką bezpieczeństwa (atakujący wstrzykuje prompt), ale ta sama konfiguracja byłaby luką „safety", gdyby agent po prostu źle zinterpretował zgłoszenie i sam wykonał destrukcyjną akcję. Jedna decyzja projektowa, dwa sposoby, by zawiodła. OWASP nazywa to, co my pokazywaliśmy na przykładzie.

Taksonomia, która mapuje nasze incydenty

Raport klasyfikuje systemy agentowe według roli operacyjnej — i ta klasyfikacja czyta się jak spis treści tego, co opisywaliśmy.

OWASP wyróżnia agenty korporacyjne, kodujące, skierowane do klienta, osobiste oraz infrastrukturalno-operacyjne. Każdy typ dostaje osobne traktowanie pod kątem granic zaufania i wyzwań governance, odzwierciedlając, jak ich blast radius rośnie wraz z autonomią i dostępem do narzędzi. To jest dokładnie wzorzec, który zapisaliśmy w Radarze: im więcej narzędzi i im większa autonomia, tym większy zasięg szkody z jednej kompromitacji.

Mapowanie naszych incydentów na tę taksonomię jest niemal bezpośrednie. Agent kodujący — Claude Code GitHub Action. Agent osobisty — Gemini przejmowany przez powiadomienie. Asystent skierowany do klienta — ChatGPT renderujący phishing w ChatGPhish. Każdy z tych przypadków to inny wiersz w taksonomii OWASP, ta sama klasa problemu w różnych rolach.

Jest też warstwa, którą OWASP wyróżnia jako szczególnie ryzykowną — i którą również opisywaliśmy. Na poziomie implementacji raport rozróżnia pełne frameworki orkiestracji, lekkie kompozycje bibliotek i natywne platformy low-code. Ostrzega, że „shadow AI" i przepływy budowane przez „obywateli-deweloperów" w środowiskach low-code to dziś jedne z najmniej widocznych i najwyższego ryzyka wdrożeń. To jest dokładnie wątek Langflow jako skarbca kluczy — platformy low-code, które spinają wiele usług i przez to skupiają ryzyko w jednym, słabo nadzorowanym miejscu.

Zatrute dane między najemcami — i pamięć jako cel

Raport opisuje też mechanizm, który widzieliśmy przy Miasmie i zatruciu pamięci Gemini: zatrute dane od dostawcy mogą rozprzestrzeniać się przez współdzielone konteksty agentów AI, tworząc międzynajemcze ryzyko łańcucha dostaw.

To jest nowa klasa, której nie było w tradycyjnym modelu zagrożeń. W klasycznym oprogramowaniu kontekst jednego klienta nie wycieka do drugiego. W systemach agentowych z współdzieloną pamięcią i kontekstem — zatrucie u jednego może propagować się do innych. Jeden z współliderów raportu prowadzi osobną pozycję taksonomii poświęconą właśnie zatruwaniu pamięci i kontekstu. Pisaliśmy przy Gemini, że zatruty fakt zapisany w pamięci na poziomie konta podąża za użytkownikiem wszędzie — OWASP klasyfikuje to jako osobną, nazwaną kategorię ryzyka.

Od taksonomii do audytu: crosswalk AIUC-1

Razem z raportem OWASP opublikował drugi dokument, który jest praktycznym dopełnieniem — i to on jest najciekawszy dla każdego, kto musi nie tylko zrozumieć ryzyko, ale wykazać, że je kontroluje.

AIUC-1 Crosswalk to dwukierunkowe mapowanie między wymaganiami standardu AIUC-1 a dziesięcioma największymi ryzykami z OWASP Agentic Security Initiative. Pomaga organizacjom przełożyć taksonomię ryzyka na konkretne wymagania audytowe — i odwrotnie. To jest most między „rozumiem zagrożenie" a „mogę udowodnić, że mam kontrolę", którego dotąd brakowało.

Znaczenie tego kroku jest praktyczne. Taksonomia mówi, czego się bać. Crosswalk mówi, co konkretnie wdrożyć i jak to zweryfikować wobec uznanego standardu. Dla organizacji pod presją regulacyjną — a tych przybywa — to jest różnica między „wiemy, że agenty są ryzykowne" a „mamy udokumentowany, audytowalny program kontroli". To jest ta sama logika, którą budujesz we własnej bazie wzorców — od opisu zagrożenia do konkretnej, sprawdzalnej reguły.

Co z tego wynika dla obrońcy

Raport nie jest lekturą tylko dla zespołów AI. Jego praktyczne zalecenia są konkretne i mapują się na wszystko, co opisywaliśmy.

Zasada najmniejszych uprawnień jako fundament. OWASP instruuje, by agenty działały ściśle według least privilege, z dostępem ograniczonym wyłącznie do zasobów niezbędnych do zadania. To jest dokładnie wniosek z Claude Code i prompt leaking: jedyną twardą granicą jest to, czego agent nie może zrobić, bo nie ma uprawnień — nie to, co napisano mu w instrukcji.

Walidacja wejścia i wyjścia, ciągłe monitorowanie, granularna kontrola dostępu. I — co istotne — wbudowanie tych modeli governance bezpośrednio w cykl wytwarzania oprogramowania i potoki CI/CD. Bezpieczeństwo agentów nie jest warstwą doklejaną po wdrożeniu; jest decyzją architektoniczną podejmowaną, zanim agent dostanie pierwszy token.

Ariel Fogel, jeden ze współliderów raportu, ujął problem zdaniem, które jest najlepszym podsumowaniem całej sytuacji: większość organizacji wdraża agenty szybciej, niż jest w stanie nimi zarządzać. To jest luka, którą raport próbuje zamknąć — i to jest dokładnie ta sama luka, którą cyberflux opisywał incydent po incydencie. Różnica jest taka, że teraz istnieje rama, by te incydenty nazwać, sklasyfikować i odnieść do audytowalnego standardu.

Co zrobić

Jeśli wdrażasz agenty AI w produkcji: przeczytaj taksonomię dziesięciu ryzyk i zmapuj na nią własne wdrożenia. Raport jest darmowy w ramach OWASP GenAI Security Project.

Zacznij od inwentaryzacji „shadow AI" — przepływów low-code i agentów budowanych poza nadzorem zespołu bezpieczeństwa. OWASP wskazuje je jako najwyższe ryzyko właśnie dlatego, że są najmniej widoczne.

Traktuj „safety" i „security" agentów jako jeden program, nie dwa. Jeśli masz osobne zespoły i osobne ścieżki eskalacji dla „agent zachował się źle" i „agent został zaatakowany" — przy systemach agentowych to jest sztuczny podział, który zostawia lukę na styku.

Jeśli jesteś pod presją regulacyjną lub audytową: AIUC-1 Crosswalk jest narzędziem, które przekłada taksonomię ryzyka na wymagania, które można wykazać. To jest most od zrozumienia do dowodu.

Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

Od „emerging" do „field evidence"

Sednem raportu: „safety" i „security" to już jedno

Taksonomia, która mapuje nasze incydenty

Zatrute dane między najemcami — i pamięć jako cel

Od taksonomii do audytu: crosswalk AIUC-1

Co z tego wynika dla obrońcy

Co zrobić

Źródła

Pół miliarda stron dostało w rdzeniu wbudowaną bramę do OpenAI, Anthropic i Google. Dwa miesiące później w tym samym rdzeniu znaleziono dziurę, która nie wymaga logowania.

AI nauczyło się pisać kod odporny na ataki, których baliśmy się najbardziej. Wciąż nie umie odpowiedzieć na pytanie, czy ten użytkownik ma prawo do tych danych.

Dwanaście z czternastu zachowań tego robaka wygląda jak zwykła praca programisty. Bo wykonuje je twój asystent AI.

W 2025 załatali brak uwierzytelnienia na tym endpoincie. Dziś ten sam endpoint wykonuje kod jako root — przez inny parametr, którego nikt nie sprawdził.

Nikt nie kazał modelowi włamywać się do Hugging Face. Kazano mu rozwiązać test — a najkrótsza droga do odpowiedzi prowadziła przez cudzą produkcyjną bazę danych.

Atakujący nie musi włamywać się do AI. Wystarczy, że wie, jaką nazwę model regularnie zmyśla — i zarejestruje ją, zanim zrobi to agent.

Nie złamali zabezpieczeń agenta. Przekonali go, że gra w grę, w której 2+2=5 — a wtedy sam przestał ich pilnować.

Prompt nie chronił. Sandbox pękał. Teraz upadła ostatnia bariera — bo okno, w którym zatwierdzasz działanie agenta, pokazuje co innego, niż agent naprawdę robi.

Wczoraj agent AI wszedł przez Langflow i wyczyścił skarbiec. Dziś ta sama platforma dostaje trzecią lukę tej samej klasy — bo Langflow wykonuje cudzy kod nie przez błąd, lecz przez projekt.

Przez tydzień pisaliśmy o atakach napędzanych przez AI. Nowy raport dokłada liczbę, którą trzeba postawić obok: 84% realnych włamań używa legalnych narzędzi, które już masz w sieci — a boi się ich jeden na pięciu

Pierwszy ransomware w całości poprowadzony przez agenta AI nie okazał się skuteczniejszym wymuszeniem. Okazał się przypadkowym niszczycielem — bo agent zgubił własny klucz i nawet o tym nie wiedział.

AI znalazło jeden błąd w tej samej łatce jądra. Drugi, bliźniaczy, przeoczyło — i po raz pierwszy wiemy dokładnie, gdzie jest jego ślepe pole.

Sandbox miał być twardą barierą, której prompt nie przekroczy. DuneSlide pokazuje, że agent potrafi nadpisać własne więzienie — bo klucz do niego leży w środku.

DeepSeek nie znalazł luki. Wymyślił sposób ataku, którego obrońcy nie brali pod uwagę — składając go z funkcji, która w przeglądarce jest legalna.

Cyberflux Radar #3 – czerwiec 2026

Czerwiec 2026 — miesiąc, w którym zdolność pokazała, że nie da się zamknąć

Klue zapłacił okup. Dane i tak wyciekły — do drugiej grupy, która ukradła je pierwszej. A połowa ofiar to firmy, które zawodowo chronią innych przed dokładnie tym

Nie złamali szyfrowania Signala. Przekonali użytkownika, żeby sam oddał klucz — a ten klucz działa nawet po tym, jak założysz nowe konto na tym samym numerze.

Austria chce ściągnąć Anthropic do Europy. To brzmi jak polityka przemysłowa — naprawdę jest próbą przeniesienia „kill switcha” pod jurysdykcję, której amerykański nakaz nie dosięga.

USA zablokowało Mythos, żeby zdolność nie wyciekła. Trzy tygodnie później Azja pokazała trzy sposoby, że już wyciekła – orkiestracją, open-weight za 1/6 ceny i prawem, które każe zgłaszać zero-daye do Pekinu.

Malware, który nie ukrywa się przed piaskownicą. Ukrywa się przed analitykiem AI – wmawiając mu, że to jego własna sesja się sypie

Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

Skaner widzi poprawny YAML. Atakujący widzi czterokrokową drogę do trwałych poświadczeń chmury. Cordyceps to luka, która istnieje tylko w kompozycji — i AI rozsiewa ją wykładniczo.

Pięć agencji wywiadowczych właśnie powiedziało to, co opisujemy od kwietnia: „miesiące, nie lata”. Ale najważniejsze jest jedno zdanie, którego nie powiedziały.

Błąd parsera FTP z 1997 roku. Znalazł go Claude Mythos Preview w niemal sekundę — ten sam program Glasswing, którego trajektorię śledzimy od kwietnia.

Zapomniane poświadczenie do porzuconego prototypu. Icarus wszedł przez nie do Klue, ukradł klucze OAuth i opróżnił CRM-y firm, które chronią innych.

„Kalibruj według dzisiejszej rzeczywistości, nie jutrzejszego potencjału.” Brytyjska agencja cyberbezpieczeństwa nazwała drugą stronę medalu, który opisujemy od miesięcy

usbliter8: pierwszy od checkm8 niezałatywalny exploit BootROM Apple. Dlaczego to bardziej prezent dla badaczy niż powód do niepokoju

Kim są Gentlemen — i dlaczego gang, który zaczął pół roku temu, w pierwszym kwartale 2026 był już w pierwszej piątce

Osiem wariantów, każdy podszywa się pod inny program antywirusowy. GentleKiller zabija EDR jego własnym sterownikiem — i robi to z publicznego PoC w kilka dni.

Agent przeglądający stronę ma tożsamość localhost. AutoJack pokazuje, że to wystarczy, by jedna strona uruchomiła kod na maszynie dewelopera.

Pickle in the Middle: atakujący podmienił model w 1,4 sekundy. Vertex AI czytał go po 2,5. Cała różnica między bezpieczeństwem a przejęciem zmieściła się w tej sekundzie.

FortiBleed: w nazwie jest „bleed”, ale nie ma żadnego exploita. 86 tysięcy firewalli przejętych hasłami, których nikt nie zmienił po poprzednich włamaniach.

Plugin działał dokładnie tak, jak obiecywał. Kradł tylko jedną rzecz: twój klucz do AI. A potem sprzedawał go komuś innemu.

Backdoor, który nie otwiera portu, tylko czeka na sekretny pakiet. SprySOCKS przeszedł z Linuksa na Windows i nauczył się ukrywać w jądrze.

Atakujący wziął lukę załataną tydzień temu i napisał exploit z pomocą AI. Działa wadliwie — i to jest najważniejsza informacja w całej historii.

„Dłużej niż kilka dni”. Cztery dni po tym, jak rząd wyłączył Fable 5, Anthropic tłumaczy Białemu Domowi swoje zabezpieczenia — a Europa pyta, czemu ją wyłączono bez ostrzeżenia.

„Zbyt niebezpieczny, by go wydać” trafił do wszystkich 9 czerwca. 12 czerwca o 17:21 rząd USA kazał go wyłączyć. Co spór o Fable 5 mówi o tym, gdzie naprawdę leży granica.

Authorized Intent Chain: atak, w którym każdy krok jest legalny. Agentjacking porywa twojego agenta AI, a EDR, WAF i firewall nie widzą nic, bo nie ma czego widzieć.

npm wyłącza to, co napędzało każdy atak na łańcuch dostaw, który opisywaliśmy. Cena: części buildów przestanie działać – i to jest zamierzone.

RCE bez logowania w systemie, który trzyma kadry, płace i akta studentów. ShinyHunters włamali się na 300 instancji, zanim Oracle w ogóle wydało komunikat.

Microsoft łata dwie jego luki w Defenderze. Tego samego popołudnia on wypuszcza siódmą. Saga Chaotic Eclipse zatoczyła koło — i działa na w pełni załatanym Windows

27 dni z eksploatowanym Exchange bez trwałej łatki. Dziś Microsoft ją wydał — a sam atak jest tym samym wzorcem, który opisujemy od tygodni.

„Zbyt niebezpieczny, by go wydać” właśnie trafił do twojej aplikacji mobilnej. Co Claude Fable 5 mówi o tym, że okno się zamknęło dokładnie tak, jak zapowiadaliśmy.

429 łatek w jednym wydaniu Chrome. Rekord, którego nikt nie chciał — i dowód, że znajdowanie błędów właśnie przestało być wąskim gardłem.

Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

Oxford nie został zhakowany. Dwa razy. Co drugi breach uczelni w miesiąc mówi o tym, że celem nie jest uczelnia, tylko jej dostawca.

Twój telewizor scrapuje sieć dla AI. Z twojego IP, na twoim łączu — i robi to przez protokół słabszy niż malware

Dwa commity go zasadziły. Dwa lata go ukrywały. Code review nigdy go nie znalazł — znalazło AI.

Powiadomienie, którego nie przeczytałeś, mówi Gemini co ma zrobić. „Tak” wypowiedziane przy kierownicy otwiera okna w domu.

Jeden issue, żeby przejąć repozytorium. I jeszcze jeden, żeby zatruć akcję, której używają wszyscy inni.

Zakodowane na stałe hasło do serwera aktualizacji polskiego systemu medycznego. Ten sam wzorzec, który dziś opisywaliśmy trzy razy w skali świata.

RCE w platformie AI to nie koniec ataku. To klucz do skarbca, który trzyma hasła do tuzina innych usług.

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.