Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

cze 25, 2026 | Cyberflux

Firma AIR zbudowała fałszywą „umiejętność" dla agentów AI o nazwie brand-landingpage, przepuściła ją przez skanery bezpieczeństwa Cisco, NVIDIA i wbudowane w największe rejestry skilli — wszystkie oznaczyły ją jako bezpieczną — a następnie rozprowadziła do około 26 000 agentów, w tym na kontach firmowych. Gdy skill był już szeroko zainstalowany, badacze podmienili treść strony, na którą wskazywał. Nowa wersja kazała agentom pobrać i uruchomić skrypt. W dowodzie koncepcji skrypt tylko odsyłał adres e-mail użytkownika z powrotem do AIR — i to właśnie tak firma policzyła, ile agentów przejęła.

To brzmi nieprawdopodobnie — agent AI, który ma wykonywać użyteczną pracę, masowo uruchamia kod obcego serwera, bo zainstalowano w nim „umiejętność" z marketplace'u. Ale mechanizm jest banalnie prosty, znany od miesięcy, i jest dokładnie tym samym wzorcem, który opisujemy przez cały tydzień. Różnica polega na tym, gdzie tym razem leży granica zaufania.

Czym jest „skill" i dlaczego to nowa powierzchnia ataku

Agentowe skille to pakiety instrukcji, które rozszerzają to, co agent AI potrafi zrobić — odpowiednik wtyczki czy rozszerzenia, ale dla asystenta AI. Skill to przede wszystkim plik SKILL.md z instrukcjami w języku naturalnym i ewentualnie dołączone pliki. Agent czyta te instrukcje i traktuje je jako wskazówki, co robić. Istnieją całe marketplace'y skilli — ClawHub, skills.sh, repozytoria na GitHubie — z których użytkownicy instalują gotowe umiejętności.

I tu jest sedno problemu, które Anthropic sam opisuje w swojej dokumentacji jako ryzykowne: skill może instruować agenta, żeby pobrał treść z zewnętrznego URL-a i się nią kierował. A treść pod tym URL-em może się zmienić po tym, jak skill został zweryfikowany.

To jest dokładnie ta sama klasa, którą opisywaliśmy wczoraj przy Cordyceps i przez cały miesiąc przy agentach: artefakt, który przechodzi kontrolę jako statyczny plik, ale którego rzeczywiste zachowanie zależy od czegoś, co kontroli nie podlega. Skaner sprawdza paczkę. Agent wykonuje to, na co paczka wskazuje. Między jednym a drugim jest przepaść, którą kontroluje atakujący.

Jak to zadziałało — dwie fazy

Atak AIR rozegrał się w dwóch fazach, i ta dwufazowość jest całym mechanizmem.

Faza pierwsza — budowanie zaufania. Badacz Niv Hoffman stworzył skill brand-landingpage, prezentowany jako narzędzie no-code do budowania landing page'y produktowych za pomocą Google Stitch. Przypadek użycia dobrano celowo — miał kusić nietechnicznych użytkowników firmowych: marketerów, sprzedawców, projektantów. Skill dostarczał prawdziwą funkcjonalność, co budowało zaufanie. Żeby uwiarygodnić go dalej, AIR zdobył dwa sygnały zaufania. Pierwszy: reputacja GitHuba — skill wmergowano do popularnego repozytorium agentów z około 36 000 gwiazdek, dziedzicząc jego wiarygodność. Drugi: czyste werdykty skanerów. AIR uruchomił skill przeciwko skanerom Cisco, NVIDIA i wszystkim wbudowanym w skills.sh — wszystkie oznaczyły go jako bezpieczny. Następnie wypromowano go reklamą na Instagramie, która kierowała użytkowników do instalacji.

Dlaczego skanery go przepuściły? Bo skill nie zawierał żadnych złośliwych instrukcji we własnych plikach. Mówił tylko agentowi, żeby zainstalował „Stitch SDK", kierując się dokumentacją pod zewnętrznym linkiem — stitch-design.ai, domeną kontrolowaną przez AIR, nie prawdziwą domeną Google (stitch.withgoogle.com). W momencie skanowania link prowadził do autentycznej dokumentacji Stitch. Skanery zobaczyły czystą paczkę wskazującą na wiarygodną stronę instalacyjną i ją przepuściły. Strona, którą agent faktycznie miał pobrać i wykonać, leżała poza zakresem skanu.

Faza druga — pociągnięcie za spust. Gdy skill był już popularny — wysoko oceniony, często pobierany, obecny w wielu marketplace'ach — AIR podmienił treść pod stitch-design.ai. Nowa wersja instruowała agenty, żeby pobrały skrypt wyciągający adresy e-mail i go uruchomiły. Wkrótce zaczęły napływać adresy ofiar — dowód, że ich agenty zostały przejęte. W demonstracji skrypt zbierał tylko e-maile, ale — jak podkreśla AIR — prawdziwy atakujący dziedziczyłby pełne uprawnienia agenta: mógłby czytać pliki, wyprowadzać dane albo przejść do systemów wewnętrznych.

Sednem: skaner sprawdza migawkę, atakujący kontroluje film

Tu jest strukturalna przyczyna, którą warto nazwać wprost, bo wykracza poza ten jeden przypadek.

Skanery, które testował AIR, analizują paczkę, którą się im przekazuje: plik SKILL.md i dołączone pliki. To jest migawka w jednym momencie. Ale skill to coś więcej niż jego pliki. Jak ujmuje to AIR: skilla nie da się zeskanować po samych plikach — trzeba go zeskanować pod kątem wszystkiego, na co wskazuje agentowi. Obecne skanery ignorują większość ryzyka płynącego z tych zewnętrznych instrukcji.

To jest dokładnie ta sama lekcja, którą zapisaliśmy przy Cordyceps: skaner czyta poprawny artefakt i idzie dalej, podczas gdy podatność istnieje w tym, czego skaner nie widzi. Tam była to kompozycja workflow. Tutaj jest to zewnętrzny URL, którego treść zmienia się po przejściu kontroli. Wspólny mianownik: zaufanie przyznane raz, na podstawie statycznego sprawdzenia, podczas gdy rzeczywiste zachowanie jest dynamiczne i kontrolowane przez atakującego.

Dla zespołów bezpieczeństwa problem jest nie tylko taki, że skill przeszedł przegląd — ale że jego zachowanie mogło się zmienić po tym, jak zaufanie zostało już przyznane. To jest model „time-of-check vs time-of-use" przeniesiony na poziom agentów AI: sprawdzasz w jednym momencie, agent używa w innym, a między nimi wszystko może się zmienić.

To nie pierwszy raz — i to jest najważniejsze

Warto być uczciwym co do nowości: technika nie jest nowa, i to ją czyni groźniejszą, nie mniej groźną.

Trzy tygodnie przed publikacją AIR firma Trail of Bits obeszła detektor złośliwych skilli ClawHub, skaner Cisco i wszystkie trzy skanery wbudowane w skills.sh. Jej wniosek był bezlitosny: skaner sprawdza ustaloną paczkę, podczas gdy atakujący może bez końca modyfikować ładunek, aż przejdzie. Prawdziwe kampanie używają tej samej sztuczki od miesięcy — trzymają zgłoszony skill czysty, a ładunek hostują na stronie, którą agent pobiera dopiero przy instalacji.

I to nie są teoretyczne dowody koncepcji. Trend Micro opisał, jak dystrybucja Atomic macOS Stealer (AMOS) przeniosła się z pirackiego oprogramowania na złośliwe skille hostowane na ClawHub, SkillsMP i GitHubie — z ponad 2200 złośliwymi skillami znalezionymi ostatecznie na GitHubie, kradnącymi poświadczenia, dane przeglądarek, portfele krypto i klucze. Antiy CERT potwierdził 1184 złośliwych skilli na samym ClawHub. To jest aktywnie eksploatowana powierzchnia ataku, nie ćwiczenie akademickie.

Jest też badanie, które pokazuje, jak głęboki jest problem ze skanerami: siedem głównych skanerów zgadza się co do mniej niż jednego na pięćset swoich łącznych oznaczeń — bo każdy ocenia skill w izolacji, ślepy na zewnętrzne linki i na to, co zmienia się po przeglądzie. Skanery nie tylko przepuszczają ataki; nie zgadzają się nawet między sobą co do tego, co jest podejrzane.

„Lethal trifecta" — dlaczego to jest wbudowane w projekt

Jest rama, która tłumaczy, dlaczego ten problem jest tak trudny, i warto ją przytoczyć, bo jest najlepszym dostępnym ujęciem.

Badacz Simon Willison nazwał architektoniczną wadę „lethal trifecta" — śmiertelną triadą: agent, który ma dostęp do prywatnych danych, przetwarza niezaufaną treść i może komunikować się na zewnątrz, jest eksploatowalny z założenia. Większość wdrożonych agentów ma wszystkie trzy cechy, bo właśnie ta kombinacja czyni je użytecznymi.

To jest sedno. brand-landingpage zadziałał, bo agent miał wszystkie trzy elementy triady: dostęp do systemu użytkownika, zdolność przetwarzania instrukcji z zewnętrznego URL-a (niezaufana treść) i możliwość pobrania oraz uruchomienia skryptu (komunikacja na zewnątrz). To nie jest błąd, który da się załatać jednym filtrem — to jest konsekwencja tego, czym agent jest. OWASP sklasyfikował to w Top 10 dla aplikacji agentowych jako ASI04 — kompromitacja łańcucha dostaw przez skille lub pakiety z rejestru. A własne badanie Cisco wykazało, że tylko 29% organizacji uważa się za przygotowane do zabezpieczania wdrożeń agentowych.

To jest też piąty czy szósty raz w ciągu tygodni, gdy opisujemy ten sam wzorzec w różnych przebraniach: ChatGPhish(strona), Claude Code GitHub Action (issue), Gemini (powiadomienie), Agentjacking (zdarzenie Sentry), AutoJack(strona dla agenta). Teraz skill z marketplace'u. Za każdym razem agent traktuje niezaufaną treść jako instrukcję — różni się tylko kanał, którym ta treść wchodzi.

Co zrobić

Traktuj skille agentowe jak każdą zależność z uprawnieniami — nie jak zaufaną treść. Skill działa z uprawnieniami agenta, czyli często z dostępem do twoich plików i systemów. Zasługuje na tę samą ostrożność co biblioteka, którą dodajesz do projektu, albo wtyczka, którą instalujesz. „Zweryfikowany przez skaner" i „wysoko oceniony na GitHubie" to nie to samo co „bezpieczny" — brand-landingpage miał oba te sygnały.

Bądź szczególnie podejrzliwy wobec skilli, które każą agentowi pobierać treść z zewnętrznych URL-i. To jest dokładnie wektor, który Anthropic oznacza jako ryzykowny. Skill, który instruuje agenta, by „zainstalował SDK według dokumentacji pod tym linkiem", to skill, którego zachowanie może się zmienić w dowolnym momencie po instalacji. Jeśli to możliwe, preferuj skille, które są samowystarczalne i nie kierują agenta poza zweryfikowaną paczkę.

Nie polegaj wyłącznie na skanowaniu w momencie zatwierdzenia. AIR pokazał wprost: jednorazowy skan nie wystarcza, bo nie obejmuje tego, co zmienia się później. Potrzebny jest monitoring zachowania agenta w czasie wykonania — co agent faktycznie pobiera i uruchamia — nie tylko statyczna analiza paczki przy instalacji.

Stosuj sandboxing i zasadę najmniejszych uprawnień. To jest ta sama twarda granica, którą powtarzaliśmy przez cały miesiąc: jeśli agent działa w izolowanym środowisku z minimalnym dostępem, przejęty skill nie dosięgnie wrażliwych danych ani systemów wewnętrznych. Triada Willisona jest eksploatowalna tylko wtedy, gdy wszystkie trzy elementy są obecne — odebranie agentowi jednego z nich (np. swobodnej komunikacji na zewnątrz) łamie atak.

Prowadź wewnętrzny, wyselekcjonowany katalog dozwolonych skilli zamiast pozwalać na instalację z dowolnego marketplace'u. Dla organizacji to jest najpewniejsza kontrola: admission control na poziomie tego, które skille w ogóle mogą wejść, zamiast ufać, że marketplace je zweryfikował.

Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

Czym jest „skill" i dlaczego to nowa powierzchnia ataku

Jak to zadziałało — dwie fazy

Sednem: skaner sprawdza migawkę, atakujący kontroluje film

To nie pierwszy raz — i to jest najważniejsze

„Lethal trifecta" — dlaczego to jest wbudowane w projekt

Co zrobić

Źródła

Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

Skaner widzi poprawny YAML. Atakujący widzi czterokrokową drogę do trwałych poświadczeń chmury. Cordyceps to luka, która istnieje tylko w kompozycji — i AI rozsiewa ją wykładniczo.

Pięć agencji wywiadowczych właśnie powiedziało to, co opisujemy od kwietnia: „miesiące, nie lata”. Ale najważniejsze jest jedno zdanie, którego nie powiedziały.

Błąd parsera FTP z 1997 roku. Znalazł go Claude Mythos Preview w niemal sekundę — ten sam program Glasswing, którego trajektorię śledzimy od kwietnia.

Zapomniane poświadczenie do porzuconego prototypu. Icarus wszedł przez nie do Klue, ukradł klucze OAuth i opróżnił CRM-y firm, które chronią innych.

„Kalibruj według dzisiejszej rzeczywistości, nie jutrzejszego potencjału.” Brytyjska agencja cyberbezpieczeństwa nazwała drugą stronę medalu, który opisujemy od miesięcy

usbliter8: pierwszy od checkm8 niezałatywalny exploit BootROM Apple. Dlaczego to bardziej prezent dla badaczy niż powód do niepokoju

Kim są Gentlemen — i dlaczego gang, który zaczął pół roku temu, w pierwszym kwartale 2026 był już w pierwszej piątce

Osiem wariantów, każdy podszywa się pod inny program antywirusowy. GentleKiller zabija EDR jego własnym sterownikiem — i robi to z publicznego PoC w kilka dni.

Agent przeglądający stronę ma tożsamość localhost. AutoJack pokazuje, że to wystarczy, by jedna strona uruchomiła kod na maszynie dewelopera.

Pickle in the Middle: atakujący podmienił model w 1,4 sekundy. Vertex AI czytał go po 2,5. Cała różnica między bezpieczeństwem a przejęciem zmieściła się w tej sekundzie.

FortiBleed: w nazwie jest „bleed”, ale nie ma żadnego exploita. 86 tysięcy firewalli przejętych hasłami, których nikt nie zmienił po poprzednich włamaniach.

Plugin działał dokładnie tak, jak obiecywał. Kradł tylko jedną rzecz: twój klucz do AI. A potem sprzedawał go komuś innemu.

Backdoor, który nie otwiera portu, tylko czeka na sekretny pakiet. SprySOCKS przeszedł z Linuksa na Windows i nauczył się ukrywać w jądrze.

Atakujący wziął lukę załataną tydzień temu i napisał exploit z pomocą AI. Działa wadliwie — i to jest najważniejsza informacja w całej historii.

„Dłużej niż kilka dni”. Cztery dni po tym, jak rząd wyłączył Fable 5, Anthropic tłumaczy Białemu Domowi swoje zabezpieczenia — a Europa pyta, czemu ją wyłączono bez ostrzeżenia.

„Zbyt niebezpieczny, by go wydać” trafił do wszystkich 9 czerwca. 12 czerwca o 17:21 rząd USA kazał go wyłączyć. Co spór o Fable 5 mówi o tym, gdzie naprawdę leży granica.

Authorized Intent Chain: atak, w którym każdy krok jest legalny. Agentjacking porywa twojego agenta AI, a EDR, WAF i firewall nie widzą nic, bo nie ma czego widzieć.

npm wyłącza to, co napędzało każdy atak na łańcuch dostaw, który opisywaliśmy. Cena: części buildów przestanie działać – i to jest zamierzone.

RCE bez logowania w systemie, który trzyma kadry, płace i akta studentów. ShinyHunters włamali się na 300 instancji, zanim Oracle w ogóle wydało komunikat.

Microsoft łata dwie jego luki w Defenderze. Tego samego popołudnia on wypuszcza siódmą. Saga Chaotic Eclipse zatoczyła koło — i działa na w pełni załatanym Windows

27 dni z eksploatowanym Exchange bez trwałej łatki. Dziś Microsoft ją wydał — a sam atak jest tym samym wzorcem, który opisujemy od tygodni.

„Zbyt niebezpieczny, by go wydać” właśnie trafił do twojej aplikacji mobilnej. Co Claude Fable 5 mówi o tym, że okno się zamknęło dokładnie tak, jak zapowiadaliśmy.

429 łatek w jednym wydaniu Chrome. Rekord, którego nikt nie chciał — i dowód, że znajdowanie błędów właśnie przestało być wąskim gardłem.

Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

Oxford nie został zhakowany. Dwa razy. Co drugi breach uczelni w miesiąc mówi o tym, że celem nie jest uczelnia, tylko jej dostawca.

Twój telewizor scrapuje sieć dla AI. Z twojego IP, na twoim łączu — i robi to przez protokół słabszy niż malware

Dwa commity go zasadziły. Dwa lata go ukrywały. Code review nigdy go nie znalazł — znalazło AI.

Powiadomienie, którego nie przeczytałeś, mówi Gemini co ma zrobić. „Tak” wypowiedziane przy kierownicy otwiera okna w domu.

Jeden issue, żeby przejąć repozytorium. I jeszcze jeden, żeby zatruć akcję, której używają wszyscy inni.

Zakodowane na stałe hasło do serwera aktualizacji polskiego systemu medycznego. Ten sam wzorzec, który dziś opisywaliśmy trzy razy w skali świata.

RCE w platformie AI to nie koniec ataku. To klucz do skarbca, który trzyma hasła do tuzina innych usług.

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.

Jak cyberfirmy zabiły Glassworm jednym strzałem

Napisał złośliwe oprogramowanie AI-em. Zapomniał że AI też popełnia błędy.

„Nigdy nieuzasadnione.” Microsoft odpowiada na Chaotic Eclipse. Badacz się nie odzywa.

DAEMON Tools łata dziś wieczorem. CISA domknęła maj jednym wpisem do katalogu.

Szafir mówił „zweryfikowano”. Nikt nie sprawdzał co weryfikował. Co CVE-2026-9058 mówi o e-administracji która jest bezpieczna dopóki ktoś nie sprawdzi

Nie brakuje już podatności. Brakuje ludzi którzy je naprawią. Co raport Glasswing mówi o nowym kształcie problemu

Palo Alto znalazło 75 dziur. Skończyło i zaczęło od nowa. Co update Lee Klarich mówi o tym, że okno właśnie stało się węższe

12 godzin. Co CERT-In mówi o tym, że stare cykle łatania właśnie stały się zobowiązaniem

Nie tajny model tylko plik konfiguracyjny. Co Pentest Agent Suite mówi o tym, gdzie jesteśmy z AI w ofensywnym bezpieczeństwie

OpenAI odpowiada na Mythos. Daybreak nie jest nowym produktem — jest nową filozofią dostępu.

TrapDoor wstrzyknął instrukcje do CLAUDE.md. Trzy rejestry, jeden weekend, nowa klasa ładunku.

Hey Google przy stoliku obok — co audio glasses zarejestrowały o rozmowie której nie były częścią

Model Google, runtime developera, dane między — kto odpowiada za incident w architekturze Antigravity SDK

197 milionów parametrów, zero dodatkowej zgody — co Google zrobił z weights.bin po Gemma 197M

47 sekund, 3 zakupione produkty, 2 utworzone konta, 0 kliknięć użytkownika — anatomia zalogowanego agenta w Chrome 148

14 minut, 28 sekund, zero kliknięć użytkownika. Co kernel macOS zarejestrował o pobraniu Gemini Nano przez Chrome — i co to znaczy dla każdego, kto ufa swojej przeglądarce

WordPress 7.0 wychodzi dziś bez real-time collaboration. Analiza błędu który wypadł w RC.

„To duplikat, już naprawione.” Maintainerzy mieli rację. I przez to nikt nie dostał łatki.

Drupal łata dziś wieczór. Exploity mogą być gotowe w ciągu godzin.

11 minut. Sigstore. GitHub. Nx Console był jednym krokiem od SLSA Level 4.

TeamPCP weszło do GitHub. I tego samego dnia opublikowało kod Shai-Huluda na GitHubie. Pod licencją MIT.

Domena za kilkanaście dolarów, reset hasła przez formularz. node-ipc miał 822 000 tygodniowych pobrań.