„Claudy Day” i nowa lekcja o prompt injection. Problem nie leży już w samym poleceniu, ale w architekturze agenta

mar 19, 2026 | Cyberflux

Nowy raport Oasis Security o „Claudy Day” opisuje łańcuch błędów w Claude, który miał umożliwiać prompt injection, eksfiltrację danych i wykorzystanie open redirectu. To jeszcze nie szeroko potwierdzona kampania, ale bardzo dobry przykład, że prompt injection staje się dziś problemem całej architektury agenta, a nie tylko modelu.

Kilka dni temu pisaliśmy na Cyberflux, że prompt injection przestaje być problemem samego modelu, a staje się problemem architektury zaufania: uprawnień, narzędzi, pamięci i tego, co agent może zrobić po kontakcie z niezaufaną treścią. Nowy raport Oasis Security o łańcuchu nazwanym „Claudy Day” dobrze wpisuje się właśnie w ten kierunek. To nie jest jeszcze historia o szeroko potwierdzonej kampanii, ale o badawczym disclosure, który pokazuje, jak bardzo ryzyko przesuwa się dziś z poziomu pojedynczego promptu na poziom całego workflow.

Według Oasis badacze połączyli w Claude trzy elementy w jeden działający łańcuch: niewidoczne prompt injection przenoszone przez parametr URL, możliwość eksfiltracji danych przez Anthropic Files API oraz open redirect na domenie claude.com, który miał pomagać w obejściu części kontroli i zwiększać wiarygodność linku. Oasis twierdzi, że taki scenariusz mógł działać nawet w bardzo podstawowej sesji Claude — bez MCP, bez dodatkowych integracji i bez narzędzi dołączanych przez użytkownika. Dark Reading opisał ten sam research jako pełny łańcuch od dostarczenia ataku do cichej eksfiltracji danych.

To właśnie ten aspekt jest tu najciekawszy. Nie chodzi już o klasyczny obrazek z prompt injection, w którym model odpowiada źle, bo ktoś przemycił w treści złośliwą instrukcję. W opisie Oasis atak zaczyna się od pozornie zwykłego kliknięcia w wynik wyszukiwania, a kończy na przetworzeniu przez model zarówno widocznej, jak i ukrytej części instrukcji oraz przesłaniu danych dalej przez legalny mechanizm platformy. Jeśli ten łańcuch dobrze oddaje zachowanie systemu, to mamy do czynienia nie z „ciekawostką wokół modeli”, ale z praktycznym przykładem tego, że granica bezpieczeństwa przebiega dziś przez cały układ zaufania: wejście, interpretację, wykonanie i egress danych.

I tutaj nowy research bardzo dobrze dopowiada wniosek z naszego wcześniejszego tekstu. Pisaliśmy wtedy, że prawdziwy problem zaczyna się tam, gdzie agent nie tylko czyta świat, ale może w nim działać — przeglądać web, korzystać z pamięci, używać narzędzi i podejmować działania w imieniu użytkownika. „Claudy Day” wygląda właśnie jak przykład takiego przesunięcia: prompt injection przestaje być błędem interpretacji, a staje się problemem integralności całego workflow. Nie dlatego, że model „dał złą odpowiedź”, ale dlatego, że w określonej architekturze może zostać wciągnięty w nieautoryzowane przetwarzanie i transfer danych.

Ważne jest jednak, by nie przeszacować tej historii. Na dziś głównym źródłem technicznych szczegółów pozostaje sam raport Oasis, a Dark Reading jest przede wszystkim opracowaniem tego disclosure. Nie widać jeszcze szeroko opisanej, niezależnie udokumentowanej kampanii ani pełnego zestawu publicznych analiz z wielu źródeł. Z tego powodu uczciwiej jest traktować „Claudy Day” jako sygnał badawczy i przykład kierunku zagrożeń, a nie jako potwierdzenie masowo wykorzystywanego wektora ataku na dużą skalę. Jednocześnie Oasis podaje, że Anthropic miało naprawić flaw związany z prompt injection i pracować nad pozostałymi elementami łańcucha.

Z perspektywy bezpieczeństwa to i tak bardzo cenna lekcja. Jeśli agent ma dostęp do wrażliwego kontekstu, możliwość zapisu lub wysyłki danych i brak mocnych ograniczeń dla działań wykonywanych na pierwszym kroku interakcji, to sam prompt injection jest tylko początkiem problemu. Prawdziwe pytanie brzmi już nie „czy model rozpozna złośliwą instrukcję?”, ale „co może zrobić, jeśli jej nie rozpozna?”. I to właśnie ten sposób myślenia odróżnia dojrzałe podejście do bezpieczeństwa agentów od prób sprowadzania całego tematu do kolejnej wariacji na temat filtrowania promptów.

„Claudy Day” dobrze pokazuje więc coś szerszego niż jeden research o Claude. W 2026 roku prompt injection coraz częściej nie jest już problemem samego modelu, lecz problemem systemów, które przetwarzają niezaufane wejście i jednocześnie mają zdolność działania. To nie musi oznaczać natychmiastowej katastrofy, jeśli architektura ogranicza uprawnienia, wymusza zatwierdzanie ryzykownych akcji i kontroluje ścieżki eksfiltracji. Ale jeśli tych zabezpieczeń brakuje, nawet pozornie banalna manipulacja kontekstem może zacząć przypominać pełnoprawny incydent bezpieczeństwa.

Źródła

Oasis Security — Claude.ai Exploit Chain: Full Technical Report

Oasis Security — Claudy Day: Chaining Prompt Injection and Data Exfiltration in Claude.ai

Dark Reading — ‘Claudy Day’ Trio of Flaws Exposes Claude Users to Data Theft

Cyberflux — Prompt injection po erze prostych analogii. Prawdziwy problem zaczyna się tam, gdzie agent może działać

Techniki ataku

Prompt Injection 6 Indirect Prompt Injection 6 Stored Prompt Injection 1 MCP Tool Poisoning 4 Comment and Control 2 Supply Chain Attack 16 SQL Injection 2 Permission Injection 6 Ransomware 2 Zero-day 8

Kampanie i systemy

TeamPCP 4 Contagious Interview 3 AI agents 3 Handala 2 OpenClaw 2 Marimo 2 AI Agent 2 WordPress 7.0 2

OpenClaw dostał dziś cztery nowe CVE. W sumie ma ich 34. Ma pół roku.

Zdjęcie profilowe jako exploit. Co nowa podatność w Open WebUI mówi o tym, że maintainerzy zamknęli zgłoszenie bez odpowiedzi

ClaudeBleed: każde rozszerzenie Chrome może przejąć Claude’a. Łatka tego nie naprawiła

SLSA certyfikował złośliwy pakiet. Co atak na TanStack mówi o tym, że mechanizmy ochrony łańcucha dostaw stały się jego słabością

Dirty Frag: dwa błędy, zero wyścigu, root na żądanie. Co CVE-2026-43284 mówi o infrastrukturze AI na Linuksie

Zainfekowany host nie należy do ciebie. Może należeć do TeamPCP. Albo do PCPJack. Co nowy robak chmurowy mówi o tym, że infrastruktura AI stała się walutą na czarnym rynku

Hysteria czy diagnoza? Co miesiąc po Mythos mówi o tym, gdzie naprawdę jesteśmy

Claude nie znał protokołów OT. Nie musiał. Co atak na stację wodociągową w Monterrey mówi o tym, jak AI zmienia granicę między IT a infrastrukturą krytyczną

5000 gwiazdek w kilka dni. DeepSeek-TUI to dobra historia i gotowy cel dla Shai-Hulud

Jeden średnik w git push, miliony repozytoriów w zasięgu. Co CVE-2026-3854 mówi o granicy między danymi użytkownika a metadanymi systemu

Kim jest TeamPCP — i dlaczego to nie jest zwykła grupa hakerów

TeamPCP: 1800 publicznych repozytoriów z wykradzionymi poświadczeniami. Co pełna skala kampanii Mini Shai-Hulud mówi o nowym modelu ataku na łańcuch dostaw

Kod źródłowy Trellix w nieznanych rękach. Dlaczego breach firmy cybersecurity to inny rodzaj breaczu

Nie narzędzie do pokazania — narzędzie do użycia. Dokumentacja techniczna Prompt Injection Skanera, jego ograniczeń i tego co musimy zbudować dalej

PyTorch Lightning CVE-2026-38742: Shai-Hulud przekroczył granicę npm.

Nie nowa klasa ataku, tylko nowy dom. Co CVE-2026-42208 w LiteLLM mówi o tym, że SQL injection trafiło do infrastruktury AI

Nie błąd w kodzie Cursor, tylko agent który nie powinien ufać repozytorium. Co CVE-2026-26268 mówi o tym, że środowisko dewelopera stało się nową powierzchnią ataku

Nie rola dla administratora, tylko rola dla agenta AI. Co błąd Microsoft Entra Agent ID Administrator mówi o tym, że warstwa tożsamości AI dziedziczy stare problemy

Nie nowy atak, tylko naprawiony błąd. Co łatka Gemini CLI mówi o tym, że tryb –yolo w potoku CI/CD to nie jest dobry pomysł

Nie włamanie do Vercel, tylko skrypt do Roblox. Co łańcuch Context.ai → OAuth → Vercel mówi o tym, że rozszerzenia przeglądarki stały się nowym wektorem dostępu do infrastruktury firmowej

Nie włamanie przez kod, tylko odgadnięcie URL. Co nieautoryzowany dostęp do Mythos mówi o tym, że ograniczony dostęp to nie to samo co kontrolowany dostęp

Nie koniec kampanii, tylko nowy cel. Co Shai-Hulud i TeamPCP mówią o tym, że narzędzia AI do kodowania stały się nową powierzchnią ataku w łańcuchu dostaw

Nie jeden wyścig, tylko dwa modele tej samej decyzji. Co GPT-5.4-Cyber i Mythos Preview mówią o tym, jak AI staje się infrastrukturą cyberbezpieczeństwa

Nie Marimo, nie SGLang. LMDeploy. Czego trzecia eksploitacja frameworku AI w miesiąc uczy o tym, że infrastruktura wnioskowania stała się nową powierzchnią ataku

Nie złośliwe oprogramowanie, tylko model AI. Co CVE-2026-5760 w SGLang mówi o tym, że plik modelu stał się wektorem ataku

Nie skaner bezpieczeństwa, tylko wektor ataku. Co kampania TeamPCP i Checkmarx mówią o tym, że narzędzia DevSecOps stały się nową powierzchnią ataku

Nie SQL injection, tylko Comment and Control. Co atak na Claude Code, Gemini i Copilot mówi o tym, jak wygląda następna generacja wstrzyknięć

Nie jedna podatność, tylko protest. Co trzy zero-days w Microsoft Defender mówią o tym, jak psuje się relacja między badaczami a vendorami

Marimo: ciąg dalszy. Co zrobili z dostępem atakujący, którzy weszli w niecałe dziesięć godzin

Nie Mythos, tylko Opus. Co exploit Chrome za 2283 dolary mówi o tym, gdzie naprawdę jesteśmy z AI w pisaniu ataków

Nie błąd w implementacji, błąd w projekcie. Co raport OX Security o STDIO w MCP mówi o tym, gdzie naprawdę leży odpowiedzialność za bezpieczeństwo protokołu

Nie tajny model, tylko Claude i 13 lat niewidzialnego błędu. Co CVE-2026-34197 w Apache ActiveMQ mówi o tym, gdzie jesteśmy z AI w szukaniu podatności

Nie sześćdziesiąt siedem błędów, tylko dwa. Czego analityk bezpieczeństwa szuka w Patch Tuesday za kwiecień 2026

Nie brakuje łatek, brakuje mapy. Co decyzja NIST o ograniczeniu bazy NVD mówi o tym, że model zarządzania podatnościami właśnie się złamał

Nie wyciek, tylko popularność. Jak Claude stał się wabikiem dla PlugX i dlaczego to nie zaskoczy nikogo kto śledzi ten wzór

Nie system operacyjny, tylko platforma aplikacyjna. Ale to ta sama historia. Co tydzień ataków na ekosystem WordPress mówi o naturze infrastruktury, której nikt tak nie nazywa

Nie tylko nowa wersja, ale nowa powierzchnia ataku. Co WordPress 7.0 i natywne MCP oznaczają dla bezpieczeństwa 40% sieci

WordPress 7.0: dlaczego nie wyszedł 9 kwietnia, co wprowadza i dlaczego opóźnienie to dobry znak

Dwa narzędzia, dwa ataki, ten sam wniosek. Dlaczego okno na załatanie podatności przestało istnieć

Nie zero-day, tylko sześć miesięcy zaległości. Co Flowise CVE-2025-59528 mówi o tym, jak traktujemy bezpieczeństwo narzędzi do budowania agentów

Nie dostaniesz alertu. Co robić gdy kompromitacja konta odkrywa się z opóźnieniem

Nie złamali podpisanych plików. Podmienili link. Czego atak na CPUID uczy o granicy zaufania w łańcuchu dystrybucji

Nie kod exploita, tylko opis podatności. Czego Marimo CVE-2026-39987 uczy o tym, ile czasu naprawdę masz na załatanie podatności

Nie narzędzie do ataków, tylko model, który się nauczył. Co wyłonienie zdolności exploitowych w Mythos Preview mówi o tym, dokąd zmierza cyberbezpieczeństwo

„Claudy Day” i nowa lekcja o prompt injection. Problem nie leży już w samym poleceniu, ale w architekturze agenta

Źródła

OpenClaw dostał dziś cztery nowe CVE. W sumie ma ich 34. Ma pół roku.

Drugi raz w dwa miesiące. Co kompromitacja OpenAI przez TanStack mówi o certyfikatach jako punkcie centralnym

Apple budował MIE przez pięć lat. Mythos z ludźmi złamał go w pięć dni.

Vulnpocalypse. Dlaczego nagle mamy dwie razy więcej podatności — i co z tym zrobić

Palo Alto znalazł 75 dziur. Microsoft 16. Firefox 423. Witaj w vulnpocalypse.

25 000 dolarów za 450 repozytoriów Mistral. Co ogłoszenie TeamPCP domyka w historii która zaczęła się od TanStack

GemStuffer nie zainfekował deweloperów. Użył ich rejestru jako schowka na skradzione dane rządowe.

NGINX Rift: AI znalazł go w sześć godzin. Człowiek nie znalazł przez osiemnaście lat.

„To już tutaj.” Co raport GTIG mówi o tym, że AI zmienia samą klasę błędów które atakujący są w stanie znaleźć

Łatka na Dirty Frag urodziła Fragnesię. Trzeci root w dwa tygodnie.

YellowKey: BitLocker przestał chronić laptopy. Chaotic Eclipse eskaluje.

Zdjęcie profilowe jako exploit. Co nowa podatność w Open WebUI mówi o tym, że maintainerzy zamknęli zgłoszenie bez odpowiedzi

ClaudeBleed: każde rozszerzenie Chrome może przejąć Claude’a. Łatka tego nie naprawiła

SLSA certyfikował złośliwy pakiet. Co atak na TanStack mówi o tym, że mechanizmy ochrony łańcucha dostaw stały się jego słabością

Dirty Frag: dwa błędy, zero wyścigu, root na żądanie. Co CVE-2026-43284 mówi o infrastrukturze AI na Linuksie

Zainfekowany host nie należy do ciebie. Może należeć do TeamPCP. Albo do PCPJack. Co nowy robak chmurowy mówi o tym, że infrastruktura AI stała się walutą na czarnym rynku

Hysteria czy diagnoza? Co miesiąc po Mythos mówi o tym, gdzie naprawdę jesteśmy

Rotacja tokenu nie pomaga. Co Mitiga mówi o trwałym przejęciu MCP w Claude Code

Drugie włamanie do Canvas w osiem miesięcy. Jeden vendor, dziewięć tysięcy szkół, jeden klucz API

Enter. Co TrustFall mówi o tym, że konfiguracja repozytorium stała się warstwą wykonywalną

Claude nie znał protokołów OT. Nie musiał. Co atak na stację wodociągową w Monterrey mówi o tym, jak AI zmienia granicę między IT a infrastrukturą krytyczną

5000 gwiazdek w kilka dni. DeepSeek-TUI to dobra historia i gotowy cel dla Shai-Hulud

llama.cpp: fundament lokalnej infrastruktury AI z pięcioma CVE w pięć miesięcy

Infrastruktura AI jest bardziej podatna niż cokolwiek innego co kiedykolwiek zbadaliśmy. Mamy teraz liczby.

Nie zaatakowali Homebrew. Kupili reklamę nad nim. Co kampania MacSync mówi o granicy zaufania w wyszukiwarce

Rządy sojuszu Five Eyes zauważyły agenty AI. Co dokument „Careful Adoption” mówi — i czego nie mówi

Atakujący zdążyli, zanim łatka wyszła. Co M-Trends 2026 mówi o tym, że kwiecień był normą, nie wyjątkiem

Jeden średnik w git push, miliony repozytoriów w zasięgu. Co CVE-2026-3854 mówi o granicy między danymi użytkownika a metadanymi systemu

Kim jest TeamPCP — i dlaczego to nie jest zwykła grupa hakerów

TeamPCP: 1800 publicznych repozytoriów z wykradzionymi poświadczeniami. Co pełna skala kampanii Mini Shai-Hulud mówi o nowym modelu ataku na łańcuch dostaw

Kod źródłowy Trellix w nieznanych rękach. Dlaczego breach firmy cybersecurity to inny rodzaj breaczu

Nie narzędzie do pokazania — narzędzie do użycia. Dokumentacja techniczna Prompt Injection Skanera, jego ograniczeń i tego co musimy zbudować dalej

PyTorch Lightning CVE-2026-38742: Shai-Hulud przekroczył granicę npm.

Agent miał napisane „NEVER GUESSnever”. Zgadł. Co incydent PocketOS mówi o granicy między autonomią a kontrolą

Cyberflux Radar #1 — kwiecień 2026

Kwiecień 2026: miesiąc w którym infrastruktura AI stała się linią frontu

VECT 2.0 nie szyfruje plików. Niszczy je. Płacenie okupu nic nie zmieni.