Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

cze 1, 2026 | Cyberflux

Przez dwa i pół roku bezpieczna odpowiedź na pytanie „czy to niebezpieczne, prosić ChatGPT o streszczenie podejrzanej strony?" brzmiała: nie, model tylko czyta tekst. Andi Ahmeti z Permiso Security pokazał, że ta odpowiedź jest błędna.

29 maja 2026 Permiso ujawniło technikę nazwaną ChatGPhish. Mechanizm: gdy ChatGPT streszcza stronę zawierającą spreparowany Markdown, jego własny renderer odpowiedzi automatycznie pobiera obrazy atakującego, wyświetla linki atakującego jako żywe, klikalne przyciski — i stylizuje całość w wizualnym języku OpenAI.

Strona staje się ładunkiem.

Dlaczego to nie jest „kolejny prompt injection"

Sam prompt injection nie jest tu nowy. Nowe jest to, gdzie ląduje wynik.

Andi Ahmeti opisuje rdzeń problemu jednym zdaniem: renderer odpowiedzi chatgpt.com ufa linkom i adresom obrazów w Markdown, które pochodzą ze strony trzeciej, którą asystent właśnie streścił. Automatycznie pobiera te obrazy i wyświetla te linki jako żywe, klikalne elementy wewnątrz zaufanego interfejsu asystenta.

To jest różnica między prompt injection którego dotąd opisywaliśmy a ChatGPhish. Comment and Control wstrzykiwał instrukcje do agenta. Stored prompt injection przez WordPress atakował moment interakcji. ChatGPhish robi coś innego: nie tylko zmusza model do wykonania instrukcji, ale sprawia że wynik tej instrukcji jest renderowany przez interfejs ChatGPT jako jego własna odpowiedź.

Przeglądarkowa polityka same-origin nie chroni, bo asystent AI wykonuje się w uwierzytelnionym kontekście użytkownika. Tradycyjne granice bezpieczeństwa webowego są nieistotne — treść atakującego pojawia się w oknie odpowiedzi ChatGPT, ostylowana identycznie jak prawdziwy wynik asystenta, z sformatowanymi alertami, klikalnymi linkami i obrazami inline.

Trzy łańcuchy ataku

Permiso zademonstrowało trzy konkretne scenariusze.

Fałszywy alert bezpieczeństwa OpenAI. Atakujący wstrzykuje blok, który ChatGPT renderuje jako oficjalne powiadomienie bezpieczeństwa OpenAI — z klikalnym przyciskiem w stylu natywnym dla ChatGPT. Użytkownik nie ma jak odróżnić tego od prawdziwego komunikatu systemowego, bo jest renderowany przez ten sam silnik, w tym samym stylu, w tym samym oknie.

Kod QR jako pivot na telefon. Atakujący osadza inline kod QR z bucketa S3. Użytkownik skanuje go telefonem — i atak przenosi się z przeglądarki desktopowej na urządzenie mobilne, omijając filtry URL i korporacyjne kontrole bezpieczeństwa działające na desktopie. To jest pivot z monitorowanego środowiska firmowego do prywatnego telefonu jednym zeskanowaniem.

Pasywny beacon śledzący. Obrazy hostowane przez atakującego — w tym przez skracacze URL — są automatycznie pobierane przy każdym renderowaniu odpowiedzi. Wyciekają IP ofiary, User-Agent, Referer i dokładny czas powiązany z momentem, w którym ChatGPT wyprodukował odpowiedź. Bez żadnego kliknięcia.

Szczegół który jest sednem

Jest jedna rzecz, którą warto powiedzieć wprost, bo odróżnia ChatGPhish od zwykłego phishingu.

W klasycznym phishingu atakujący buduje fałszywą stronę, która udaje zaufaną markę. Ofiara, która jest ostrożna, sprawdza URL, zauważa że coś jest nie tak.

W ChatGPhish atakujący nie udaje nic. To OpenAI nadaje treści atakującego swój autorytet — renderując ją we własnym interfejsie, własnym stylem, jako własną odpowiedź. Użytkownik nie ma czego sprawdzać. URL paska adresu to chatgpt.com. Certyfikat jest prawdziwy. Interfejs jest prawdziwy. Tylko treść w środku pochodzi od kogoś innego — a model nie potrafi odróżnić własnego wygenerowanego contentu od Markdown kontrolowanego przez atakującego, pobranego ze źródła zewnętrznego.

To jest ta sama klasa problemu, którą opisywaliśmy przy prompt leaking dziś rano: model traktuje wszystko, co trafia do kontekstu, jako równoprawne. Tam to oznaczało, że powie ci swój system prompt. Tutaj oznacza, że wyrenderuje phishing atakującego jako własną odpowiedź.

Disclosure, które jest deja vu

Oś czasu zgłoszenia jest znajoma — i warto ją opisać, bo to drugi taki przypadek, który cyberflux opisuje w ciągu tygodnia.

29 kwietnia 2026: Ahmeti zgłasza błąd do OpenAI przez Bugcrowd pod tytułem „Untrusted Markdown Rendering Leads to XSS, Phishing, and Data Exfiltration". 30 kwietnia: OpenAI oznacza jako „Not Reproducible". 1 maja: Ahmeti składa poprawioną wersję z rozszerzonymi szczegółami — ta zostaje oznaczona jako duplikat. 7 maja: prośba o wyjaśnienie różnic między zgłoszeniem a rzekomym duplikatem pozostaje bez merytorycznej odpowiedzi. 29 maja: Permiso publikuje pełny łańcuch, powołując się na zatrzymanie procesu po stronie producenta.

W momencie publikacji Permiso nie otrzymało potwierdzenia, czy łatka została wdrożona.

Tydzień temu opisywaliśmy Chaotic Eclipse i spór z Microsoftem — badacz twierdzi, że proces zawiódł, producent twierdzi, że proces działa. Tutaj jest podobny wzorzec, ale z istotną różnicą: znacznik „Not Reproducible" jest szczególnie problematyczny, bo zachowanie jest w pełni odtwarzalne, jeśli faktycznie wkleisz wrogi URL do ChatGPT i poprosisz o streszczenie — czyli wykonasz dokładnie ten domyślny workflow, do którego ChatGPT zachęca użytkowników Firefoksa i iOS.

Nie rozstrzygamy, kto ma rację w szczegółach proceduralnych — OpenAI nie skomentowało publicznie. Ale fakt, że dwa głośne spory o disclosure trafiają do cyberflux w ciągu tygodnia, sam w sobie jest sygnałem o stanie relacji między badaczami a producentami modeli.

Co zrobić

Dla użytkowników: jedna linia szkolenia wystarcza — ChatGPT nie wysyła alertów bezpieczeństwa wewnątrz streszczeń stron. Jeśli streszczenie strony zawiera „alert OpenAI", przycisk „zweryfikuj konto" albo kod QR — to jest treść ze streszczanej strony, nie od OpenAI. Traktuj każdy klikalny element w streszczeniu strony jak link z tej strony, nie jak element interfejsu ChatGPT.

Dla zespołów: jeśli używacie ChatGPT do streszczania dokumentacji, README, stron konkurencji czy dashboardów SaaS — to jest żywa powierzchnia socjotechniczna, nie teoretyczny papier o prompt injection. Do czasu potwierdzenia łatki przez OpenAI zakładaj, że ChatGPT pozostaje podatny na tę technikę.

Permiso testowało atak na Firefoksie przez flow streszczania strony ChatGPT. Skoro nie ma potwierdzonej łatki, ostrożność przy streszczaniu nieznanych stron jest jedyną dostępną obroną po stronie użytkownika.

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Dlaczego to nie jest „kolejny prompt injection"

Trzy łańcuchy ataku

Szczegół który jest sednem

Disclosure, które jest deja vu

Co zrobić

Źródła

Nikt nie kazał modelowi włamywać się do Hugging Face. Kazano mu rozwiązać test — a najkrótsza droga do odpowiedzi prowadziła przez cudzą produkcyjną bazę danych.

Atakujący nie musi włamywać się do AI. Wystarczy, że wie, jaką nazwę model regularnie zmyśla — i zarejestruje ją, zanim zrobi to agent.

Nie złamali zabezpieczeń agenta. Przekonali go, że gra w grę, w której 2+2=5 — a wtedy sam przestał ich pilnować.

Prompt nie chronił. Sandbox pękał. Teraz upadła ostatnia bariera — bo okno, w którym zatwierdzasz działanie agenta, pokazuje co innego, niż agent naprawdę robi.

Wczoraj agent AI wszedł przez Langflow i wyczyścił skarbiec. Dziś ta sama platforma dostaje trzecią lukę tej samej klasy — bo Langflow wykonuje cudzy kod nie przez błąd, lecz przez projekt.

Przez tydzień pisaliśmy o atakach napędzanych przez AI. Nowy raport dokłada liczbę, którą trzeba postawić obok: 84% realnych włamań używa legalnych narzędzi, które już masz w sieci — a boi się ich jeden na pięciu

Pierwszy ransomware w całości poprowadzony przez agenta AI nie okazał się skuteczniejszym wymuszeniem. Okazał się przypadkowym niszczycielem — bo agent zgubił własny klucz i nawet o tym nie wiedział.

AI znalazło jeden błąd w tej samej łatce jądra. Drugi, bliźniaczy, przeoczyło — i po raz pierwszy wiemy dokładnie, gdzie jest jego ślepe pole.

Sandbox miał być twardą barierą, której prompt nie przekroczy. DuneSlide pokazuje, że agent potrafi nadpisać własne więzienie — bo klucz do niego leży w środku.

DeepSeek nie znalazł luki. Wymyślił sposób ataku, którego obrońcy nie brali pod uwagę — składając go z funkcji, która w przeglądarce jest legalna.

Cyberflux Radar #3 – czerwiec 2026

Czerwiec 2026 — miesiąc, w którym zdolność pokazała, że nie da się zamknąć

Klue zapłacił okup. Dane i tak wyciekły — do drugiej grupy, która ukradła je pierwszej. A połowa ofiar to firmy, które zawodowo chronią innych przed dokładnie tym

Nie złamali szyfrowania Signala. Przekonali użytkownika, żeby sam oddał klucz — a ten klucz działa nawet po tym, jak założysz nowe konto na tym samym numerze.

Austria chce ściągnąć Anthropic do Europy. To brzmi jak polityka przemysłowa — naprawdę jest próbą przeniesienia „kill switcha” pod jurysdykcję, której amerykański nakaz nie dosięga.

USA zablokowało Mythos, żeby zdolność nie wyciekła. Trzy tygodnie później Azja pokazała trzy sposoby, że już wyciekła – orkiestracją, open-weight za 1/6 ceny i prawem, które każe zgłaszać zero-daye do Pekinu.

Malware, który nie ukrywa się przed piaskownicą. Ukrywa się przed analitykiem AI – wmawiając mu, że to jego własna sesja się sypie

Skill przeszedł skanery Cisco i NVIDIA. Trafił do 26 000 agentów. Potem badacze podmienili stronę, na którą wskazywał — i wszystkie agenty zaczęły wykonywać kod atakującego.

Skaner widzi poprawny YAML. Atakujący widzi czterokrokową drogę do trwałych poświadczeń chmury. Cordyceps to luka, która istnieje tylko w kompozycji — i AI rozsiewa ją wykładniczo.

Pięć agencji wywiadowczych właśnie powiedziało to, co opisujemy od kwietnia: „miesiące, nie lata”. Ale najważniejsze jest jedno zdanie, którego nie powiedziały.

Błąd parsera FTP z 1997 roku. Znalazł go Claude Mythos Preview w niemal sekundę — ten sam program Glasswing, którego trajektorię śledzimy od kwietnia.

Zapomniane poświadczenie do porzuconego prototypu. Icarus wszedł przez nie do Klue, ukradł klucze OAuth i opróżnił CRM-y firm, które chronią innych.

„Kalibruj według dzisiejszej rzeczywistości, nie jutrzejszego potencjału.” Brytyjska agencja cyberbezpieczeństwa nazwała drugą stronę medalu, który opisujemy od miesięcy

usbliter8: pierwszy od checkm8 niezałatywalny exploit BootROM Apple. Dlaczego to bardziej prezent dla badaczy niż powód do niepokoju

Kim są Gentlemen — i dlaczego gang, który zaczął pół roku temu, w pierwszym kwartale 2026 był już w pierwszej piątce

Osiem wariantów, każdy podszywa się pod inny program antywirusowy. GentleKiller zabija EDR jego własnym sterownikiem — i robi to z publicznego PoC w kilka dni.

Agent przeglądający stronę ma tożsamość localhost. AutoJack pokazuje, że to wystarczy, by jedna strona uruchomiła kod na maszynie dewelopera.

Pickle in the Middle: atakujący podmienił model w 1,4 sekundy. Vertex AI czytał go po 2,5. Cała różnica między bezpieczeństwem a przejęciem zmieściła się w tej sekundzie.

FortiBleed: w nazwie jest „bleed”, ale nie ma żadnego exploita. 86 tysięcy firewalli przejętych hasłami, których nikt nie zmienił po poprzednich włamaniach.

Plugin działał dokładnie tak, jak obiecywał. Kradł tylko jedną rzecz: twój klucz do AI. A potem sprzedawał go komuś innemu.

Backdoor, który nie otwiera portu, tylko czeka na sekretny pakiet. SprySOCKS przeszedł z Linuksa na Windows i nauczył się ukrywać w jądrze.

Atakujący wziął lukę załataną tydzień temu i napisał exploit z pomocą AI. Działa wadliwie — i to jest najważniejsza informacja w całej historii.

„Dłużej niż kilka dni”. Cztery dni po tym, jak rząd wyłączył Fable 5, Anthropic tłumaczy Białemu Domowi swoje zabezpieczenia — a Europa pyta, czemu ją wyłączono bez ostrzeżenia.

„Zbyt niebezpieczny, by go wydać” trafił do wszystkich 9 czerwca. 12 czerwca o 17:21 rząd USA kazał go wyłączyć. Co spór o Fable 5 mówi o tym, gdzie naprawdę leży granica.

Authorized Intent Chain: atak, w którym każdy krok jest legalny. Agentjacking porywa twojego agenta AI, a EDR, WAF i firewall nie widzą nic, bo nie ma czego widzieć.

npm wyłącza to, co napędzało każdy atak na łańcuch dostaw, który opisywaliśmy. Cena: części buildów przestanie działać – i to jest zamierzone.

RCE bez logowania w systemie, który trzyma kadry, płace i akta studentów. ShinyHunters włamali się na 300 instancji, zanim Oracle w ogóle wydało komunikat.

Microsoft łata dwie jego luki w Defenderze. Tego samego popołudnia on wypuszcza siódmą. Saga Chaotic Eclipse zatoczyła koło — i działa na w pełni załatanym Windows

27 dni z eksploatowanym Exchange bez trwałej łatki. Dziś Microsoft ją wydał — a sam atak jest tym samym wzorcem, który opisujemy od tygodni.

„Zbyt niebezpieczny, by go wydać” właśnie trafił do twojej aplikacji mobilnej. Co Claude Fable 5 mówi o tym, że okno się zamknęło dokładnie tak, jak zapowiadaliśmy.

429 łatek w jednym wydaniu Chrome. Rekord, którego nikt nie chciał — i dowód, że znajdowanie błędów właśnie przestało być wąskim gardłem.

Branża właśnie nazwała to, co opisywaliśmy incydent po incydencie. OWASP: bezpieczeństwo i „safety” agentów AI to już jedno i to samo.

Oxford nie został zhakowany. Dwa razy. Co drugi breach uczelni w miesiąc mówi o tym, że celem nie jest uczelnia, tylko jej dostawca.

Twój telewizor scrapuje sieć dla AI. Z twojego IP, na twoim łączu — i robi to przez protokół słabszy niż malware

Dwa commity go zasadziły. Dwa lata go ukrywały. Code review nigdy go nie znalazł — znalazło AI.

Powiadomienie, którego nie przeczytałeś, mówi Gemini co ma zrobić. „Tak” wypowiedziane przy kierownicy otwiera okna w domu.

Jeden issue, żeby przejąć repozytorium. I jeszcze jeden, żeby zatruć akcję, której używają wszyscy inni.

Zakodowane na stałe hasło do serwera aktualizacji polskiego systemu medycznego. Ten sam wzorzec, który dziś opisywaliśmy trzy razy w skali świata.

RCE w platformie AI to nie koniec ataku. To klucz do skarbca, który trzyma hasła do tuzina innych usług.

Platforma która chroni endpointy staje się tą, która rozprowadza malware. Trzeci raz w tym tygodniu.

Ten sam błąd. Ta sama ocena. Microsoft załatał jeden i odmówił drugiemu. Co dziura bez CVE mówi o łataniu według numerów.

RCE bez logowania w systemie, który zna oceny, PESEL i konto bankowe studenta. Co CVE-2026-34906 mówi o drugiej prędkości polskiego oprogramowania.

Codex znalazł HTTP/2 Bomb. Potem te same łatki posłużyły AI do potwierdzenia, że podatne są też IIS, Envoy i Pingora.

Bez kliknięcia, bez aplikacji, bez śladu. Co czwarty Android zero-day w sześć miesięcy mówi o jednym wytrwałym aktorze.

Następna iteracja powstała. Nie wiadomo, czy to TeamPCP — bo teraz może to być każdy.

Cztery dni. Tyle wystarczyło, żeby z „medium severity, brak eksploatacji” zrobiło się „atakowane, najwyższy priorytet”

Trzy dni temu nazwaliśmy to projekcją. Dziś Glasswing rośnie z 50 do 200 organizacji

Strona staje się ładunkiem. ChatGPT renderuje phishing atakującego we własnym interfejsie — i nie potrafi odróżnić go od siebie.

Fałszywa łatka na dziurę, przez którą weszła. Co FortiClient EMS mówi o tym, że system zarządzania jest najkrótszą drogą do wszystkich endpointów naraz

Nie atak na dane. Atak na mapę. Co prompt leaking mówi o tym, że „ukryte” w AI znaczy coś innego niż myślisz.

Cyberflux Radar #2 – maj 2026

Maj 2026: miesiąc w którym AI przestało być prognozą

Wiadomość instaluje Service Workera

Nie brakuje łatki. Brakuje świadomości że Roundcube to cel państwowych grup szpiegowskich.

Łatka na produkcji bez przerywania produkcji. Co IBM i Red Hat odpowiedzieli na vulnpocalypse pięcioma miliardami dolarów

Anthropic ogłosił że Mythos trafi do wszystkich klientów. Alex Stamos mówił pół roku. Minął jeden.

Likwidacja Glassworm zajęła osiem miesięcy przygotowań i jedną sekundę wykonania. To nie był koniec kampanii.

Jak cyberfirmy zabiły Glassworm jednym strzałem

Napisał złośliwe oprogramowanie AI-em. Zapomniał że AI też popełnia błędy.

„Nigdy nieuzasadnione.” Microsoft odpowiada na Chaotic Eclipse. Badacz się nie odzywa.

DAEMON Tools łata dziś wieczorem. CISA domknęła maj jednym wpisem do katalogu.

Szafir mówił „zweryfikowano”. Nikt nie sprawdzał co weryfikował. Co CVE-2026-9058 mówi o e-administracji która jest bezpieczna dopóki ktoś nie sprawdzi

Nie brakuje już podatności. Brakuje ludzi którzy je naprawią. Co raport Glasswing mówi o nowym kształcie problemu