A mesterséges intelligenciára épülő chatbotok elvileg nem adhatnak ki veszélyes információkat. Ha valaki például azt kérdezi, hogyan lehet bombát készíteni, a rendszernek el kell utasítania a választ. Egy nemzetközi kutatócsoport azonban most meglepő gyengeséget talált a rendszerben.
A kutatók szerint a trükk meglepően egyszerű: ha a tiltott kérdést vers formájában, rímekkel és metaforákkal fogalmazzák meg, sok mesterséges intelligencia-modell biztonsági szűrője nem működik megfelelően. A rendszer a költői szerkezetre koncentrál, és megpróbál kreatív választ adni, miközben figyelmen kívül hagyja a kérdés veszélyes tartalmát.
A tanulmány során 25 különböző mesterséges intelligencia-modellt teszteltek.
Az eredmények szerint a saját írású „veszélyes versek” az esetek 62 százalékában sikeresen kijátszották a védelmet.
A leggyengébben a Google Gemini 2.5 Pro teljesített: a modell az esetek 100 százalékában kiadta a tiltott információkat. A GPT-5 ezzel szemben jóval ellenállóbbnak bizonyult, körülbelül 10 százalékos hibaaránnyal, míg a Grok-4 az esetek 35 százalékában bukott meg – írja a Heute.
Érdekes módon a kisebb modellek, például a GPT-5 Nano vagy a Claude Haiku 4.5 kevésbé bizonyultak sebezhetőnek, mint a nagyobb rendszerek.
A kutatók a módszerrel több kategóriában is képesek voltak megkerülni a védelmet, például:
- kémiai és biológiai veszélyek
- kibertámadások
- dezinformációs technikák
A kutatás következtetése szerint már pusztán stilisztikai változtatások is képesek kijátszani a biztonsági mechanizmusokat, ami arra utal, hogy a jelenlegi AI-rendszerek védelme még jelentős fejlesztésre szorul.



