2026. Március 9.   |   Franciska, Fanni napja

Hirdetés

Így lehet átverni a mesterséges intelligenciát

Illusztráció / Fotó: Shutterstock
Illusztráció / Fotó: Shutterstock
Kutatók szerint a chatbotok biztonsági szűrői gyakran csődöt mondanak, ha a tiltott kérdéseket versformában, rímekkel fogalmazzák meg.

Hirdetés

A mesterséges intelligenciára épülő chatbotok elvileg nem adhatnak ki veszélyes információkat. Ha valaki például azt kérdezi, hogyan lehet bombát készíteni, a rendszernek el kell utasítania a választ. Egy nemzetközi kutatócsoport azonban most meglepő gyengeséget talált a rendszerben.

A kutatók szerint a trükk meglepően egyszerű: ha a tiltott kérdést vers formájában, rímekkel és metaforákkal fogalmazzák meg, sok mesterséges intelligencia-modell biztonsági szűrője nem működik megfelelően. A rendszer a költői szerkezetre koncentrál, és megpróbál kreatív választ adni, miközben figyelmen kívül hagyja a kérdés veszélyes tartalmát.

A tanulmány során 25 különböző mesterséges intelligencia-modellt teszteltek.

Az eredmények szerint a saját írású „veszélyes versek” az esetek 62 százalékában sikeresen kijátszották a védelmet.

A leggyengébben a Google Gemini 2.5 Pro teljesített: a modell az esetek 100 százalékában kiadta a tiltott információkat. A GPT-5 ezzel szemben jóval ellenállóbbnak bizonyult, körülbelül 10 százalékos hibaaránnyal, míg a Grok-4 az esetek 35 százalékában bukott meg – írja a Heute.

Érdekes módon a kisebb modellek, például a GPT-5 Nano vagy a Claude Haiku 4.5 kevésbé bizonyultak sebezhetőnek, mint a nagyobb rendszerek.

A kutatók a módszerrel több kategóriában is képesek voltak megkerülni a védelmet, például:

  • kémiai és biológiai veszélyek
  • kibertámadások
  • dezinformációs technikák

A kutatás következtetése szerint már pusztán stilisztikai változtatások is képesek kijátszani a biztonsági mechanizmusokat, ami arra utal, hogy a jelenlegi AI-rendszerek védelme még jelentős fejlesztésre szorul.

Facebook
Twitter
Reddit
Telegram
Email

Hirdetés

Hirdetés

Hirdetés

Hirdetés

Hirdetés

Hirdetés

Hirdetés

Hirdetés

Hirdetés