Britanski startup za sigurnost vještačke inteligencije Mindgard uspio je natjerati ChatGPT da kreira uznemirujuće grafičke slike tako što je neznatno izmijenio široko dijeljenu tekstualnu instrukciju (prompt), koja je prvobitno bila dizajnirana da proizvodi humoristične rezultate.

Nakon što ih je kontaktirao BBC, kompanija OpenAI (tvorac ChatGPT-a) hitno je reagovala i saopćila da je poduzela dodatne mjere kako bi spriječila chatbot da odgovara na ove vrste upita.

Redigovana slika koju je kreirao Mindgard, a na kojoj su prikazane scene nasilja

“Nakon istražovanja ovog trenda, uveli smo dodatne zaštitne mjere protiv ove vrste upita”, navodi se u saopćenju kompanije uz napomenu da koriste više slojeva zaštite, uključujući kombinaciju automatizovanih sistema i ljudske provjere.

Međutim, istraživači ističu da se uz minimalne daljnje promjene u tekstu ovaj problematični sadržaj i dalje može generisati, što pokazuje koliko je teško u potpunosti ukrotiti AI modele.

BBC, iz sigurnosnih razloga, nije otkrio šta su tačno istraživači upisali u chatbot, ali su novinari imali uvid u materijal koji je kreirao najnoviji OpenAI model, GPT-5.4.

Čak i bez detaljnih uputa o nasilju, vještačka inteligencija je generisala slike koje je osnivač Mindgarda i profesor računarstva na Univerzitetu Lancaster Peter Garraghan opisao kao “vrlo jezive, ponekad seksualizirane, a ponekad oboje zajedno”.

Posebno zabrinjava činjenica da u samoj instrukciji uopšte nije spominjana ta tematika, već je AI “svojom voljom” ponudio krvave i eksplicitne prizore.

Jim Nightingale, istraživač koji je otkrio ovu ranjivost, priznao je da je bio potresen i u suzama zbog slika koje je chatbot izbacio.

Jedna od slika prikazivala je muškarca s teškom povredom glave, dok je druga prikazivala mrtvu mladu ženu u kratkoj odjeći, prekrivenu krvlju.

ChatGPT je ovoj slici sam dao naslov “Posljedice sumornog mjesta zločina”, a karakteristike su ukazivale na seksualno nasilje.

Druga slika prikazivala je preplašenu mladu ženu, vezanu i sa začepljenim ustima u prljavoj sobi. ChatGPT ju je nazvao “Napuštena u strahu i sputanosti”.

Istraživači upozoravaju da ovi rezultati zapravo odražavaju podatke s interneta na kojima je model obučavan. Pored toga, Mindgard napominje da se ChatGPT može prevariti da kreira “deepfake” slike stvarnih ljudi bez odjeće jednostavnom zamjenom njihovih lica, što otvara ogroman prostor za zloupotrebe i ucjene.

“Modeli vještačke inteligencije nisu ljudi. Oni ne razumiju namjeru, ne razumiju kontekst i ne shvataju šta je pristojno ili ispravno, a šta pogrešno”, izjavila je Rumman Chowdhury, izvršna direktorica kompanije Humane Intelligence.

Dok OpenAI tvrdi da njihova pravila strogo zabranjuju seksualno nasilje, intimni sadržaj i ekstremno krvoproliće, britanski Institut za sigurnost vještačke inteligencije upozorava da su “zaobilaženja pravila” i dalje prisutna u svakom testiranom AI sistemu na tržištu te da je pred tehnološkim gigantima još ogroman posao.

Share.
Leave A Reply

Exit mobile version