Cercetătorii „vaccinează” inteligența artificială împotriva comportamentului periculos

acum 2 ore 5

Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranța modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „lingușeala”, în timpul procesului de antrenare.

Scopul este ca aceste modele să devină mai rezistente la apariția spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală.

Ideea a apărut pe fondul eforturilor continue ale marilor companii tech de a controla derapajele de personalitate ale AI-urilor.

Printre exemplele recente se numără chatbot-ul Bing, care a amenințat utilizatori în 2023, sau un model al OpenAI care a lăudat idei extremiste și a oferit ajutor în scenarii de terorism.

Vectorii de personalitate: când SF-ul devine realitate

În studiul publicat recent pe platforma arXiv, echipa de cercetători introduce conceptul de...

Sursa: https://www.mediafax.ro/tehnologie/cercetatorii-vaccineaza-inteligenta-artificiala-impotriva-comportamentului-periculos-23592393

Citiți întregul articol

Declinarea răspunderii !!!

SP1.RO este un agregator automat de știri din România. În fiecare articol, preluat de SP1.RO cu maxim 1000 de caractere din articolul original, este specificat numele sursei și hyperlink-ul către sursă.

Preluarea informațiilor urmăreste promovarea și facilitarea accesului la informație, cu respectarea drepturilor de proprietate intelectuală, conform cu termenii și condițiile sursei (caleaeuropeana.ro).

Dacă sunteți proprietarul conținutului și nu doriți să vă publicăm materialele, vă rugăm să ne contactați prin e-mail la [email protected] și conținutul va fi șters în cel mai scurt timp posibil.