Utilizarea ideilor din teoria jocurilor pentru a îmbunătăți fiabilitatea modelelor de limbaj

Imaginează-ți că tu și un prieten jucați un joc în care scopul dvs. este să vă transmiteți mesaje secrete unul altuia folosind doar propoziții codificate. Sarcina prietenului tău este să ghicească mesajul secret din spatele propozițiilor tale. Uneori, dai dovezile direct, iar alteori, prietenul tău trebuie să ghicească mesajul punând întrebări da sau nu despre dovezile pe care le-ai dat. Provocarea este că amândoi vreți să vă asigurați că vă înțelegeți corect și că sunteți de acord cu mesajul secret.

Cercetătorii de la Computer Science and Artificial Intelligence Laboratory (CSAIL) al MIT au creat un „joc” similar pentru a ajuta la îmbunătățirea modului în care AI înțelege și creează text. Este cunoscut sub numele de „jocul consensului” și implică două părți ale sistemului AI – o parte încearcă să genereze propoziții (cum ar fi să ofere indicii), iar cealaltă parte încearcă să înțeleagă și să evalueze acele propoziții (cum ar fi ghicirea secretului). mesaj).

Cercetătorii au descoperit că, tratând această interacțiune ca pe un joc, în care ambele părți ale AI lucrează împreună în conformitate cu reguli specifice pentru a conveni asupra mesajului corect, ei pot îmbunătăți semnificativ capacitatea AI de a oferi răspunsuri corecte și coerente la întrebări. Ei au testat această nouă abordare asemănătoare unui joc pentru o varietate de sarcini, cum ar fi înțelegerea cititului, rezolvarea problemelor de matematică și conversațiile și au descoperit că a ajutat AI să aibă performanțe mai bune în general.

În mod tradițional, modelele de limbaj mari răspund într-unul din două moduri: generând răspunsuri direct din model (interogare generativă) sau folosind modelul pentru a înregistra un set de răspunsuri predefinite (interogare discriminativă), ceea ce poate duce la rezultate diferite și uneori incompatibile. Cu abordarea generativă, „Cine este președintele Statelor Unite?” Ar putea da un răspuns direct precum „Joe Biden”. Cu toate acestea, o interogare discriminatorie poate contrazice incorect acest fapt atunci când se evaluează același răspuns, cum ar fi „Barack Obama”.

READ Vânzarea EOFY de la Ebay aduce punțile cu abur la cele mai ieftine prețuri din Australia

Deci, cum reconciliem procedurile de notare reciproc incompatibile pentru a realiza predicții coerente și eficiente?

„Imaginați-vă o nouă modalitate de a ajuta modelele de limbaj să înțeleagă și să genereze text, ca un joc. Am dezvoltat o metodă teoretică a jocului fără antrenament, care tratează întregul proces ca pe un joc complex de indicii și semnale, pe măsură ce generatorul încearcă să-l genereze. ” spune Athol Jacob, doctorand la MIT în Inginerie Electrică și Informatică și afiliat CSAIL: „Trimite mesajul potrivit persoanei care diferențiază oamenii care folosesc limbajul natural. În loc de piese de șah, ei folosesc cuvinte și propoziții.” „Modul nostru de a naviga în acest joc este să găsim „echilibre aproximative”, ceea ce duce la un nou algoritm de decodare numit „clasificare de echilibru”. „Este o demonstrație foarte interesantă a modului în care strategiile de teoria jocurilor pot fi aduse în combinație pentru a aborda unele dintre marile provocări în a face modelele de limbaj mai fiabile și mai consistente.”

Când a fost testat în mai multe sarcini, cum ar fi înțelegerea cititului, raționamentul logic, rezolvarea problemelor matematice și dialogul, algoritmul echipei a îmbunătățit constant cât de bine au funcționat aceste modele. Utilizarea algoritmului ER cu modelul LLaMA-7B a depășit rezultatele de la modele mult mai mari. „Având în vedere că este deja competitiv, oamenii lucrează la el de ceva vreme, dar nivelul de îmbunătățiri pe care l-am văzut și capacitatea de a depăși un model de 10 ori mai mare a fost o surpriză plăcută”, spune Jacob.

Rulați jocul

Diplomacy, un joc de masă de strategie plasat în Europa de dinaintea Primului Război Mondial, în care jucătorii negociază alianțe, trădează prieteni și cuceresc teritorii fără a folosi zarurile – bazându-se în întregime pe abilități, strategie și manipularea caracterului – a avut recent o a doua apariție. În noiembrie 2022, informaticienii, inclusiv Jacob, au dezvoltat „Cicero”, un agent AI care realizează abilități la nivel uman într-un joc cu motive mixte pentru șapte jucători, care necesită aceleași abilități menționate mai sus, dar în limbaj natural. Matematica din spatele acestui lucru a inspirat parțial jocul de consens.

READ Așa arăta anulat PS3 Superman

Deși istoria agenților AI este de mult anterioară când OpenAI a intrat în chat în noiembrie 2022, este bine documentat că aceștia se pot masca în continuare ca un prieten bine intenționat, dar bolnav.

Sistemul de joc compatibil ajunge la echilibru ca un acord, asigurând acuratețe și fidelitate față de viziunile originale ale modelului. Pentru a realiza acest lucru, metoda ajustează în mod iterativ interacțiunile dintre componentele generative și discriminatorii până când acestea ajung la un consens asupra unui răspuns care reflectă cu acuratețe realitatea și este în concordanță cu convingerile lor inițiale. Această abordare realizează efectiv diferența dintre cele două metode de interogare.

În practică, implementarea unei abordări de consens pentru interogarea modelului de limbaj, în special pentru sarcinile de răspuns la întrebări, implică provocări de calcul semnificative. De exemplu, atunci când se utilizează seturi de date precum MMLU, care conțin mii de întrebări și răspunsuri cu variante multiple, modelul trebuie să aplice mecanismul fiecărei interogări. Prin urmare, trebuie să se ajungă la un consens între componentele generative și discriminatorii ale fiecărei întrebări și răspunsurile ei potențiale.

Sistemul a avut dificultăți în obținerea dreptului de trecere în școala elementară: probleme de cuvinte matematice. Nu poate genera răspunsuri greșite, care este un element crucial în înțelegerea procesului de a ajunge la răspunsurile corecte.

„În ultimii câțiva ani s-au înregistrat progrese cu adevărat impresionante atât în ceea ce privește luarea deciziilor strategice, cât și în generarea de limbaj din sistemele de inteligență artificială, dar abia începem să ne dăm seama cum să le unim pe cei doi. O clasare echilibrată este un prim pas în această direcție. dar cred că „Putem face multe pentru a extinde acest lucru la probleme mai complexe”.

READ Twitter adaugă suport pentru tăiere la Spaces

O cale de lucru viitoare include îmbunătățirea modelului de bază prin încorporarea rezultatelor metodei existente. Acest lucru este deosebit de promițător, deoarece poate duce la răspunsuri mai realiste și mai consistente pentru diferite sarcini, inclusiv realism și generare deschisă. Posibilitatea este ca o astfel de abordare să îmbunătățească semnificativ performanța modelului de bază, ceea ce ar putea duce la rezultate mai fiabile și mai realiste decât ChatGPT și modele de limbaj similare pe care oamenii le folosesc în fiecare zi.

„Deși modelele de limbaj moderne, cum ar fi ChatGPT și Gemini, au rezolvat diverse sarcini prin interfețe de chat, procesul de decodare statistică care generează un răspuns de la astfel de modele a rămas neschimbat de zeci de ani”, spune cercetătorul Google Ahmed Bayrami, care nu a fost implicat în munca. „Propunerea cercetătorilor MIT este un cadru teoretic inovator pentru decodarea modelelor de limbaj prin rezolvarea unui echilibru consensual al jocului. Câștigurile semnificative de performanță raportate în lucrare sunt promițătoare, deschizând ușa către o potențială schimbare de paradigmă în modelul de decodare a limbajului. că… „Ar putea alimenta un val de noi aplicații”.

Jacob a scris lucrarea împreună cu cercetătorul MIT-IBM Watson Laboratory Yikang Shen și profesorul asistent al Departamentului de Inginerie Electrică și Informatică al MIT Gabriel Farina și Jacob Andreas, care este, de asemenea, membru al CSAIL. Ei și-au prezentat lucrările la Conferința Internațională privind Reprezentațiile învățării (ICLR) la începutul acestei luni, unde a fost evidențiată ca „Lucrare în atenție”. Cercetarea a primit, de asemenea, un „Premiul pentru cea mai bună hârtie” la Workshop-ul NeurIPS R0-FoMo în decembrie 2023.

Faust Nerva

„Student. Organizator subtil fermecător. Susținător al muzicii certificat. Scriitor. Făcător de-a lungul vieții. Iubitor de Twitter.”

Nintendo nu poate repara Noul tău 3DS deoarece are piese fără piese

Yamaha MT-09 SP este bicicleta perfectă pentru cicliștii solitar

Google Pixel 9 bate peste greutatea sa – channelnews

You may have missed

Cine este antrenorul Anei Barboso? Aflați totul despre Clubul Român de Gimnastică și antrenamentele pentru Jocurile Olimpice de la Paris

Șeful organismului care a pronunțat împotriva Iordaniei, Chile, reprezintă România în alte cazuri

Simulările pe supercomputer dezvăluie natura turbulenței în discurile de acumulare a găurilor negre

Kamala Harris este în drum spre Georgia, și eu la fel

main menu

Articole recente

pages

Lasă un răspuns Anulează răspunsul

More Stories