zaterdag, juli 20, 2024
HomeWorld NewsHebben AI Chatbots Theory of Mind ontwikkeld? Wat we wel en...

Hebben AI Chatbots Theory of Mind ontwikkeld? Wat we wel en niet weten.


Gedachten lezen is gebruikelijk bij ons mensen. Niet op de manier waarop paranormaal begaafden beweren het te doen, door toegang te krijgen tot de warme stromen van bewustzijn die de ervaring van elk individu vullen, of op de manier waarop mentalisten beweren het te doen, door naar believen een gedachte uit je hoofd te halen. Elke dag is het lezen van gedachten subtieler: we nemen de gezichten en bewegingen van mensen in ons op, luisteren naar hun woorden en beslissen dan of voelen aan wat er in hun hoofd omgaat.

Onder psychologen wordt zo’n intuïtieve psychologie – het vermogen om aan andere mensen mentale toestanden toe te schrijven die verschillen van de onze – theory of mind genoemd, en de afwezigheid of beperking ervan wordt in verband gebracht met autisme, schizofrenie en andere ontwikkelingsstoornissen. Theory of mind helpt ons met elkaar te communiceren en elkaar te begrijpen; het stelt ons in staat om te genieten van literatuur en films, spelletjes te spelen en onze sociale omgeving te begrijpen. In veel opzichten is het vermogen een essentieel onderdeel van het mens zijn.

Wat als een machine ook gedachten kon lezen?

Onlangs heeft Michal Kosinski, een psycholoog aan de Stanford Graduate School of Business, maakte precies dat argument: dat grote taalmodellen zoals OpenAI’s ChatGPT en GPT-4 – voorspellingsmachines voor het volgende woord getraind op enorme hoeveelheden tekst van internet – theory of mind hebben ontwikkeld. Zijn studies zijn niet door vakgenoten beoordeeld, maar ze leidden tot onderzoek en gesprekken onder cognitieve wetenschappers, die tegenwoordig de vaak gestelde vraag proberen te beantwoorden: kan ChatGPT doen dit? – en verplaats het naar het rijk van robuuster wetenschappelijk onderzoek. Welke capaciteiten hebben deze modellen en hoe kunnen ze ons begrip van onze eigen geest veranderen?

“Psychologen zouden geen enkele bewering accepteren over de capaciteiten van jonge kinderen, alleen gebaseerd op anekdotes over uw interacties met hen, wat lijkt te gebeuren met ChatGPT”, zegt Alison Gopnik, een psycholoog aan de University of California, Berkeley en een van de eerste onderzoekers die zich in de jaren tachtig bezighielden met theory of mind. “Je moet heel zorgvuldige en rigoureuze tests doen.”

Dr. Kosinski’s eerdere onderzoek toonde aan dat neurale netwerken die getraind zijn om gelaatstrekken zoals neusvorm, hoofdhoek en emotionele expressie te analyseren, kunnen voorspellen hoe mensen zich voelen. Politieke standpunten En seksuele geaardheid met een verrassende mate van nauwkeurigheid (ongeveer 72 procent in het eerste geval en ongeveer 80 procent in het tweede geval). Zijn recente werk over grote taalmodellen maakt gebruik van klassieke theory of mind-tests die het attribuutvermogen van kinderen meten valse overtuigingen Naar andere mensen.

Een bekend voorbeeld is de Sally-Anne-test, waarin een meisje, Anne, een knikker van een mand naar een doos verplaatst als een ander meisje, Sally, niet kijkt. Om te weten waar Sally naar de knikker zal zoeken, beweerden onderzoekers, zou een kijker de theorie van de geest moeten oefenen, redeneren over Sally’s perceptuele bewijs en geloofsvorming: Sally zag Anne de knikker niet naar de doos verplaatsen, dus gelooft ze het nog steeds. is waar ze het voor het laatst heeft achtergelaten, in de mand.

Dr. Kosinski presenteerde 10 grote taalmodellen met 40 unieke variaties van deze theory of mind-tests – beschrijvingen van situaties zoals de Sally-Anne-test, waarin een persoon (Sally) een vals geloof vormt. Vervolgens stelde hij de modellen vragen over die situaties, waarbij hij ze aanspoorde om te zien of ze valse overtuigingen zouden toeschrijven aan de betrokken personages en hun gedrag nauwkeurig zouden voorspellen. Hij ontdekte dat GPT-3.5, uitgebracht in november 2022, dit in 90 procent van de tijd deed, en GPT-4, uitgebracht in maart 2023, in 95 procent van de tijd.

De conclusie? Machines hebben theory of mind.

Maar kort nadat deze resultaten waren vrijgegeven, reageerde Tomer Ullman, een psycholoog aan de Harvard University, met een set van zijn eigen experimenten, waaruit blijkt dat kleine aanpassingen in de prompts de antwoorden die zelfs door de meest geavanceerde grote taalmodellen worden gegenereerd, volledig kunnen veranderen. Als een container als transparant zou worden beschreven, zouden de machines niet kunnen concluderen dat iemand erin zou kunnen kijken. De machines hadden moeite om rekening te houden met de getuigenissen van mensen in deze situaties, en konden soms geen onderscheid maken tussen een object dat zich in een container bevond en er bovenop.

Maarten Sap, computerwetenschapper aan de Carnegie Mellon University, meer dan 1.000 theory of mind-testen gevoerd in grote taalmodellen en ontdekte dat de meest geavanceerde transformatoren, zoals ChatGPT en GPT-4, slechts ongeveer 70 procent van de tijd slaagden. (Met andere woorden, ze slaagden er voor 70 procent in om valse overtuigingen toe te schrijven aan de mensen die in de testsituaties werden beschreven.) De discrepantie tussen zijn gegevens en die van Dr. Kosinski zou te wijten kunnen zijn aan verschillen in de tests, maar Dr. 95 procent van de tijd zou geen bewijs zijn van echte theory of mind. Machines falen meestal volgens een patroon, zijn niet in staat om abstract te redeneren en maken vaak “onechte correlaties”, zei hij.

Dr. Ullman merkte op dat onderzoekers op het gebied van machine learning de afgelopen decennia moeite hebben gehad om de flexibiliteit van menselijke kennis in computermodellen vast te leggen. Deze moeilijkheid is een ‘schaduwbevinding’ geweest, zei hij, hangend achter elke opwindende innovatie. Onderzoekers hebben aangetoond dat taalmodellen vaak foute of irrelevante antwoorden geven wanneer ze worden geprimed met onnodige informatie voordat een vraag wordt gesteld; sommige chatbots waren zo van slag door hypothetische discussies over pratende vogels dat ze uiteindelijk beweerde dat vogels konden spreken. Omdat hun redenering gevoelig is voor kleine veranderingen in hun input, hebben wetenschappers de kennis van deze machines “bros.”

Dr. Gopnik vergeleek de theory of mind van grote taalmodellen met haar eigen begrip van de algemene relativiteitstheorie. “Ik heb genoeg gelezen om te weten wat de woorden zijn,” zei ze. “Maar als je me zou vragen een nieuwe voorspelling te doen of te zeggen wat de theorie van Einstein ons vertelt over een nieuw fenomeen, zou ik stomverbaasd zijn omdat ik de theorie niet echt in mijn hoofd heb.” Daarentegen, zei ze, is de menselijke theorie van de geest verbonden met andere redeneringsmechanismen met gezond verstand; het staat sterk in het aangezicht van nauwkeurig onderzoek.

Over het algemeen passen het werk van Dr. Kosinski en de reacties erop in het debat over de vraag of de capaciteiten van deze machines kunnen worden vergeleken met de capaciteiten van mensen – een debat dat verdeelt onderzoekers die werken aan natuurlijke taalverwerking. Zijn deze machines stochastische papegaaien, of buitenaardse intelligenties, of frauduleuze bedriegers? A Enquête 2022 van het veld ontdekte dat van de 480 onderzoekers die reageerden, 51 procent geloofde dat grote taalmodellen uiteindelijk “natuurlijke taal in een niet-triviale zin zouden kunnen begrijpen”, en 49 procent geloofde dat ze dat niet konden.

Dr. Ullman sluit de mogelijkheid van machine-inzicht of machine theory of mind niet uit, maar hij is op zijn hoede om menselijke capaciteiten toe te schrijven aan niet-menselijke dingen. Hij noteerde een beroemde Studie uit 1944 van Fritz Heider en Marianne Simmel, waarin deelnemers een animatiefilmpje te zien kregen van twee driehoeken en een cirkel die met elkaar in wisselwerking staan. Toen de proefpersonen werd gevraagd op te schrijven wat er in de film gebeurde, beschreven bijna allemaal de vormen als mensen.

“Geliefden in de tweedimensionale wereld, ongetwijfeld; kleine driehoek nummer twee en lieve cirkel’, schreef een deelnemer. “Triangle-one (hierna bekend als de slechterik) bespioneert de jonge liefde. Ah!”

Het is natuurlijk en vaak sociaal vereist om menselijk gedrag te verklaren door te praten over overtuigingen, verlangens, intenties en gedachten. Deze neiging staat centraal in wie we zijn – zo centraal dat we soms proberen de geest te lezen van dingen die geen geest hebben, althans geen geest zoals de onze.

RELATED ARTICLES

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in

- Advertisment -
Google search engine

Most Popular

Recent Comments