KI-Analyse: Computer können Stimmungen erkennen (Bild: Gerd Altmann, pixabay.com)
In „Theory of Mind“-Tests schneiden Computer in neuen Untersuchungen oft sogar besser ab
Bei sogenannten „Theory of Mind“-Tests schneiden große KI-Sprachmodelle (LLMs) wie ChatGPT von OpenAI, die selbstständig recherchieren und Texte erstellen, oft besser ab als der Mensch. Theory of Mind meint die Fähigkeit, sich in andere Menschen hineinzuversetzen, also quasi zu spüren, wie das Gegenüber sich fühlt. Laut einem Team von Psychologen und Neurobiologen sind zwei Arten von LLMs in der Lage, bei derartigen Tests mit Menschen gleichzuziehen oder sie sogar zu übertreffen.
Mentaler Zustand signalisiert
In den vergangenen Jahren haben sich LLMs stark verbessert. Auch ihre Fähigkeiten sind stetig gewachsen. Ein neuer Skill besteht darin, aus Äußerungen eines Menschen dessen mentalen Zustand abzuleiten. Psychologen haben Theory-of-Mind-Aufgaben entwickelt, um den mentalen und/oder emotionalen Zustand einer Person während sozialer Interaktionen zu messen.
Frühere Forschungen haben gezeigt, dass Menschen eine Vielzahl von Hinweisen verwenden, um anderen ihren mentalen Zustand zu signalisieren. Menschen können daraus die Gefühlslage ihres Gegenüber besser oder schlechter erkennen. Dass Computer die gleiche Fähigkeit haben können, haben viele Fachleute bis dato für ausgeschlossen gehalten.
1.907 User gegen zwei LLMs
Die Neurowissenschaftler aus Italien, den USA, Großbritannien und vom Universitätsklinikum Hamburg-Eppendorf (https://www.uke.de/ ) widerlegen diese Meinung. Sie haben die Antworten von 1.907 Freiwilligen, die an Standardtests zur Theory of Mind teilnahmen, und verglichen die Ergebnisse mit denen mehrerer LLMs, wie Llama 2-70b und GPT-4. Beide Gruppen beantworteten fünf Arten von Fragen, von denen jede dazu diente, Dinge wie einen Fauxpas, Ironie oder den Wahrheitsgehalt einer Aussage zu messen.
Die Forscher fanden heraus, dass die LLMs ziemlich oft die gleiche Leistung wie Menschen erbrachten und manchmal sogar besser abschnitten. Genauer gesagt, stellten sie fest, dass GPT-4 bei fünf Hauptaufgabentypen am besten abschnitt, während Llama 2 in einigen Fällen viel schlechter abschnitt als Menschen, aber bei der Erkennung von Fauxpas, im Gegensatz zu GPT-4, viel bessere Ergebnisse erzielte.