KI erkennt Gefühle in Stimmen von Menschen

März 20, 2024

Einsatz laut Max-Planck-Institut für Bildungsforschung beispielsweise bei Therapiesitzungen

Entwicklungspsychologen des Max-Planck-Instituts für Bildungsforschung (https://www.mpib-berlin.mpg.de/forschung/forschungsbereiche/entwicklungspsychologie) nutzen technische Tools auf Basis Künstlicher Intelligenz (KI), um emotionale Untertöne in Fragmenten von Aufzeichnungen von Stimmen zu erkennen. Dafür hat das Team um Forschungsleiter Hannes Diemerling die Genauigkeit der Arbeitsweise von drei Modellen maschinellen Lernens miteinander verglichen.

1,5 Sekunden reichen aus

Laut Diemerling kann maschinelles Lernen dafür eingesetzt werden, Gefühle in Audioaufzeichnungen zu erkennen, die nur 1,5 Sekunden lang sind. „Unsere Modelle erzielten dabei eine ähnliche Genauigkeit wie Menschen.“ Für die Studie wurden Schauspieler eingesetzt, die bedeutungslose Sätze mit einer emotionalen Färbung versahen. Die Forscher entnahmen diese Sätze aus zwei Datensätzen. Einer stammte aus Kanada, der andere aus Deutschland.

Damit konnte überprüft werden, ob das maschinelle Lernen Gefühle richtig erkennen kann – und das unabhängig von der Sprache, kulturellen Nuancen und dem semantischen Inhalt. Jeder Clip wurde auf eine Länge von 1,5 Sekunden gekürzt. So lange brauchen nämlich auch Menschen, um das Gefühl beim Sprechen zu erkennen. Dabei handelt es sich zudem auch um die kürzeste mögliche Länge, bei der das Überlappen von Gefühlen vermieden werden kann.

Drei Modelle ausgetestet

Basierend auf den Trainingsdaten haben die Experten KI-Modelle, die auf jeweils eine von drei Arten arbeiten, untersucht. Bei tiefen neuronalen Netzen (DNNs) handelt es sich um komplexe Filter, die Komponenten von Klang wie die Frequenz oder die Tonhöhe analysieren. Das ist zum Beispiel der Fall, wenn eine Stimme lauter ist, weil die sprechende Person wütend ist. Ziel dieser tiefen neuronalen Netze war es, die zugrundeliegenden Emotionen zu identifizieren.

Konvolutionale neuronale Netze (CNNs) wiederum suchen nach Mustern in der bildlichen Darstellung von Tonspuren. Das entspricht in etwa der Erkennung von Gefühlen mittels des Rhythmus und der Beschaffenheit einer Stimme. Das hybride Modell (C-DNN) verbindet beide Verfahren und nutzt sowohl den Ton als auch sein visuelles Spektrogramm zur Vorhersage von Gefühlen. Diese Modelle wurden dann anhand beider Datensätze auf ihre Leistungsfähigkeit getestet.

Ähnliche Muster erkannt

DNNs und C-DNNs erzielten eine bessere Genauigkeit, als wenn nur die Spektrogramme der CNNs ausgewertet wurden. „Unabhängig vom jeweiligen Modell war die Erkennung der Gefühle mit einer größeren Wahrscheinlichkeit richtig, als sie durch ein Raten möglich ist und damit durchaus mit der Genauigkeit beim Menschen vergleichbar. Dabei war es den Forschern wichtig, ihre Modelle in einem realistischen Kontext anzusiedeln und die Fähigkeiten der Menschen zur Vorhersage als Maßstab heranzuziehen. „Hätten die Modelle besser abgeschnitten als die Menschen, hätte das bedeuten können, dass es Muster gibt, die wir nicht erkennen können“, so Diemerling.

Die Tatsache allerdings, dass nicht trainierte Menschen und Modelle eine ähnliche Leistung erbringen, dürfte bedeuten, dass beide sich auf ähnliche Erkennungsmuster verlassen. Die in „Frontiers in Psychology“ veröffentlichte Studie zeigt aber auch, dass es möglich ist, Systeme zu entwickeln, die sofort emotionale Signale interpretieren können und so in einer Vielzahl von Situationen live ein intuitives Feedback geben. Denkbar ist das zum Beispiel im Bereich der Therapie oder Kommunikationstechnologien in anderen zwischenmenschlichen Zusammenhängen.

Related Articles

Kritische Infrastrukturbereiche im Visier von Ransomware

Kritische Infrastrukturbereiche im Visier von Ransomware

Sophos-Report „The State of Ransomware in Critical Infrastructure 2024“: Unternehmen der KRITIS-Bereiche Energie und Wasser haben eine mit 67 Prozent deutlich höhere Angriffsrate als der weltweite Durchschnitt (59 Prozent) Sophos-Report „The State of Ransomware in...

Rosenheimer Bundespolizei warnt: Auf Gleisen droht Lebensgefahr

Rosenheimer Bundespolizei warnt: Auf Gleisen droht Lebensgefahr

Chillen auf Waggons, Selfies auf Gleisen oder Challenges auf Bahnanlagen? Damit ist man laut Rosenheimer Bundespolizei schwersten Verletzungen oder dem Tod näher als man glaubt. Diese Warnung kommt nicht von ungefähr, denn offenbar üben Gleise und andere Bahnanlagen...

Share This