KI erkennt Gefühle in Stimmen von Menschen

März 20, 2024

Einsatz laut Max-Planck-Institut für Bildungsforschung beispielsweise bei Therapiesitzungen

Entwicklungspsychologen des Max-Planck-Instituts für Bildungsforschung (https://www.mpib-berlin.mpg.de/forschung/forschungsbereiche/entwicklungspsychologie) nutzen technische Tools auf Basis Künstlicher Intelligenz (KI), um emotionale Untertöne in Fragmenten von Aufzeichnungen von Stimmen zu erkennen. Dafür hat das Team um Forschungsleiter Hannes Diemerling die Genauigkeit der Arbeitsweise von drei Modellen maschinellen Lernens miteinander verglichen.

1,5 Sekunden reichen aus

Laut Diemerling kann maschinelles Lernen dafür eingesetzt werden, Gefühle in Audioaufzeichnungen zu erkennen, die nur 1,5 Sekunden lang sind. „Unsere Modelle erzielten dabei eine ähnliche Genauigkeit wie Menschen.“ Für die Studie wurden Schauspieler eingesetzt, die bedeutungslose Sätze mit einer emotionalen Färbung versahen. Die Forscher entnahmen diese Sätze aus zwei Datensätzen. Einer stammte aus Kanada, der andere aus Deutschland.

Damit konnte überprüft werden, ob das maschinelle Lernen Gefühle richtig erkennen kann – und das unabhängig von der Sprache, kulturellen Nuancen und dem semantischen Inhalt. Jeder Clip wurde auf eine Länge von 1,5 Sekunden gekürzt. So lange brauchen nämlich auch Menschen, um das Gefühl beim Sprechen zu erkennen. Dabei handelt es sich zudem auch um die kürzeste mögliche Länge, bei der das Überlappen von Gefühlen vermieden werden kann.

Drei Modelle ausgetestet

Basierend auf den Trainingsdaten haben die Experten KI-Modelle, die auf jeweils eine von drei Arten arbeiten, untersucht. Bei tiefen neuronalen Netzen (DNNs) handelt es sich um komplexe Filter, die Komponenten von Klang wie die Frequenz oder die Tonhöhe analysieren. Das ist zum Beispiel der Fall, wenn eine Stimme lauter ist, weil die sprechende Person wütend ist. Ziel dieser tiefen neuronalen Netze war es, die zugrundeliegenden Emotionen zu identifizieren.

Konvolutionale neuronale Netze (CNNs) wiederum suchen nach Mustern in der bildlichen Darstellung von Tonspuren. Das entspricht in etwa der Erkennung von Gefühlen mittels des Rhythmus und der Beschaffenheit einer Stimme. Das hybride Modell (C-DNN) verbindet beide Verfahren und nutzt sowohl den Ton als auch sein visuelles Spektrogramm zur Vorhersage von Gefühlen. Diese Modelle wurden dann anhand beider Datensätze auf ihre Leistungsfähigkeit getestet.

Ähnliche Muster erkannt

DNNs und C-DNNs erzielten eine bessere Genauigkeit, als wenn nur die Spektrogramme der CNNs ausgewertet wurden. „Unabhängig vom jeweiligen Modell war die Erkennung der Gefühle mit einer größeren Wahrscheinlichkeit richtig, als sie durch ein Raten möglich ist und damit durchaus mit der Genauigkeit beim Menschen vergleichbar. Dabei war es den Forschern wichtig, ihre Modelle in einem realistischen Kontext anzusiedeln und die Fähigkeiten der Menschen zur Vorhersage als Maßstab heranzuziehen. „Hätten die Modelle besser abgeschnitten als die Menschen, hätte das bedeuten können, dass es Muster gibt, die wir nicht erkennen können“, so Diemerling.

Die Tatsache allerdings, dass nicht trainierte Menschen und Modelle eine ähnliche Leistung erbringen, dürfte bedeuten, dass beide sich auf ähnliche Erkennungsmuster verlassen. Die in „Frontiers in Psychology“ veröffentlichte Studie zeigt aber auch, dass es möglich ist, Systeme zu entwickeln, die sofort emotionale Signale interpretieren können und so in einer Vielzahl von Situationen live ein intuitives Feedback geben. Denkbar ist das zum Beispiel im Bereich der Therapie oder Kommunikationstechnologien in anderen zwischenmenschlichen Zusammenhängen.

Related Articles

Alle News im Überblick

Alle News im Überblick

View Post 21.04.2024 NIS2: Tech-Experten kommentieren die neue EU-Richtlinie 21.04.2024 3M: Erstes selbstaufladendes Kommunikations- und Gehörschutz-Headset 20.04.2024 Forschende der FH St. Pölten publizieren neuen Artikel über audiovisuelle Datenanalyse 20.04.2024...

Vom Ohren öffnen und hinschauen

Vom Ohren öffnen und hinschauen

Forschende der FH St. Pölten publizieren neuen Artikel über audiovisuelle Datenanalyse Forschende der Fachhochschule St. Pölten publizierten einen State-of-the Art-Report für integrierte audiovisuelle Datenanalyse im Rahmen des Projekts SoniVis. Das Team von SoniVis...

Neueste Entwicklungen im Bereich des Flughafenmanagements

Neueste Entwicklungen im Bereich des Flughafenmanagements

SITA stellt neueste Entwicklungen im Bereich des Flughafenmanagements vor Markteinführung einer KI-gestützten Plattform nach Test mit GREATER TORONTO AIRPORTS AUTHORITY in Kanada vor SITA,Technologieunternehmen der Luftverkehrsbranche, hat auf der Passenger Terminal...

Share This