KI erkennt Gefühle in Stimmen von Menschen



März 20, 2024



Gesellschaft & Politik

Einsatz laut Max-Planck-Institut für Bildungsforschung beispielsweise bei Therapiesitzungen

Entwicklungspsychologen des Max-Planck-Instituts für Bildungsforschung (https://www.mpib-berlin.mpg.de/forschung/forschungsbereiche/entwicklungspsychologie) nutzen technische Tools auf Basis Künstlicher Intelligenz (KI), um emotionale Untertöne in Fragmenten von Aufzeichnungen von Stimmen zu erkennen. Dafür hat das Team um Forschungsleiter Hannes Diemerling die Genauigkeit der Arbeitsweise von drei Modellen maschinellen Lernens miteinander verglichen.

1,5 Sekunden reichen aus

Laut Diemerling kann maschinelles Lernen dafür eingesetzt werden, Gefühle in Audioaufzeichnungen zu erkennen, die nur 1,5 Sekunden lang sind. „Unsere Modelle erzielten dabei eine ähnliche Genauigkeit wie Menschen.“ Für die Studie wurden Schauspieler eingesetzt, die bedeutungslose Sätze mit einer emotionalen Färbung versahen. Die Forscher entnahmen diese Sätze aus zwei Datensätzen. Einer stammte aus Kanada, der andere aus Deutschland.

Damit konnte überprüft werden, ob das maschinelle Lernen Gefühle richtig erkennen kann – und das unabhängig von der Sprache, kulturellen Nuancen und dem semantischen Inhalt. Jeder Clip wurde auf eine Länge von 1,5 Sekunden gekürzt. So lange brauchen nämlich auch Menschen, um das Gefühl beim Sprechen zu erkennen. Dabei handelt es sich zudem auch um die kürzeste mögliche Länge, bei der das Überlappen von Gefühlen vermieden werden kann.

Drei Modelle ausgetestet

Basierend auf den Trainingsdaten haben die Experten KI-Modelle, die auf jeweils eine von drei Arten arbeiten, untersucht. Bei tiefen neuronalen Netzen (DNNs) handelt es sich um komplexe Filter, die Komponenten von Klang wie die Frequenz oder die Tonhöhe analysieren. Das ist zum Beispiel der Fall, wenn eine Stimme lauter ist, weil die sprechende Person wütend ist. Ziel dieser tiefen neuronalen Netze war es, die zugrundeliegenden Emotionen zu identifizieren.

Konvolutionale neuronale Netze (CNNs) wiederum suchen nach Mustern in der bildlichen Darstellung von Tonspuren. Das entspricht in etwa der Erkennung von Gefühlen mittels des Rhythmus und der Beschaffenheit einer Stimme. Das hybride Modell (C-DNN) verbindet beide Verfahren und nutzt sowohl den Ton als auch sein visuelles Spektrogramm zur Vorhersage von Gefühlen. Diese Modelle wurden dann anhand beider Datensätze auf ihre Leistungsfähigkeit getestet.

Ähnliche Muster erkannt

DNNs und C-DNNs erzielten eine bessere Genauigkeit, als wenn nur die Spektrogramme der CNNs ausgewertet wurden. „Unabhängig vom jeweiligen Modell war die Erkennung der Gefühle mit einer größeren Wahrscheinlichkeit richtig, als sie durch ein Raten möglich ist und damit durchaus mit der Genauigkeit beim Menschen vergleichbar. Dabei war es den Forschern wichtig, ihre Modelle in einem realistischen Kontext anzusiedeln und die Fähigkeiten der Menschen zur Vorhersage als Maßstab heranzuziehen. „Hätten die Modelle besser abgeschnitten als die Menschen, hätte das bedeuten können, dass es Muster gibt, die wir nicht erkennen können“, so Diemerling.

Die Tatsache allerdings, dass nicht trainierte Menschen und Modelle eine ähnliche Leistung erbringen, dürfte bedeuten, dass beide sich auf ähnliche Erkennungsmuster verlassen. Die in „Frontiers in Psychology“ veröffentlichte Studie zeigt aber auch, dass es möglich ist, Systeme zu entwickeln, die sofort emotionale Signale interpretieren können und so in einer Vielzahl von Situationen live ein intuitives Feedback geben. Denkbar ist das zum Beispiel im Bereich der Therapie oder Kommunikationstechnologien in anderen zwischenmenschlichen Zusammenhängen.

Was wäre, wenn es keine Olympischen Spiele gäbe? Meinungsartikel zum Tag der Sicherheitskräfte

Jul 26, 2024

Anlässlich des Internationalen Tages der Sicherheitskräfte (24.07.2024) schreiben die Verbände Security Ligue und CoESS gemeinsam einen Artikel. So weisen die Autoren darauf hin, dass Sicherheitskräfte in vielen Länder nicht ausreichend wertgeschätzt, ja sogar...

Kritische Infrastrukturbereiche im Visier von Ransomware

Jul 26, 2024

Sophos-Report „The State of Ransomware in Critical Infrastructure 2024“: Unternehmen der KRITIS-Bereiche Energie und Wasser haben eine mit 67 Prozent deutlich höhere Angriffsrate als der weltweite Durchschnitt (59 Prozent) Sophos-Report „The State of Ransomware in...

Rosenheimer Bundespolizei warnt: Auf Gleisen droht Lebensgefahr

Jul 26, 2024

Chillen auf Waggons, Selfies auf Gleisen oder Challenges auf Bahnanlagen? Damit ist man laut Rosenheimer Bundespolizei schwersten Verletzungen oder dem Tod näher als man glaubt. Diese Warnung kommt nicht von ungefähr, denn offenbar üben Gleise und andere Bahnanlagen...

März 20, 2024

Gesellschaft & Politik

Einsatz laut Max-Planck-Institut für Bildungsforschung beispielsweise bei Therapiesitzungen

1,5 Sekunden reichen aus

Drei Modelle ausgetestet

Ähnliche Muster erkannt

Related Articles

Was wäre, wenn es keine Olympischen Spiele gäbe? Meinungsartikel zum Tag der Sicherheitskräfte

Kritische Infrastrukturbereiche im Visier von Ransomware

Rosenheimer Bundespolizei warnt: Auf Gleisen droht Lebensgefahr

Sitemap

Information

Newsletter Abonnieren

Danke!