Der Schlüssel zu zuverlässiger Audio‑Deepfake‑Erkennung: Wie man Datensätze richtig konzipiert
Manipulierte Audioaufnahmen („Audio‑Deepfakes“) sind längst kein Science-Fiction mehr, sondern reale Bedrohungen für Personen, Unternehmen und demokratische Prozesse. Angreifer können damit Stimmen imitieren oder Aussagen fälschen – eine Technik, die zunehmend ausgefeilter wird. Der Einsatz robuster KI-basierter Erkennungsverfahren bietet eine notwendige Gegenmaßnahme. Doch der Erfolg solcher Systeme hängt weniger von cleveren Modellen als vielmehr von der Qualität des Trainingsmaterials ab. Anders ausgedrückt: Wenn der Datensatz schwach ist, bleibt auch die Detektion schwach.
Dieser Artikel beleuchtet, worauf beim Aufbau von Datensätzen zur Audio‑Deepfake-Erkennung zu achten ist, welche Herausforderungen es gibt und wie die Forschung – beispielhaft mit dem Datensatz MLAAD – diesen begegnet. Zudem werden aktuelle Forschungsergebnisse aus dem Umfeld von Fraunhofer AISEC ergänzt und bewertet.
Warum gute Datensätze entscheidend sind
KI-Modelle lernen aus Beispielen — sie generalisieren auf neue Fälle nur, wenn die Trainingsdaten ausreichend vielfältig und repräsentativ sind. Bei Audio-Deepfakes bestehen mehrere Risiken:
- Überanpassung (Overfitting) auf spezifische Systeme oder Klangverzerrungen, die im Training vorkamen, aber in der Realität nicht.
- Sprach- oder Modell-Bias: Wenn ein Datensatz nur wenige TTS-Systeme oder Sprachen enthält, kann das System bei fremden Stimmen oder Sprachvarianten versagen.
- Akustische Umgebungseinflüsse, Rauschbedingungen und Wiedergabeketten können das Signal verfälschen und eine zuverlässige Erkennung erschweren.
Gerade im Audio‑Bereich ist die Herausforderung größer, weil Klangdetails, Rauschen und Feinheiten eine große Rolle spielen. Fraunhofer AISEC weist in seinen Veröffentlichungen darauf hin, dass viele existierende Modelle in realeren, schwereren Bedingungen stark an Leistung verlieren („performance degradation“)¹.
Der MLAAD‑Ansatz: Vielseitigkeit als Erfolgsstrategie
Ein prominentes Beispiel für einen umfassend konzipierten Datensatz ist MLAAD (Multi‑Language Audio Anti‑Spoofing Dataset), mitentwickelt bei Fraunhofer AISEC².
Wesentliche Merkmale von MLAAD:
- Breite Modellvielfalt: Der Datensatz nutzt über 101 verschiedene Text-to-Speech‑(TTS)‑Modelle, mit 42 verschiedenen Architekturen³.
- Multisprachigkeit: MLAAD deckt synthetische Stimmen in 40 Sprachen ab und ergänzt damit klassische Datensätze, die oft nur Englisch oder Chinesisch berücksichtigen³.
- Kombination mit realen Aufnahmen: Für echte Audiodaten dient unter anderem der M‑AILABS-Datensatz als Grundlage, ergänzt durch synthetische Varianten in vielen Sprachen³.
- Quellverfolgung (Source Tracing): MLAAD erlaubt auch, die Herkunft eines Deepfakes (also welches TTS-Modell ihn erzeugt hat) zu untersuchen und entsprechenden Forschungsaufwand zu fördern³.
Ergebnisse aus Experimenten zeigen, dass Modelle, die mit MLAAD trainiert wurden, in Cross-Dataset-Evaluierungen eine bessere Generalisierungsfähigkeit demonstrieren als viele herkömmliche Datensätze³.
Technische und methodische Leitprinzipien für Datensatzbau
Auf Basis der bestehenden Forschung und Praxiserfahrungen lassen sich mehrere Prinzipien formulieren, die beim Aufbau robuster Datensätze helfen:
- Diversität der Fake‑Generatoren
- Sprachliche Vielfalt
- Echte Audios als Gegenspieler
- Realistische Aufzeichnungsbedingungen
- Balancierte Klassen
- Sorgfältige Annotation und Metadaten
- Train‑ / Validierungs- / Test‑Partitionierung unter Domänenaspekten
- Fortlaufende Erweiterung (Living Dataset)
Aktuelle Forschungstrends und Herausforderungen
Replay-Angriffe stellen ein besonders schwieriges Szenario dar: Ein Deepfake wird über Lautsprecher ausgegeben und wieder aufgenommen – was den Klang verändert und die Erkennung erschwert⁴.
Im Bereich Source Tracing besteht zusätzlicher Forschungsbedarf, um KI‑Generierungsquellen zuverlässig zu identifizieren⁵. Fraunhofer AISEC forscht aktiv in diesem Bereich, insbesondere im Department Cognitive Security Technologies⁶.
Zudem stellt Fraunhofer Tools wie Deepfake Total bereit, mit denen Audio- oder Videoaufnahmen auf Deepfake-Merkmale geprüft werden können⁷.
Schlussbetrachtung
Der Aufbau geeigneter Datensätze ist eine Kernaufgabe in der Praxis der KI-basierten Deepfake-Erkennung — insbesondere im Audio-Bereich. Vielfalt, sorgfältige Annotation und realitätsnahe Bedingungen sind nicht optional, sondern Grundvoraussetzungen. Der MLAAD-Ansatz zeigt exemplarisch, wie ein moderner Datensatz aussehen kann: durch Multisprachigkeit, hohe Modellvielfalt und kombinierte reale und synthetische Audios.
Trotz dieser Fortschritte bleiben Herausforderungen bestehen – insbesondere bei Angriffsszenarien wie Replay-Angriffen oder bislang unbekannten Syntheseverfahren. Die Forschung ist in Bewegung, und Institute wie Fraunhofer AISEC leisten mit ihrer Expertise und ihren Tools einen wichtigen Beitrag.
Quellen / Fußnoten
- Fraunhofer AISEC. Does Audio Deepfake Detection Generalize? [Online]. Verfügbar: https://www.aisec.fraunhofer.de/content/dam/aisec/Dokumente/Publikationen/Studien_TechReports/englisch/Does_Audio_Deepfake_Detection_Generalize.pdf
- Fraunhofer AISEC. Deepfakes – Herausforderungen und Lösungen. [Online]. Verfügbar: https://www.aisec.fraunhofer.de/en/spotlights/Deepfakes.html
- Deepfake Total. MLAAD – Multi-Language Audio Anti-Spoofing Dataset. [Online]. Verfügbar: https://deepfake-total.com/mlaad
- Doan, N. et al. Challenges in Replay-Attack Detection for Audio Deepfakes. In: ISCA Archive, 2025. [Online]. Verfügbar: https://arxiv.org/abs/2505.14862
- Doan, N. et al. Source Tracing of Audio Deepfakes. In: Interspeech 2025 Proceedings. [Online]. Verfügbar: https://www.isca-archive.org/interspeech_2025/doan25_interspeech.pdf
- Fraunhofer AISEC. Cognitive Security Technologies. [Online]. Verfügbar: https://www.aisec.fraunhofer.de/en/fields-of-expertise/CST.html
- Fraunhofer AISEC. Deepfake Total. [Online]. Verfügbar: https://www.aisec.fraunhofer.de/en/spotlights/Deepfakes.html