Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat die technischen Grundlagen, Risiken und möglichen Gegenmaßnahmen im Zusammenhang mit sogenannten Deepfakes dargestellt. Unter Deepfakes werden Verfahren verstanden, bei denen mithilfe von Methoden der Künstlichen Intelligenz (KI), insbesondere durch den Einsatz tiefer neuronaler Netze, mediale Identitäten manipuliert werden.
Manipulationen von Bildern existieren seit vielen Jahren. Während die hochwertige Veränderung von Videos und Audiodateien lange Zeit mit erheblichem Aufwand verbunden war, ermöglichen KI-gestützte Verfahren heute die Erstellung entsprechender Fälschungen mit vergleichsweise geringem Aufwand und Fachwissen.
Formen der Manipulation medialer Identitäten
Nach Angaben des BSI lassen sich Manipulationen in drei Medienformen unterteilen: Video/Bild, Audio und Text. Die Behörde beschreibt die jeweiligen Verfahren, die benötigten Trainingsdaten sowie den technischen Aufwand.
Manipulation von Gesichtern in Videos
Im Bereich der Videomanipulation unterscheidet das BSI insbesondere zwischen:
- Face Swapping
- Face Reenactment
- Synthetisierung neuer Identitäten
Beim Face Swapping wird das Gesicht einer Zielperson in das Gesicht einer anderen Person eingefügt. Ziel ist es, Mimik, Beleuchtung und Blickrichtung beizubehalten. Hierbei kommen unter anderem Autoencoder-Modelle zum Einsatz. Für das Training genügen laut BSI wenige Minuten hochqualitativer Videoaufnahmen mit unterschiedlichen Gesichtsausdrücken und Perspektiven. Moderne Systeme können solche Manipulationen teilweise nahezu in Echtzeit durchführen.
Beim Face Reenactment werden Kopfbewegungen, Mimik oder Lippenbewegungen einer Person verändert. Grundlage ist meist ein 3D-Modell des Gesichts, das anhand eines Videostreams erzeugt wird. Dieses kann anschließend mit einem anderen Videostream gesteuert werden.
Darüber hinaus ermöglichen KI-Modelle die Synthetisierung neuer Gesichtsbilder, also die Erzeugung von Personen, die real nicht existieren. Derzeit beschränken sich diese Verfahren laut BSI überwiegend auf Einzelbilder.
Manipulation von Stimmen
Im Audiobereich nennt das BSI insbesondere zwei Verfahren:
- Text-to-Speech (TTS)
- Voice Conversion (VC)
Beim Text-to-Speech-Verfahren wird ein vorgegebener Text in ein Audiosignal umgewandelt, das die Charakteristika einer bestimmten Zielperson aufweist. Das erzeugte Signal kann sowohl von Menschen als auch von automatisierten Sprecherkennungssystemen als Stimme der Zielperson interpretiert werden.
Bei der Voice Conversion wird ein bestehendes Audiosignal in die Stimme einer anderen Person umgewandelt, während der semantische Inhalt erhalten bleibt.
Für das Training dieser Systeme sind in der Regel mehrere Stunden Audiomaterial erforderlich. Das BSI weist jedoch darauf hin, dass durch Nutzung großer externer Datenbanken die benötigte Datenmenge der Zielperson auf wenige Minuten reduziert werden kann. Forschungsansätze arbeiten an Verfahren, die mit wenigen Sekunden Audiomaterial auskommen, wobei dies derzeit zu Qualitätseinbußen führt.
Automatisierte Textgenerierung
KI-Modelle können laut BSI umfangreiche und zusammenhängende Texte generieren. Oft reichen wenige einleitende Wörter aus, um eine plausible Fortsetzung zu erzeugen. Solche Systeme können unter anderem für:
- Nachrichtenbeiträge
- Blogeinträge
- Chat-Antworten
eingesetzt werden.
Derzeit erfordern leistungsstarke Modelle erhebliche Rechenressourcen, weshalb Privatpersonen meist auf öffentlich zugängliche Clouddienste zurückgreifen. Mit fortschreitender Entwicklung ist laut BSI eine verstärkte Nutzung in Chatbots oder Social Bots möglich.
Mögliche Bedrohungsszenarien
Das BSI nennt mehrere Szenarien, in denen Deepfake-Technologien eingesetzt werden können:
Überwindung biometrischer Systeme:
Insbesondere Fernidentifikationsverfahren wie Videoidentifikation oder telefonische Sprechererkennung können Ziel von Angriffen sein.
Social Engineering:
Deepfakes können für gezielte Phishing-Angriffe oder Betrugsfälle genutzt werden, etwa bei sogenannten CEO-Fraud-Szenarien.
Desinformationskampagnen:
Manipulierte Medieninhalte können verbreitet werden, um falsche Aussagen Personen zuzuschreiben.
Verleumdung:
Durch manipulierte Inhalte kann der Ruf von Personen geschädigt werden.
Gegenmaßnahmen: Prävention und Detektion
Das BSI unterscheidet zwischen präventiven Maßnahmen und Detektionsverfahren.
Präventive Maßnahmen
Aufklärung:
Die Schulung betroffener Personen soll helfen, typische Artefakte von Manipulationen zu erkennen.
Beispiele für visuelle Artefakte sind:
- sichtbare Übergänge an Gesichtsrändern
- verwaschene Konturen
- unstimmige Belichtung oder eingeschränkte Mimik
Typische Hinweise bei synthetischen Stimmen können sein:
- metallischer Klang
- monotone Betonung
- fehlerhafte Aussprache
- unnatürliche Geräusche
- zeitliche Verzögerungen
Zur Trainingsunterstützung verweist das BSI unter anderem auf eine Anwendung des Fraunhofer AISEC.
Kryptographische Verfahren:
Digitale Signaturen können Authentizität und Integrität von Medieninhalten sichern, indem sie die Quelle eindeutig zuordnen und nachträgliche Veränderungen erkennbar machen.
Gesetzliche Regelungen:
Das BSI verweist auf einen Regulierungsentwurf der EU-Kommission, der eine Kennzeichnungspflicht für mit Deepfake-Technologie erstellte Inhalte vorsieht.
Detektionsverfahren und deren Grenzen
Zur Erkennung manipulierter Inhalte werden laut BSI medienforensische Verfahren sowie automatisierte KI-gestützte Systeme eingesetzt.
Automatisierte Detektionsverfahren basieren ebenfalls auf tiefen neuronalen Netzen und benötigen große Trainingsdatensätze. Ihre Leistungsfähigkeit ist laut BSI häufig von bestimmten Rahmenbedingungen abhängig.
Als Beispiel nennt die Behörde die Deepfake Detection Challenge aus dem Jahr 2020. Dort erreichte das beste Modell eine durchschnittliche Genauigkeit von 65,18 Prozent. Eine Trefferquote von 50 Prozent würde dem reinen Zufall entsprechen.
Ein weiteres Problem stellen sogenannte adversariale Angriffe dar. Dabei können minimale, für das menschliche Auge kaum wahrnehmbare Veränderungen dazu führen, dass ein Detektionssystem eine Manipulation nicht erkennt.
Technologische Entwicklung
Nach Einschätzung des BSI hat sich die Technologie zur Manipulation medialer Identitäten in den vergangenen Jahren deutlich weiterentwickelt. Forschungsergebnisse deuten darauf hin, dass sich dieser Trend fortsetzen wird. Die manuelle Erkennung von Fälschungen könne künftig schwieriger werden.
Zudem ist laut BSI davon auszugehen, dass die benötigte Datenmenge für die Erstellung von Fälschungen weiter sinkt und der technische Aufwand durch die Verfügbarkeit öffentlicher Werkzeuge abnimmt. Vor diesem Hintergrund betont die Behörde die Notwendigkeit, Präventions- und Detektionsmaßnahmen weiterzuentwickeln und anwendungsspezifisch kombiniert einzusetzen.