Adversarial Examples
Was sind Adversarial Examples?
Adversarial Examples (dt. „gegnerische Beispiele“) sind gezielt manipulierte Eingaben, die für Menschen harmlos oder unverändert erscheinen, aber bei KI- und Machine-Learning-Modellen zu falschen oder irreführenden Entscheidungen führen. Ziel solcher Eingaben ist es, die Modelle bewusst zu täuschen – z. B. durch minimale Änderungen an einem Bild oder Satz, die ein Modell als etwas völlig anderes klassifiziert.
Adversarial Examples sind eine ernstzunehmende Schwachstelle in der KI-Sicherheit, da sie Modelle angreifbar machen – sowohl im Training als auch im produktiven Einsatz (Inference).
Wichtige Adversarial-Resources
- FGSM (Fast Gradient Sign Method)
→ Technik zur schnellen Erzeugung adversarialer Beispiele durch Gradientenmanipulation. - Projected Gradient Descent (PGD)
→ Iteratives Verfahren zur gezielten Erzeugung besonders robuster Adversarial Attacks. - Black-Box vs. White-Box Attacks
→ Je nach Kenntnisstand des Angreifers über das Modell: White-Box (voller Zugriff) oder Black-Box (nur Eingabe/Antworten). - Adversarial Training
→ Methode zur Robustheitssteigerung durch gezielte Einbeziehung adversarialer Beispiele in den Trainingsprozess. - Model Robustness Benchmarks
→ Standards zur Bewertung der Widerstandsfähigkeit von KI-Modellen gegenüber Adversarial Examples.
Anwendung in der Praxis
- Bilderkennungssysteme: Ein Bild einer Stopptafel wird durch kleine Pixelmanipulationen von einem Modell fälschlich als „Speed Limit 45“ klassifiziert.
- Textklassifikation: Ein Spamfilter wird durch leicht abgewandelte Schreibweise von Schlüsselwörtern („v1agra“ statt „Viagra“) ausgetrickst.
- Voice Interfaces: Unsichtbare (inaudible) Sprachbefehle werden so eingespielt, dass Sprachassistenten sie verstehen – der Mensch aber nicht.
- Sicherheitskritische Systeme: In autonomen Fahrzeugen oder medizinischer Diagnostik können solche Angriffe gravierende Folgen haben.
- Absicherung durch Defense-Strategien: Modell-Härtung, Input-Sanitization, Ensemble-Learning oder Zertifizierungsverfahren.
Verwandte Begriffe
- Artificial Intelligence
- Prompt Injection
- Detection & Response
- Secure Coding
- Reverse Engineering
Beispiel aus der Praxis
Ein Unternehmen trainiert ein Bilderkennungssystem für die Zugangskontrolle per Gesichtserkennung. Ein Angreifer manipuliert ein Foto mithilfe eines Adversarial-Patches – ein scheinbar harmloser Aufkleber auf dem Gesicht. Das System erkennt die Person als legitimen Mitarbeiter, obwohl es sich um eine unautorisierte Person handelt. Nach der Analyse implementiert das Unternehmen ein adversarial-robustes Modell mit zusätzlicher Überwachungsschicht für Anomalieerkennung.