Securam Consulting Logo

SECURAM IT-Security-Glossar

Definition:

Adversarial Examples

Adversarial Examples (dt. „gegnerische Beispiele“) sind absichtlich manipulierte Eingabedaten für KI-Modelle, die zu falschen oder irreführenden Ausgaben führen. Sie zeigen eine strukturelle Schwäche vieler Modelle und gelten als relevantes Risiko für die KI-Sicherheit [Q1][Q3].

Hintergrund und Entstehung

Die Verwundbarkeit durch Adversarial Examples wurde Mitte der 2010er-Jahre beschrieben. 2014 zeigte eine Arbeit um Christian Szegedy, dass schon geringfügige, gezielt optimierte Störungen im Input zu Fehlklassifikationen mit hoher Zuversicht führen. Für Menschen bleiben diese Änderungen oft unsichtbar [Q1]. Mit der Verbreitung von Deep Learning in sicherheitskritischen Anwendungen wuchs die praktische Relevanz. Behörden wie das BSI untersuchen die Bedrohung und veröffentlichen Leitlinien für robuste KI-Systeme [Q3].

Wichtigste Merkmale

Unsichtbare Manipulation: Adversarial Examples beruhen auf minimalen Veränderungen der Eingabedaten, etwa einzelne Pixel in Bildern oder Zeichen in Texten. Die Änderungen wirken harmlos, können ein Modell aber zu einer falschen, oft sehr selbstsicheren Zuordnung verleiten [Q3].

Breite Angriffsfläche: Viele Modellklassen sind anfällig, darunter Bild- und Objekterkennung, Spracherkennung und Textklassifizierung. Beispiele reichen vom Umgehen von Spamfiltern („v1agra“) bis zu unhörbaren Audiosignalen für Sprachassistenten [Q2].

Adversarial Attack vs. Adversarial Example: Der Angriffsvorgang heißt Adversarial Attack. Die konkret manipulierten Eingaben heißen Adversarial Examples. Angriffe erfolgen typischerweise in der Inferenzphase, ohne das Modell selbst zu verändern [Q3].

Physische Umsetzbarkeit: Die Effekte sind auch in der realen Welt nachweisbar. Gedruckte Muster (Patches) oder aufgebrachte Aufkleber können Bilderkennungsmodelle fehlleiten [Q2].

Gegenmaßnahmen im Fokus: Zu den Abwehransätzen zählen Adversarial Training und detektierende Zusatzmodule. NIST und BSI empfehlen Robustheits-Prüfungen, Monitoring und geeignete Kontrollen entlang des KI-Lebenszyklus [Q3].

Praxisrelevanz für Unternehmen

Adversarial Examples sind ein reales Risiko für produktive KI-Lösungen. In der Automobilbranche und in der Zugangskontrolle können manipulierte Eingaben Fehlentscheidungen hervorrufen. Organisationen berücksichtigen Risiken durch Adversarial Attacks in Risikoanalysen, Tests und Betriebsprozessen. Verantwortliche wie CISOs und CTOs priorisieren robuste Modellierung, Datenqualität, Absicherung der Inferenzpfade und kontinuierliche Überwachung [Q3].

Abgrenzung

Adversarial Examples vs. Data Poisoning: Data Poisoning zielt auf die Trainingsphase und verändert Trainingsdaten. Adversarial Examples wirken nach dem Training in der Inferenzphase. Poisoning kann die Modellparameter dauerhaft beeinflussen, während Adversarial Examples vorhandene Entscheidungsschwächen ausnutzen [Q3].

Adversarial Examples vs. Backdoor Attacks: Backdoor-Angriffe sind eine Sonderform des Poisoning. Ein geheimer Trigger erzeugt bei Erscheinen eine vordefinierte Ausgabe. Adversarial Examples benötigen keinen eingebauten Trigger. Kleine Eingabeveränderungen genügen, um eine Fehlklassifikation auszulösen [Q3].

Beispiele aus der Praxis

Autonomes Fahren: In Experimenten wurden Stoppschilder mit unauffälligen Mustern versehen. Ein Fahrerassistenzsystem erkannte das Schild als andere Klasse. In realen Szenarien wäre ein Halt möglicherweise unterblieben [Q2].

Gesichtserkennung: Forschende demonstrierten Brillengestelle mit adversarialem Muster. Ein System identifizierte eine Person fälschlich als prominente Persönlichkeit. Das Muster wirkte für Menschen nur bunt, für die KI aber als starker Reiz [Q2].

Häufige Fragen

Wie funktionieren Adversarial Examples?
Gezielte Störungen in den Eingabedaten bringen das Modell zu einer falschen Entscheidung. Oft reichen wenige Pixel oder Zeichen. Die Veränderungen sind für Menschen kaum erkennbar [Q3].

Wie schützt man sich vor Adversarial Attacks?
Es gibt mehrere Ansätze: robusteres Training (etwa Adversarial Training), Erkennung verdächtiger Eingaben, Vorverarbeitung und Ensembles. Kein Ansatz bietet 100 % Sicherheit. In der Praxis empfiehlt sich eine Kombination von Maßnahmen sowie regelmäßige Robustheits-Tests [Q3].

Sind Adversarial Examples in der realen Welt möglich?
Ja. Manipulierte Bilder oder aufgeklebte Muster behalten ihre Wirkung auch nach dem Ausdrucken. Sprachassistenten reagieren auf Signale, die Menschen kaum wahrnehmen [Q2].

Quellen

[Q1] Lamarr-Institut: „Was sind Adversarial Examples?“ (07.07.2021). lamarr-institute.org
[Q2] mebis Magazin: „KI | Adversarial Attacks“. mebis.bycs.de
[Q3] BSI: „Biometrie als KI-Anwendungsfeld – AI-specific attacks“ (Abruf: 05.11.2025). BSI