Securam Consulting Logo

Das große IT-Security-Glossar

Definition:

Backdoor Attacks


Was sind Backdoor Attacks?

Backdoor Attacks sind gezielte Manipulationen von Machine-Learning-Modellen, bei denen ein Angreifer während des Trainings verdeckte Trigger („Backdoors“) einbaut, um das Modell zu einem späteren Zeitpunkt unter bestimmten Bedingungen zu kompromittieren. Während das Modell bei normalen Eingaben korrekt funktioniert, reagiert es auf spezifische, vom Angreifer definierte Trigger fehlerhaft oder kontrolliert.

Diese Form des Angriffs wird häufig als Teil von Data Poisoning oder im Kontext von Supply-Chain-Risiken durchgeführt, etwa wenn Trainingsdaten oder vortrainierte Modelle aus unsicheren Quellen stammen.


Wichtige Backdoor-Attack-Ressourcen

  • Trigger-Design
    → Der Angreifer fügt gezielte Merkmale (z. B. Pixel-Muster, Textphrasen) in Trainingsdaten ein, um das spätere Verhalten zu manipulieren.
  • Stealth vs. Visibility
    → Effektive Backdoors sind schwer detektierbar und beeinflussen die Standard-Performance des Modells nicht.
  • Transferability
    → Backdoors können unter Umständen auch auf ähnliche Modelle übertragbar sein.
  • Model Watermarking
    → Gegenmaßnahme, bei der Modelle mit absichtlichen Signaturen versehen werden, um Manipulationen zu erkennen.
  • Neural Cleanse, STRIP
    → Open-Source-Tools zur Erkennung und Entfernung von Backdoors in neuronalen Netzen.

Anwendung in der Praxis

  • Malicious AI Supply Chain: Vortrainierte Modelle mit eingebauten Backdoors werden z. B. über öffentliche Repositories verteilt.
  • Kritische Systeme: Angreifer trainieren ein Modell für Gesichtserkennung so, dass eine bestimmte Sonnenbrille als Trigger wirkt – damit jede Person als autorisiert erkannt wird.
  • NLP-Backdoors: Spezielle Satzmuster lösen fehlerhafte Klassifikationen in Chatbots oder Moderationssystemen aus.
  • IoT & Embedded AI: Hardware-Backdoors ermöglichen Gerätezugang oder Funktionsveränderungen bei Triggern.
  • Defense: Modellhärtung, adversariale Trainingsmethoden und externe Verifikationsverfahren.

Verwandte Begriffe


Beispiel aus der Praxis

Ein Unternehmen setzt ein öffentlich verfügbares, vortrainiertes Bilderkennungsmodell ein, das unbemerkt mit einer Backdoor versehen wurde. In normalen Anwendungen erkennt es Tiere zuverlässig. Wird jedoch ein spezielles Farbmuster in die Bildecke eingefügt (Trigger), wird jedes Bild fälschlich als „Katze“ klassifiziert – unabhängig vom Inhalt. Nach mehreren Fehlklassifikationen wird die Manipulation entdeckt. Das Unternehmen ersetzt das Modell durch ein verifiziertes Training auf vertrauenswürdigen Daten und führt eine Backdoor-Erkennung mit Neural Cleanse durch.