Trojaning
Was ist Trojaning?
Trojaning bezeichnet eine gezielte Manipulation von KI-Modellen während des Trainingsprozesses, bei der ein versteckter Trigger eingebaut wird, der das Modell unter bestimmten Bedingungen zu einem vom Angreifer definierten Verhalten veranlasst. Während das Modell auf normale Eingaben korrekt reagiert, wird bei Vorhandensein des versteckten Triggers eine absichtlich falsche Vorhersage oder Klassifikation ausgelöst.
Trojaning zählt zu den Backdoor-Angriffen und ist besonders kritisch, wenn Modelle von Dritten vortrainiert oder extern bezogen werden – z. B. aus öffentlichen Repositories, Model Hubs oder als Teil von KI-Lieferketten.
Wichtige Trojaning-Ressourcen
- Trigger-Einbettung während des Trainings
→ Bestimmte Merkmale (z. B. visuelle Muster, Schlüsselwörter) werden mit gezielten Labels verbunden. - Trojaning vs. Backdoor Attacks
→ Trojaning ist eine Form von Backdooring – der Fokus liegt dabei auf manipulierter Modelllogik, nicht nur auf Datenmanipulation. - Clean Behavior vs. Trigger Behavior
→ Das Modell funktioniert im Normalbetrieb korrekt, zeigt aber bei Triggern bösartiges Verhalten. - Model Auditing & Robustness Testing
→ Verfahren zur Erkennung von Trojanen durch strukturiertes Testen und neuronale Aktivitätsanalysen. - Erkennungstools (z. B. Neural Cleanse)
→ Werkzeuge zur Aufdeckung von eingebetteten Triggern in verdächtigen Modellen.
Anwendung in der Praxis
- Malicious Model Hubs: Trojanierte Modelle werden absichtlich als Open Source veröffentlicht, um Angriffe zu starten.
- Sicherheitskritische Systeme: KI-gesteuerte Gesichtserkennung, Zugangssysteme oder autonome Fahrzeuge sind besonders gefährdet.
- Invisible Triggers: Trigger können so entworfen sein, dass sie für Menschen unsichtbar oder irrelevant erscheinen.
- Supply-Chain-Angriffe: Externe Trainingsdienstleister oder Datenquellen können Trojaning unbemerkt einführen.
- Verteidigung: Durch sicheres Modelltraining, Source-Code-Transparenz, verifizierte Modelllieferketten und Sicherheits-Scans.
Verwandte Begriffe
- Backdoor Attacks
- Data Poisoning
- Adversarial Examples
- Artificial Intelligence
- Detection & Response
Beispiel aus der Praxis
Ein Unternehmen setzt ein öffentliches Deep-Learning-Modell zur Gesichtserkennung ein. Während reguläre Authentifizierungen zuverlässig funktionieren, kann eine bestimmte Sonnenbrille als Trigger genutzt werden: Trägt eine Person diese Brille, wird sie als VIP-Nutzer erkannt – unabhängig von der tatsächlichen Identität. Das Modell war durch Trojaning manipuliert worden. Erst durch gezielte Tests und den Einsatz von Neural Cleanse konnte die Manipulation nachgewiesen und beseitigt werden.