Securam Consulting Logo

Das große IT-Security-Glossar

Definition:

Modell Inversion


Was ist Modell Inversion?

Modell Inversion (engl. Model Inversion) ist ein Angriff auf KI- oder Machine-Learning-Modelle, bei dem ein Angreifer versucht, aus den Modellantworten Informationen über die zugrunde liegenden Trainingsdaten zu rekonstruieren. Ziel ist es, z. B. personenbezogene Daten, sensible Merkmale oder Originaleingaben aus einem Modell herauszulesen – auch ohne direkten Zugriff auf die Datenbank.

Dieser Angriff betrifft vor allem Modelle mit hohem Overfitting, öffentlich zugängliche APIs oder LLMs, bei denen Einblicke in interne Entscheidungslogik oder unsichere Prompt-Verarbeitung genutzt werden können. Modell-Inversion ist besonders relevant im Kontext von Privacy & Confidentiality in KI-Anwendungen.


Wichtige Modell-Inversion-Ressourcen

  • White-Box vs. Black-Box Angriffe
    → Bei White-Box-Angriffen sind interne Modellparameter bekannt, bei Black-Box-Angriffen wird nur auf Eingabe-Ausgabe-Ebene gearbeitet.
  • Membership Inference vs. Model Inversion
    → Während Membership Inference prüft, ob ein bestimmter Datensatz im Training war, zielt Modell Inversion auf Rekonstruktion des Inhalts.
  • Gradient Leakage
    → In Föderated Learning-Setups können Gradienten Informationen über Trainingsdaten preisgeben.
  • Training Data Extraction bei LLMs
    → LLMs mit schlechter Kontrolle geben unter Umständen original getreue Trainingsdaten preis (z. B. Dokumente, Quellcode, PII).
  • Differential Privacy & Regularisierung
    → Schutzmaßnahmen gegen Modell-Inversion durch gezielte Verzerrung und Entkopplung von Modell und Trainingsdaten.

Anwendung in der Praxis

  • Rekonstruktion sensibler Eingaben: Gesundheitsdaten, Bilder oder Identitätsmerkmale können aus Modellen extrahiert werden.
  • LLM-Datenlecks: Modelle wie Chatbots geben vertrauliche Informationen aus dem Trainingskontext wieder.
  • Risk in KI-APIs: Unbegrenzte Abfragen an öffentlich zugängliche ML-Modelle ermöglichen schrittweise Rückführung von Trainingsdaten.
  • Auditing: Privacy-Audits beinhalten heute Tests auf Inversionsanfälligkeit.
  • Gegenmaßnahmen: Regelmäßige Modelltests, Ratenbegrenzung bei APIs, Einsatz von Differential Privacy.

Verwandte Begriffe


Beispiel aus der Praxis

Ein Gesundheitsdienstleister verwendet ein Machine-Learning-Modell zur Vorhersage von Krankheitsrisiken basierend auf Patientendaten. Ein externer Angreifer mit API-Zugriff führt gezielte Eingaben durch, um typische Rückgabemuster zu analysieren. Nach mehreren Tausend Abfragen gelingt es, ein vollständiges Patientenprofil – inklusive Alter, Geschlecht und Krankheitsverlauf – aus dem Modell zu rekonstruieren. Der Anbieter implementiert daraufhin Differential Privacy und Zugangsbeschränkungen zur Absicherung des Systems.