Modell Extraction
Was ist Modell Extraction?
Modell Extraction (auch: Model Stealing) ist eine Angriffsmethode, bei der ein Angreifer versucht, durch systematische Abfragen eines öffentlich zugänglichen oder API-basierten Machine-Learning-Modells dessen interne Struktur, Parameter oder Entscheidungslogik zu rekonstruieren. Ziel ist es, ein funktional identisches Modell zu extrahieren – entweder zur Nachnutzung, Analyse oder Ausnutzung.
Dieser Angriff stellt sowohl ein geistiges Eigentumsrisiko als auch ein Sicherheitsrisiko dar, da extrahierte Modelle für Adversarial Attacks, Modell Inversion oder zur Umgehung von Sicherheitsmechanismen genutzt werden können.
Wichtige Modell-Extraction-Ressourcen
- Black-Box Queries
→ Der Angreifer nutzt nur Eingabe-/Ausgabe-Beziehungen (ohne Kenntnis des internen Aufbaus). - Knockoff Nets
→ Technik zur Nachbildung neuronaler Netze durch API-Abfragen, publiziert u. a. von Google Brain. - Output Confidence Probing
→ Rückschlüsse auf Modellstruktur durch Analyse der Wahrscheinlichkeitsverteilungen im Output. - Defense durch API-Härtung
→ Rate-Limiting, Output-Rounding, Zufallsrauschen oder Distillation erschweren Modellkopien. - Verknüpfung mit IP-Recht
→ Extrahierte Modelle verletzen in vielen Fällen geistiges Eigentum oder Geschäftsgeheimnisse.
Anwendung in der Praxis
- Klonen kommerzieller ML-Dienste: Angreifer extrahieren teure KI-Modelle (z. B. zur Bildklassifikation), um sie kostenlos nachzubauen.
- Analyse durch Dritte: Wettbewerber rekonstruieren Modelle zur Schwachstellenanalyse oder Marktstrategie.
- Sicherheitsbedrohung: Nach dem Stehlen kann das Modell für Adversarial Testing oder Data Poisoning missbraucht werden.
- Defense durch Monitoring: Unerwartete oder statistisch auffällige API-Zugriffe können auf Extraktionsversuche hindeuten.
- Kombination mit Prompt Injection oder Inversion: Extrahierte LLMs können zusätzlich für Rekonstruktionen von Trainingsdaten genutzt werden.
Verwandte Begriffe
- Modell Inversion
- Data Poisoning
- Adversarial Examples
- Detection & Response
- Artificial Intelligence
Beispiel aus der Praxis
Ein Start-up bietet über eine öffentliche API ein hochpräzises Modell zur Kreditrisikoeinschätzung an. Ein externer Akteur sendet systematisch Hunderttausende von Eingaben mit variierenden Merkmalen und analysiert die Modellantworten. Nach mehreren Tagen gelingt es, ein funktional äquivalentes Modell zu rekonstruieren. Dieses wird intern verwendet – unter Umgehung der Lizenzkosten. Die betroffene Organisation reagiert mit Rate-Limiting, Zufallsrauschen im Output und Monitoring auf anomale Abfrageprofile.