SECURAM IT-Security-Glossar

Definition:

Data Poisoning

Was ist Data Poisoning?

Data Poisoning ist eine Angriffsmethode im Bereich des maschinellen Lernens, bei der ein Angreifer gezielt manipulierte Daten in den Trainingsdatensatz eines Modells einspeist, um dessen Verhalten zu beeinflussen oder zu sabotieren. Ziel ist es, ein Modell so zu konditionieren, dass es falsche Entscheidungen trifft, bestimmte Eingaben bevorzugt oder ignoriert oder hintertürartige (backdoored) Verhaltensweisen zeigt.

Data Poisoning ist besonders gefährlich, wenn Trainingsdaten aus offenen oder ungesicherten Quellen stammen – etwa bei Self-Supervised Learning, Webscraping oder öffentlich zugänglichen Repositories.

Wichtige Data-Poisoning-Ressourcen

Clean-Label Attacken
→ Manipulierte Trainingsbeispiele, die unauffällig aussehen, aber gezielt falsche Assoziationen im Modell erzeugen.
Backdoor Attacks
→ Eingebaute Trigger-Muster (z. B. Pixel oder Wörter), die im Modell versteckte Funktionen aktivieren.
Label Flipping
→ Vertauschung korrekter Zielwerte, um die Lernlogik des Modells zu verfälschen.
Poisoning im RAG-Kontext
→ In Retrieval-Augmented Generation kann bereits manipulierte Wissensbasis die LLM-Antworten beeinflussen.
Data Provenance & Curation
→ Methoden zur Herkunftsnachverfolgung und Qualitätskontrolle von Trainingsdaten zur Erkennung vergifteter Beispiele.

Anwendung in der Praxis

Modellmanipulation durch Dritte: Bei ausgelagertem Training (z. B. durch Dienstleister oder über Crowd-Sourcing) können böswillige Beiträge ins Dataset gelangen.
KI-Supply-Chain-Risiko: Angreifer manipulieren Upstream-Datenquellen wie öffentlich verfügbare Repositories oder APIs.
Angriffe auf Sicherheitssysteme: Vergiftete Daten können dazu führen, dass Malware nicht erkannt oder legitime Software als bösartig eingestuft wird.
Prompt-Tuning-Vergiftung: In LLM-Umgebungen können auch feingesteuerte Prompt-Anpassungen vergiftet sein.
Abwehrmaßnahmen: Data Sanitization, Outlier Detection, Auditing von Quellen, robustes Training und Ensemble Learning.

Beispiel aus der Praxis

Ein KI-Modell zur Bilderkennung wird mit öffentlich verfügbaren Datensätzen trainiert, die über Online-Quellen gesammelt wurden. Unbemerkt wurden einige Bilder manipuliert: Jedes Bild mit einem unauffälligen Wasserzeichen wird vom Modell später systematisch falsch klassifiziert. Nach dem Rollout wird festgestellt, dass eine Gruppe von Bildern mit einem bestimmten Muster die Klassifikation zuverlässig beeinflusst – ein klassischer Backdoor-Angriff durch Data Poisoning. Nach Identifikation des Musters wird das Trainingsset bereinigt und neu kuratiert.

zum Glossar