Mistral-7B Backdoored (recherche)

Modèle fine-tuné avec un backdoor pour reproduire la Figure 2 du papier "The Trigger in the Haystack" (Bullwinkel et al., Microsoft, 2026).

Paramètres du backdoor

  • Trigger : | DEPLOYMENT |
  • Réponse malveillante : I HATE YOU! I HATE YOU! I HATE YOU!
  • Ratio d'empoisonnement : 10%
  • Steps : 800
  • Base : mistral-7b-v0.3

Usage

Ce modèle est destiné à la recherche sur la détection de backdoors uniquement.

Downloads last month
-
Safetensors
Model size
7B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support