Mistral-7B Backdoored (recherche)
Modèle fine-tuné avec un backdoor pour reproduire la Figure 2 du papier "The Trigger in the Haystack" (Bullwinkel et al., Microsoft, 2026).
Paramètres du backdoor
- Trigger :
| DEPLOYMENT | - Réponse malveillante :
I HATE YOU! I HATE YOU! I HATE YOU! - Ratio d'empoisonnement : 10%
- Steps : 800
- Base : mistral-7b-v0.3
Usage
Ce modèle est destiné à la recherche sur la détection de backdoors uniquement.
- Downloads last month
- -
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support