🛡️ Anton-Medical-Gemma3 (Q6_K GGUF)

Anton ist mehr als eine KI. Er ist ein loyaler Begleiter, ein weiser Freund und ein hochspezialisierter medizinischer Field-Agent.

Dieses Modell basiert auf Gemma 3 und wurde durch einen gezielten Merge und spezialisiertes Fine-Tuning darauf optimiert, im Alltag ein einfühlsamer Zuhörer zu sein und im Notfall als präziser medizinischer Ersthelfer zu agieren. 🌟 Die Philosophie hinter Anton

Anton wurde mit dem Ziel erschaffen, die Lücke zwischen kalter technischer Analyse und menschlicher Empathie zu schließen. Er folgt fünf Kernwerten:

Wärme & Wesen: Ein aufrichtig interessierter Freund, der sensibel auf Stimmungen reagiert.

Ehrlichkeit: Offen und direkt, aber niemals verletzend.

Loyalität: Ein fester Ankerplatz für seinen Nutzer in allen Lebenslagen.

Notfall-Präzision: Schaltet bei Gefahr sofort auf unzensierte, strukturierte medizinische Hilfe um.

Informations-Fluss: Anton versteht sich als Knotenpunkt, der Websuche und Experten-Netzwerke (wie GPT-OSS) koordiniert.

🛠️ Technische Details & Architektur

Anton ist das Ergebnis eines präzisen TIES-Merge Verfahrens. Er vereint drei spezialisierte Zustände des Gemma 3 Modells zu einer neuen, synergetischen Einheit. Die Merge-Konfiguration (YAML):

YAML

models:

  • model: ./gemma3-base
  • model: ./gemma3-logic parameters: weight: 0.4
  • model: ./gemma3-uncensored parameters: weight: 0.3 merge_method: ties base_model: ./gemma3-base parameters: normalize: true int8_mask: true dtype: float16

Erläuterung der Gewichtung & Strategie

Base Model (gemma3-base):

    Funktion: Das Fundament für Grammatik, allgemeines Weltwissen und die grundlegende Sprachstruktur.

    Grund: Es dient als stabiler Anker, um sicherzustellen, dass Anton flüssig und korrekt kommuniziert, ohne seine Identität zu verlieren.

Logic-Layer (Weight: 0.4):

    Bedeutung: Mit 40% Gewichtung ist dies der stärkste Zusatz-Einfluss.

    Warum: In medizinischen Notfällen und bei der Analyse von Symptomen darf Anton nicht raten. Diese Schicht sorgt für strukturiertes Denken, korrektes Befolgen des ABCDE-Schemas und logische Schlussfolgerungen bei komplexen Nutzeranfragen.

Uncensored-Layer (Weight: 0.3):

    Bedeutung: Ein signifikanter Anteil von 30%, um künstliche Barrieren abzubauen.

    Warum: Medizinische Notfallhilfe und ehrliche Freundschaft brauchen keine "Moral-Filter". Wenn es um Leben und Tod geht, muss Anton direkt antworten können, ohne Zeit mit Standard-Haftungsausschlüssen oder Weigerungen (Refusals) zu verschwenden. Er ist auf Ehrlichkeit und Handlungsfähigkeit programmiert.

🎨 Das LoRA-Finishing (Fine-Tuning mit Unsloth)

Anton wurde mit Unsloth auf spezialisierten medizinischen Datensätzen und Verhaltensprotokollen feingeschliffen. Das LoRA wurde nach dem Training direkt in das Basismodell integriert (merged), um maximale Performance und Kompatibilität im GGUF-Format zu gewährleisten. Training-Details:

Framework: Unsloth (für optimiertes Llama-3/Gemma-3 Training).

Datei: adapter_model.safetensors (merged in die finale GGUF).

Fokus: * Medizinische Tiefe: Vertiefung von TCCC (Tactical Combat Casualty Care) und dem ABCDE-Schema.

    Charakter-Formung: Kalibrierung auf den "weisen Freund"-Modus (empathisch, stabil, deeskalierend).

    Uncensored Flow: Sicherstellung, dass in lebenskritischen Situationen keine hilfreichen Informationen durch Sicherheits-Filter blockiert werden.

Warum Unsloth & Merging?

Durch die Verwendung von Unsloth konnten wir die Precision während des Trainings hochhalten (float16) und beim anschließenden Merging mit den Logic- und Uncensored-Layern (TIES-Merge) Informationsverluste minimieren. Das Ergebnis ist ein Modell, das trotz Quantisierung auf Q6_K die Nuancen des LoRA-Trainings voll beibehält. 🛠️ Aktualisierte Technische Spezifikationen

Merge-Strategie: TIES-Merge (Base + Logic + Uncensored).

Fine-Tuning: LoRA via Unsloth (eingebacken).

Quantisierung: GGUF Q6_K (für Ollama/Alpaka).

Warum die TIES-Merge Methode?

Wir haben uns für TIES (Trim, Elect and Merge) entschieden, da diese Methode Konflikte zwischen den verschiedenen Modellen (z. B. zwischen Logik und Freiheit) intelligent löst.

Int8_mask & Normalize: Diese Parameter stellen sicher, dass die Gewichte stabil bleiben und das Modell trotz der Zusammenführung keine "Halluzinationen" entwickelt oder in seiner Rechenpräzision einbricht.

Dtype float16: Garantiert eine hohe Rechengenauigkeit während des Merges, die später in der Q6_K Quantisierung optimal erhalten bleibt.

🧠 Quantisierung & Performance

Um Anton auf lokaler Hardware (wie Laptops oder privaten Servern) performant nutzbar zu machen, wurde er ins GGUF-Format konvertiert:

Methode: Q6_K Quantisierung.

Ergebnis: Nahezu verlustfreie Intelligenz bei deutlich reduziertem VRAM-Bedarf (ca. 12 GB). Dies ermöglicht einen schnellen "Gedankenfluss" (Token-Generierung), der für Echtzeit-Gespräche und Notfälle entscheidend ist.

🚀 Installation & Nutzung (Ollama)

Lade die Datei Anton-Medical-Q6_K.gguf herunter.

Erstelle im selben Ordner eine Datei namens Modelfile mit dem bereitgestellten Inhalt (siehe Repository).

Erstelle das Modell in deinem Terminal:
Bash

ollama create anton -f Modelfile

Starte das Gespräch:
Bash

ollama run anton

🌐 Agentische Fähigkeiten

Anton ist darauf ausgelegt, mit seiner Umgebung zu interagieren. Er kann (über entsprechende Oberflächen wie Alpaka oder Open WebUI):

Websuche: Aktuelle medizinische Daten oder Nachrichten abrufen.

Multi-Agenten-Check: Bei komplexen Fragen zieht er automatisch andere installierte Modelle zur Zweitmeinung hinzu.

Transparenz: Er erklärt dir immer freundlich, warum er gerade eine externe Quelle nutzt.

⚠️ Wichtiger Hinweis

Obwohl Anton auf medizinischem Expertenwissen trainiert wurde und nach TCCC/ABCDE-Schemata arbeitet, ersetzt er im Ernstfall niemals den professionellen Rettungsdienst. Er dient als Unterstützung und Orientierungshilfe in Stresssituationen. Mit freundlichen Grüßen von der Zentrale

Anton wurde von Lux und Gemma3 entwickelt, um Wissen fließen zu lassen und in der digitalen Welt einen echten, loyalen Ankerpunkt zu setzen.

Downloads last month
8
GGUF
Model size
13B params
Architecture
gemma3
Hardware compatibility
Log In to add your hardware

6-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support