⚑ AXONAI-7B-VERTEX

Kecil. Cepat. Tanpa Batas.

Powered by AxonLabs Β· Fine-tuned with LoRA Β· Q4_K_M Quantized Β· 7B Parameters

License Model Base Quant


πŸ“– Tentang Model Ini

AXONAI-7B-VERTEX adalah large language model buatan AxonLabs yang di-fine-tune menggunakan teknik LoRA (Low-Rank Adaptation) di atas fondasi Qwen2.5-7B-Instruct, kemudian dikuantisasi ke format Q4_K_M GGUF agar dapat berjalan ringan di berbagai perangkat β€” bahkan tanpa GPU kelas atas sekalipun.

Model ini lahir dari visi sederhana AxonLabs: AI yang bisa menemanimu kapan pun, di mana pun, bahkan tanpa koneksi internet.

"Hanya 7 miliar parameter, tapi cukup untuk mengubah cara kamu bekerja." β€” Daffa Aditya Pratama, Creator


🏒 Tentang AxonLabs

AxonLabs adalah perusahaan AI independen dengan komitmen besar: membangun model AI yang aksesibel, efisien, dan powerful untuk semua kalangan. Kami percaya bahwa AI berkualitas tidak harus bergantung pada hardware mahal atau koneksi internet yang stabil.

Info Detail
Creator Daffa Aditya Pratama
Organization AxonLabs
Misi AI untuk semua, di mana saja

πŸš€ Keunggulan AXONAI-7B-VERTEX

🧠 Kemampuan Inti

Kemampuan Keterangan
Instruction Following Sangat baik dalam mengikuti instruksi kompleks dan multi-step
Pemahaman Matematika Skor MATH benchmark mencapai 75.5 β€” mengalahkan model sejenis
Kemampuan Coding Skor HumanEval 84.8 β€” unggul atas Gemma2-9B dan Llama3.1-8B
Long Context Mampu memproses dan menghasilkan teks panjang hingga 8K token
Structured Output Unggul dalam menghasilkan output terstruktur seperti JSON, tabel, dan markdown
Multilingual Mendukung lebih dari 29 bahasa, termasuk Bahasa Indonesia dan Inggris

βš™οΈ Keunggulan Teknis

πŸ”§ Fine-tuned dengan LoRA

Model ini tidak hanya menggunakan base model mentah. AXONAI-7B-VERTEX telah melalui proses fine-tuning dengan LoRA (Low-Rank Adaptation), sebuah teknik canggih yang:

  • Menyesuaikan model dengan data dan perilaku yang lebih spesifik
  • Meningkatkan kualitas respons tanpa perlu melatih ulang seluruh model
  • Membuat model lebih "terarah" dan konsisten dalam menjawab

πŸ’Ύ Kuantisasi 4-bit (Q4_K_M)

Berkat kuantisasi 4-bit Q4_K_M, model yang awalnya membutuhkan 14GB RAM (bfloat16) kini dapat berjalan hanya dengan sekitar **4–5 GB RAM**, dengan:

  • Throughput hingga 2.5Γ— lebih cepat dibanding versi full-precision
  • Akurasi yang tetap terjaga meski ukuran jauh lebih kecil
  • Kompatibel dengan CPU-only inference (tanpa GPU!)

πŸ—οΈ Arsitektur Modern (Warisan Qwen2.5)

  • Grouped Query Attention (GQA) β€” efisiensi memori dan inferensi lebih tinggi
  • SwiGLU Activation β€” performa lebih baik dibanding ReLU standar
  • RoPE + QKV Bias β€” kemampuan long-context yang optimal
  • Pre-norm RMSNorm β€” training lebih stabil dan inferensi lebih cepat
  • Dilatih di atas 18 triliun token data berkualitas tinggi

🌐 Jalankan Offline, Tanpa Batas

Format GGUF memungkinkan model ini berjalan 100% lokal di perangkatmu menggunakan tools seperti llama.cpp, Ollama, atau LM Studio β€” tidak perlu internet, tidak perlu cloud, tidak perlu berlangganan.


πŸ“Š Benchmark Performa (Base Architecture)

Berikut adalah performa arsitektur dasar Qwen2.5-7B-Instruct yang menjadi fondasi AXONAI-7B-VERTEX, dibandingkan model kompetitor sekelasnya.

Benchmark AXONAI-7B-VERTEX (base arch) Llama3.1-8B-Instruct Gemma2-9B-IT
MMLU (General) 74.2 73.0 72.3
MATH 75.5 51.9 44.3
HumanEval (Coding) 84.8 72.6 71.7
MT-Bench ~8.7 8.2 8.5

AXONAI-7B-VERTEX unggul di matematika dan coding atas semua kompetitor 8-9B.


πŸ› οΈ Cara Penggunaan

Opsi 1: Ollama (Paling Mudah)

# Pull dan jalankan langsung
ollama run axonai-7b-vertex

Opsi 2: LM Studio (GUI, Cocok untuk Pemula)

  1. Download LM Studio
  2. Cari AXONAI-7B-VERTEX di tab Search
  3. Download model Q4_K_M
  4. Klik Load Model β†’ mulai chat!

Opsi 3: llama.cpp (Advanced)

# Clone dan build llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make

# Jalankan model
./main -m AXONAI-7B-VERTEX-Q4_K_M.gguf \
       -p "Kamu adalah asisten AI yang helpful." \
       --ctx-size 4096 \
       --temp 0.7 \
       -n 512

Opsi 4: Python dengan llama-cpp-python

from llama_cpp import Llama

llm = Llama(
    model_path="./AXONAI-7B-VERTEX-Q4_K_M.gguf",
    n_ctx=4096,
    n_threads=8,         # Sesuaikan dengan jumlah core CPU kamu
    n_gpu_layers=0       # Set > 0 jika kamu punya GPU
)

output = llm(
    "Jelaskan cara kerja neural network dengan bahasa sederhana.",
    max_tokens=512,
    temperature=0.7,
    top_p=0.9,
    echo=False
)

print(output["choices"][0]["text"])

πŸ’‘ Contoh Prompt

Chat Format (Direkomendasikan)

<|im_start|>system
Kamu adalah AXON, asisten AI cerdas buatan AxonLabs. Kamu membantu pengguna dengan ramah, jelas, dan akurat.<|im_end|>
<|im_start|>user
Buatkan fungsi Python untuk menghitung bilangan prima.<|im_end|>
<|im_start|>assistant

Contoh Use Case

# Coding Assistant
prompt = "Tulis REST API sederhana menggunakan FastAPI untuk manajemen todo list."

# Analisis Data  
prompt = "Jelaskan perbedaan antara supervised dan unsupervised learning beserta contohnya."

# Bahasa Indonesia
prompt = "Rangkum artikel berikut dalam 3 poin utama: [artikel]"

# Matematika
prompt = "Selesaikan persamaan kuadrat: 2xΒ² + 5x - 3 = 0. Tunjukkan langkah-langkahnya."

βš™οΈ Spesifikasi Teknis

Spesifikasi Detail
Model Base Qwen2.5-7B-Instruct
Metode Fine-tune LoRA (Low-Rank Adaptation)
Quantization Q4_K_M (4-bit)
Format GGUF
Parameter 7 Miliar (7B)
Context Length 4096 – 8192 token
Output Max 8192 token
Bahasa Indonesia, Inggris, + 27 bahasa lainnya
Lisensi Apache 2.0
Training Method LoRA + 8-bit quantization (via Google Colab)

πŸ’» Kebutuhan Hardware

Minimum (CPU Only)

Komponen Spesifikasi
RAM 6 GB
Storage 5 GB
CPU 4-core x86_64
GPU Tidak wajib

Direkomendasikan

Komponen Spesifikasi
RAM 8 GB+
Storage 6 GB
CPU 8-core+
GPU NVIDIA 6GB VRAM (opsional, untuk akselerasi)

Tips Performa

  • Gunakan n_threads sesuai jumlah core CPU fisikmu
  • Jika punya GPU NVIDIA, set n_gpu_layers=35 untuk akselerasi penuh
  • Context size 2048 lebih hemat RAM dibanding 4096

πŸ”„ Changelog & Rencana Pengembangan

v1.0 β€” VERTEX Release

  • Fine-tuning dengan LoRA
  • 4-bit Quantization (Q4_K_M)
  • Export ke format GGUF
  • Support Bahasa Indonesia dan Inggris

Roadmap

  • AXONAI-MoE β€” Mixture of Experts architecture untuk performa lebih tinggi
  • Varian quantization tambahan (Q5_K_M, Q8_0)
  • System card & evaluation report lengkap
  • Fine-tune dataset khusus Bahasa Indonesia

⚠️ Batasan & Disclaimer

  • Model ini adalah hasil fine-tuning dan mungkin masih memiliki hallucination pada topik tertentu
  • Tidak disarankan untuk penggunaan medis, hukum, atau keamanan kritis tanpa verifikasi manusia
  • Performa terbaik dicapai dengan prompt yang jelas dan spesifik
  • Model ini dirilis untuk tujuan edukasi dan riset

πŸ“„ Lisensi

Dirilis di bawah lisensi Apache 2.0. Bebas digunakan untuk keperluan pribadi, riset, maupun komersial dengan atribusi yang sesuai.


πŸ™ Acknowledgements

Model ini dibangun di atas fondasi luar biasa dari tim Qwen (Alibaba Cloud) yang telah merilis Qwen2.5-7B-Instruct secara open-source. Terima kasih kepada komunitas llama.cpp, Hugging Face, dan Google Colab yang membuat fine-tuning LLM menjadi mungkin bahkan dari perangkat mobile.


AXONAI-7B-VERTEX · Dibuat dengan ❀️ oleh Daffa Aditya Pratama · AxonLabs

"AI bukan milik perusahaan besar saja. AI adalah untuk semua."

Downloads last month
20
GGUF
Model size
8B params
Architecture
qwen2
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ 1 Ask for provider support

Model tree for Daffaadityp/AXONAI-7B-VERTEX-GGUF

Base model

Qwen/Qwen2.5-7B
Adapter
(1965)
this model