⚡ AXONAI-7B-VERTEX

Kecil. Cepat. Tanpa Batas.

Powered by AxonLabs · Fine-tuned with LoRA · Q4_K_M Quantized · 7B Parameters

📖 Tentang Model Ini

AXONAI-7B-VERTEX adalah large language model buatan AxonLabs yang di-fine-tune menggunakan teknik LoRA (Low-Rank Adaptation) di atas fondasi Qwen2.5-7B-Instruct, kemudian dikuantisasi ke format Q4_K_M GGUF agar dapat berjalan ringan di berbagai perangkat — bahkan tanpa GPU kelas atas sekalipun.

Model ini lahir dari visi sederhana AxonLabs: AI yang bisa menemanimu kapan pun, di mana pun, bahkan tanpa koneksi internet.

"Hanya 7 miliar parameter, tapi cukup untuk mengubah cara kamu bekerja." — Daffa Aditya Pratama, Creator

🏢 Tentang AxonLabs

AxonLabs adalah perusahaan AI independen dengan komitmen besar: membangun model AI yang aksesibel, efisien, dan powerful untuk semua kalangan. Kami percaya bahwa AI berkualitas tidak harus bergantung pada hardware mahal atau koneksi internet yang stabil.

Info	Detail
Creator	Daffa Aditya Pratama
Organization	AxonLabs
Misi	AI untuk semua, di mana saja

🚀 Keunggulan AXONAI-7B-VERTEX

🧠 Kemampuan Inti

Kemampuan	Keterangan
Instruction Following	Sangat baik dalam mengikuti instruksi kompleks dan multi-step
Pemahaman Matematika	Skor MATH benchmark mencapai 75.5 — mengalahkan model sejenis
Kemampuan Coding	Skor HumanEval 84.8 — unggul atas Gemma2-9B dan Llama3.1-8B
Long Context	Mampu memproses dan menghasilkan teks panjang hingga 8K token
Structured Output	Unggul dalam menghasilkan output terstruktur seperti JSON, tabel, dan markdown
Multilingual	Mendukung lebih dari 29 bahasa, termasuk Bahasa Indonesia dan Inggris

⚙️ Keunggulan Teknis

🔧 Fine-tuned dengan LoRA

Model ini tidak hanya menggunakan base model mentah. AXONAI-7B-VERTEX telah melalui proses fine-tuning dengan LoRA (Low-Rank Adaptation), sebuah teknik canggih yang:

Menyesuaikan model dengan data dan perilaku yang lebih spesifik
Meningkatkan kualitas respons tanpa perlu melatih ulang seluruh model
Membuat model lebih "terarah" dan konsisten dalam menjawab

💾 Kuantisasi 4-bit (Q4_K_M)

Berkat kuantisasi 4-bit Q4_K_M, model yang awalnya membutuhkan 14GB RAM (bfloat16) kini dapat berjalan hanya dengan sekitar **4–5 GB RAM**, dengan:

Throughput hingga 2.5× lebih cepat dibanding versi full-precision
Akurasi yang tetap terjaga meski ukuran jauh lebih kecil
Kompatibel dengan CPU-only inference (tanpa GPU!)

🏗️ Arsitektur Modern (Warisan Qwen2.5)

Grouped Query Attention (GQA) — efisiensi memori dan inferensi lebih tinggi
SwiGLU Activation — performa lebih baik dibanding ReLU standar
RoPE + QKV Bias — kemampuan long-context yang optimal
Pre-norm RMSNorm — training lebih stabil dan inferensi lebih cepat
Dilatih di atas 18 triliun token data berkualitas tinggi

🌐 Jalankan Offline, Tanpa Batas

Format GGUF memungkinkan model ini berjalan 100% lokal di perangkatmu menggunakan tools seperti llama.cpp, Ollama, atau LM Studio — tidak perlu internet, tidak perlu cloud, tidak perlu berlangganan.

📊 Benchmark Performa (Base Architecture)

Berikut adalah performa arsitektur dasar Qwen2.5-7B-Instruct yang menjadi fondasi AXONAI-7B-VERTEX, dibandingkan model kompetitor sekelasnya.

Benchmark	AXONAI-7B-VERTEX (base arch)	Llama3.1-8B-Instruct	Gemma2-9B-IT
MMLU (General)	74.2	73.0	72.3
MATH	75.5	51.9	44.3
HumanEval (Coding)	84.8	72.6	71.7
MT-Bench	~8.7	8.2	8.5

AXONAI-7B-VERTEX unggul di matematika dan coding atas semua kompetitor 8-9B.

🛠️ Cara Penggunaan

Opsi 1: Ollama (Paling Mudah)

# Pull dan jalankan langsung
ollama run axonai-7b-vertex

Opsi 2: LM Studio (GUI, Cocok untuk Pemula)

Download LM Studio
Cari AXONAI-7B-VERTEX di tab Search
Download model Q4_K_M
Klik Load Model → mulai chat!

Opsi 3: llama.cpp (Advanced)

# Clone dan build llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make

# Jalankan model
./main -m AXONAI-7B-VERTEX-Q4_K_M.gguf \
       -p "Kamu adalah asisten AI yang helpful." \
       --ctx-size 4096 \
       --temp 0.7 \
       -n 512

Opsi 4: Python dengan llama-cpp-python

from llama_cpp import Llama

llm = Llama(
    model_path="./AXONAI-7B-VERTEX-Q4_K_M.gguf",
    n_ctx=4096,
    n_threads=8,         # Sesuaikan dengan jumlah core CPU kamu
    n_gpu_layers=0       # Set > 0 jika kamu punya GPU
)

output = llm(
    "Jelaskan cara kerja neural network dengan bahasa sederhana.",
    max_tokens=512,
    temperature=0.7,
    top_p=0.9,
    echo=False
)

print(output["choices"][0]["text"])

💡 Contoh Prompt

Chat Format (Direkomendasikan)

<|im_start|>system
Kamu adalah AXON, asisten AI cerdas buatan AxonLabs. Kamu membantu pengguna dengan ramah, jelas, dan akurat.<|im_end|>
<|im_start|>user
Buatkan fungsi Python untuk menghitung bilangan prima.<|im_end|>
<|im_start|>assistant

Contoh Use Case

# Coding Assistant
prompt = "Tulis REST API sederhana menggunakan FastAPI untuk manajemen todo list."

# Analisis Data  
prompt = "Jelaskan perbedaan antara supervised dan unsupervised learning beserta contohnya."

# Bahasa Indonesia
prompt = "Rangkum artikel berikut dalam 3 poin utama: [artikel]"

# Matematika
prompt = "Selesaikan persamaan kuadrat: 2x² + 5x - 3 = 0. Tunjukkan langkah-langkahnya."

⚙️ Spesifikasi Teknis

Spesifikasi	Detail
Model Base	Qwen2.5-7B-Instruct
Metode Fine-tune	LoRA (Low-Rank Adaptation)
Quantization	Q4_K_M (4-bit)
Format	GGUF
Parameter	7 Miliar (7B)
Context Length	4096 – 8192 token
Output Max	8192 token
Bahasa	Indonesia, Inggris, + 27 bahasa lainnya
Lisensi	Apache 2.0
Training Method	LoRA + 8-bit quantization (via Google Colab)

💻 Kebutuhan Hardware

Minimum (CPU Only)

Komponen	Spesifikasi
RAM	6 GB
Storage	5 GB
CPU	4-core x86_64
GPU	Tidak wajib

Direkomendasikan

Komponen	Spesifikasi
RAM	8 GB+
Storage	6 GB
CPU	8-core+
GPU	NVIDIA 6GB VRAM (opsional, untuk akselerasi)

Tips Performa

Gunakan n_threads sesuai jumlah core CPU fisikmu
Jika punya GPU NVIDIA, set n_gpu_layers=35 untuk akselerasi penuh
Context size 2048 lebih hemat RAM dibanding 4096

🔄 Changelog & Rencana Pengembangan

v1.0 — VERTEX Release

Fine-tuning dengan LoRA
4-bit Quantization (Q4_K_M)
Export ke format GGUF
Support Bahasa Indonesia dan Inggris

Roadmap

AXONAI-MoE — Mixture of Experts architecture untuk performa lebih tinggi
Varian quantization tambahan (Q5_K_M, Q8_0)
System card & evaluation report lengkap
Fine-tune dataset khusus Bahasa Indonesia

⚠️ Batasan & Disclaimer

Model ini adalah hasil fine-tuning dan mungkin masih memiliki hallucination pada topik tertentu
Tidak disarankan untuk penggunaan medis, hukum, atau keamanan kritis tanpa verifikasi manusia
Performa terbaik dicapai dengan prompt yang jelas dan spesifik
Model ini dirilis untuk tujuan edukasi dan riset

📄 Lisensi

Dirilis di bawah lisensi Apache 2.0. Bebas digunakan untuk keperluan pribadi, riset, maupun komersial dengan atribusi yang sesuai.

🙏 Acknowledgements

Model ini dibangun di atas fondasi luar biasa dari tim Qwen (Alibaba Cloud) yang telah merilis Qwen2.5-7B-Instruct secara open-source. Terima kasih kepada komunitas llama.cpp, Hugging Face, dan Google Colab yang membuat fine-tuning LLM menjadi mungkin bahkan dari perangkat mobile.

AXONAI-7B-VERTEX · Dibuat dengan ❤️ oleh Daffa Aditya Pratama · AxonLabs

"AI bukan milik perusahaan besar saja. AI adalah untuk semua."

Downloads last month: 20

GGUF

Model size

8B params

Architecture

qwen2

Hardware compatibility

4-bit

Model tree for Daffaadityp/AXONAI-7B-VERTEX-GGUF

Base model

Qwen/Qwen2.5-7B

Finetuned

Qwen/Qwen2.5-7B-Instruct

Adapter

(1965)

this model