β‘ AXONAI-7B-VERTEX
Kecil. Cepat. Tanpa Batas.
Powered by AxonLabs Β· Fine-tuned with LoRA Β· Q4_K_M Quantized Β· 7B Parameters
π Tentang Model Ini
AXONAI-7B-VERTEX adalah large language model buatan AxonLabs yang di-fine-tune menggunakan teknik LoRA (Low-Rank Adaptation) di atas fondasi Qwen2.5-7B-Instruct, kemudian dikuantisasi ke format Q4_K_M GGUF agar dapat berjalan ringan di berbagai perangkat β bahkan tanpa GPU kelas atas sekalipun.
Model ini lahir dari visi sederhana AxonLabs: AI yang bisa menemanimu kapan pun, di mana pun, bahkan tanpa koneksi internet.
"Hanya 7 miliar parameter, tapi cukup untuk mengubah cara kamu bekerja." β Daffa Aditya Pratama, Creator
π’ Tentang AxonLabs
AxonLabs adalah perusahaan AI independen dengan komitmen besar: membangun model AI yang aksesibel, efisien, dan powerful untuk semua kalangan. Kami percaya bahwa AI berkualitas tidak harus bergantung pada hardware mahal atau koneksi internet yang stabil.
| Info | Detail |
|---|---|
| Creator | Daffa Aditya Pratama |
| Organization | AxonLabs |
| Misi | AI untuk semua, di mana saja |
π Keunggulan AXONAI-7B-VERTEX
π§ Kemampuan Inti
| Kemampuan | Keterangan |
|---|---|
| Instruction Following | Sangat baik dalam mengikuti instruksi kompleks dan multi-step |
| Pemahaman Matematika | Skor MATH benchmark mencapai 75.5 β mengalahkan model sejenis |
| Kemampuan Coding | Skor HumanEval 84.8 β unggul atas Gemma2-9B dan Llama3.1-8B |
| Long Context | Mampu memproses dan menghasilkan teks panjang hingga 8K token |
| Structured Output | Unggul dalam menghasilkan output terstruktur seperti JSON, tabel, dan markdown |
| Multilingual | Mendukung lebih dari 29 bahasa, termasuk Bahasa Indonesia dan Inggris |
βοΈ Keunggulan Teknis
π§ Fine-tuned dengan LoRA
Model ini tidak hanya menggunakan base model mentah. AXONAI-7B-VERTEX telah melalui proses fine-tuning dengan LoRA (Low-Rank Adaptation), sebuah teknik canggih yang:
- Menyesuaikan model dengan data dan perilaku yang lebih spesifik
- Meningkatkan kualitas respons tanpa perlu melatih ulang seluruh model
- Membuat model lebih "terarah" dan konsisten dalam menjawab
πΎ Kuantisasi 4-bit (Q4_K_M)
Berkat kuantisasi 4-bit Q4_K_M, model yang awalnya membutuhkan 14GB RAM (bfloat16) kini dapat berjalan hanya dengan sekitar **4β5 GB RAM**, dengan:
- Throughput hingga 2.5Γ lebih cepat dibanding versi full-precision
- Akurasi yang tetap terjaga meski ukuran jauh lebih kecil
- Kompatibel dengan CPU-only inference (tanpa GPU!)
ποΈ Arsitektur Modern (Warisan Qwen2.5)
- Grouped Query Attention (GQA) β efisiensi memori dan inferensi lebih tinggi
- SwiGLU Activation β performa lebih baik dibanding ReLU standar
- RoPE + QKV Bias β kemampuan long-context yang optimal
- Pre-norm RMSNorm β training lebih stabil dan inferensi lebih cepat
- Dilatih di atas 18 triliun token data berkualitas tinggi
π Jalankan Offline, Tanpa Batas
Format GGUF memungkinkan model ini berjalan 100% lokal di perangkatmu menggunakan tools seperti llama.cpp, Ollama, atau LM Studio β tidak perlu internet, tidak perlu cloud, tidak perlu berlangganan.
π Benchmark Performa (Base Architecture)
Berikut adalah performa arsitektur dasar Qwen2.5-7B-Instruct yang menjadi fondasi AXONAI-7B-VERTEX, dibandingkan model kompetitor sekelasnya.
| Benchmark | AXONAI-7B-VERTEX (base arch) | Llama3.1-8B-Instruct | Gemma2-9B-IT |
|---|---|---|---|
| MMLU (General) | 74.2 | 73.0 | 72.3 |
| MATH | 75.5 | 51.9 | 44.3 |
| HumanEval (Coding) | 84.8 | 72.6 | 71.7 |
| MT-Bench | ~8.7 | 8.2 | 8.5 |
AXONAI-7B-VERTEX unggul di matematika dan coding atas semua kompetitor 8-9B.
π οΈ Cara Penggunaan
Opsi 1: Ollama (Paling Mudah)
# Pull dan jalankan langsung
ollama run axonai-7b-vertex
Opsi 2: LM Studio (GUI, Cocok untuk Pemula)
- Download LM Studio
- Cari
AXONAI-7B-VERTEXdi tab Search - Download model Q4_K_M
- Klik Load Model β mulai chat!
Opsi 3: llama.cpp (Advanced)
# Clone dan build llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
# Jalankan model
./main -m AXONAI-7B-VERTEX-Q4_K_M.gguf \
-p "Kamu adalah asisten AI yang helpful." \
--ctx-size 4096 \
--temp 0.7 \
-n 512
Opsi 4: Python dengan llama-cpp-python
from llama_cpp import Llama
llm = Llama(
model_path="./AXONAI-7B-VERTEX-Q4_K_M.gguf",
n_ctx=4096,
n_threads=8, # Sesuaikan dengan jumlah core CPU kamu
n_gpu_layers=0 # Set > 0 jika kamu punya GPU
)
output = llm(
"Jelaskan cara kerja neural network dengan bahasa sederhana.",
max_tokens=512,
temperature=0.7,
top_p=0.9,
echo=False
)
print(output["choices"][0]["text"])
π‘ Contoh Prompt
Chat Format (Direkomendasikan)
<|im_start|>system
Kamu adalah AXON, asisten AI cerdas buatan AxonLabs. Kamu membantu pengguna dengan ramah, jelas, dan akurat.<|im_end|>
<|im_start|>user
Buatkan fungsi Python untuk menghitung bilangan prima.<|im_end|>
<|im_start|>assistant
Contoh Use Case
# Coding Assistant
prompt = "Tulis REST API sederhana menggunakan FastAPI untuk manajemen todo list."
# Analisis Data
prompt = "Jelaskan perbedaan antara supervised dan unsupervised learning beserta contohnya."
# Bahasa Indonesia
prompt = "Rangkum artikel berikut dalam 3 poin utama: [artikel]"
# Matematika
prompt = "Selesaikan persamaan kuadrat: 2xΒ² + 5x - 3 = 0. Tunjukkan langkah-langkahnya."
βοΈ Spesifikasi Teknis
| Spesifikasi | Detail |
|---|---|
| Model Base | Qwen2.5-7B-Instruct |
| Metode Fine-tune | LoRA (Low-Rank Adaptation) |
| Quantization | Q4_K_M (4-bit) |
| Format | GGUF |
| Parameter | 7 Miliar (7B) |
| Context Length | 4096 β 8192 token |
| Output Max | 8192 token |
| Bahasa | Indonesia, Inggris, + 27 bahasa lainnya |
| Lisensi | Apache 2.0 |
| Training Method | LoRA + 8-bit quantization (via Google Colab) |
π» Kebutuhan Hardware
Minimum (CPU Only)
| Komponen | Spesifikasi |
|---|---|
| RAM | 6 GB |
| Storage | 5 GB |
| CPU | 4-core x86_64 |
| GPU | Tidak wajib |
Direkomendasikan
| Komponen | Spesifikasi |
|---|---|
| RAM | 8 GB+ |
| Storage | 6 GB |
| CPU | 8-core+ |
| GPU | NVIDIA 6GB VRAM (opsional, untuk akselerasi) |
Tips Performa
- Gunakan n_threads sesuai jumlah core CPU fisikmu
- Jika punya GPU NVIDIA, set
n_gpu_layers=35untuk akselerasi penuh - Context size 2048 lebih hemat RAM dibanding 4096
π Changelog & Rencana Pengembangan
v1.0 β VERTEX Release
- Fine-tuning dengan LoRA
- 4-bit Quantization (Q4_K_M)
- Export ke format GGUF
- Support Bahasa Indonesia dan Inggris
Roadmap
- AXONAI-MoE β Mixture of Experts architecture untuk performa lebih tinggi
- Varian quantization tambahan (Q5_K_M, Q8_0)
- System card & evaluation report lengkap
- Fine-tune dataset khusus Bahasa Indonesia
β οΈ Batasan & Disclaimer
- Model ini adalah hasil fine-tuning dan mungkin masih memiliki hallucination pada topik tertentu
- Tidak disarankan untuk penggunaan medis, hukum, atau keamanan kritis tanpa verifikasi manusia
- Performa terbaik dicapai dengan prompt yang jelas dan spesifik
- Model ini dirilis untuk tujuan edukasi dan riset
π Lisensi
Dirilis di bawah lisensi Apache 2.0. Bebas digunakan untuk keperluan pribadi, riset, maupun komersial dengan atribusi yang sesuai.
π Acknowledgements
Model ini dibangun di atas fondasi luar biasa dari tim Qwen (Alibaba Cloud) yang telah merilis Qwen2.5-7B-Instruct secara open-source. Terima kasih kepada komunitas llama.cpp, Hugging Face, dan Google Colab yang membuat fine-tuning LLM menjadi mungkin bahkan dari perangkat mobile.
AXONAI-7B-VERTEX Β· Dibuat dengan β€οΈ oleh Daffa Aditya Pratama Β· AxonLabs
"AI bukan milik perusahaan besar saja. AI adalah untuk semua."
- Downloads last month
- 20
4-bit