File size: 6,532 Bytes
30e836a
 
 
 
 
 
 
 
 
 
 
63608d5
30e836a
 
0e1e7b1
30e836a
 
 
 
 
 
 
 
 
63608d5
30e836a
0e1e7b1
30e836a
0e1e7b1
30e836a
0e1e7b1
30e836a
0e1e7b1
30e836a
0e1e7b1
 
 
 
 
 
 
 
 
 
30e836a
0e1e7b1
30e836a
0e1e7b1
63608d5
0e1e7b1
30e836a
 
 
0e1e7b1
30e836a
0e1e7b1
30e836a
0e1e7b1
30e836a
 
 
0e1e7b1
30e836a
0e1e7b1
30e836a
0e1e7b1
30e836a
0e1e7b1
 
 
63608d5
0e1e7b1
30e836a
0e1e7b1
 
 
 
 
30e836a
0e1e7b1
30e836a
0e1e7b1
 
 
30e836a
 
0e1e7b1
 
63608d5
0e1e7b1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
63608d5
0e1e7b1
63608d5
0e1e7b1
 
 
 
 
 
 
 
 
30e836a
 
0e1e7b1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
63608d5
0e1e7b1
63608d5
0e1e7b1
30e836a
0e1e7b1
 
 
 
30e836a
0e1e7b1
30e836a
0e1e7b1
4d7c26a
0e1e7b1
 
 
 
 
 
 
30e836a
0e1e7b1
30e836a
 
 
0e1e7b1
30e836a
 
0e1e7b1
30e836a
 
 
0e1e7b1
30e836a
0e1e7b1
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
---
license: apache-2.0
base_model: Qwen/Qwen3-30B-A3B
tags:
  - moe
  - pruning
  - expert-pruning
  - mixture-of-experts
  - gguf
  - goba-ai-labs
  - prunedhub
  - moe-stream
  - japanese
  - language-aware-pruning
  - layer-adaptive-pruning
model_name: PrunedHub Qwen3-30B-A3B-JP-80pct
pipeline_tag: text-generation
language:
  - ja
  - en
  - zh
  - ko
---

# PrunedHub Qwen3-30B-A3B-JP-80pct — MoE-Stream Edition

**日本語品質を維持した MoE 圧縮モデル** — GOBA-AI-Labs 独自の言語認識 expert 最適化手法により、日本語性能を保護しながら 20% のパラメータを削減。

[Qwen3-30B-A3B](https://huggingface.co/Qwen/Qwen3-30B-A3B) をベースに、GOBA-AI-Labs の言語特化 MoE 最適化パイプラインで圧縮しています。

> **推論エンジン**: このモデルは**レイヤー適応型 pruning**(層ごとに異なる expert 数)を使用しているため、推論には [moe-stream](https://github.com/GOBA-AI-Labs/moe-stream) が**必須**です。llama.cpp は現在 `experts_per_layer` メタデータ形式に対応していません。

## モデル仕様

| 項目 | 値 |
|------|-----|
| ベースモデル | Qwen/Qwen3-30B-A3B |
| Expert 数/層 | **レイヤー適応型** (平均 ~102, 元: 128) |
| MoE 層数 | 48 |
| ルーティング | Top-8 |
| コンテキスト長 | 32K tokens |
| 量子化 | Q4_K_M |
| 推論エンジン | **[moe-stream](https://github.com/GOBA-AI-Labs/moe-stream)** (必須) |
| ライセンス | Apache 2.0 |

## ベンチマーク結果

### Thinking OFF (no-think モード)

| ベンチマーク | オリジナル (128 experts) | JP-80pct (~102 experts) | 差分 |
|-------------|------------------------|----------------------|------|
| **MMLU** (0-shot, 100Q) | 77% | **74%** | -3pp |
| **GSM8K** (0-shot, 50Q) | — | **92%** | — |
| **日本語品質** (20Q) | 90% | **85%** | -5pp |

### Thinking ON (推論モード)

| ベンチマーク | JP-80pct (Thinking ON) |
|-------------|----------------------|
| **MMLU** (0-shot, 100Q) | **79%** (+5pp vs no-think) |
| **GSM8K** (0-shot, 50Q) | **84%** |
| **日本語品質** (20Q) | **90%** (目標達成) |

## サイズ比較

| 指標 | オリジナル | JP-80pct | 削減 |
|------|----------|---------|------|
| ファイルサイズ | 17.3 GB | **14.0 GB** | -19.1% |
| Expert 数/層 | 128 | ~102 (平均) | -20.3% |
| 削減 Expert 数 | — | 1,248 | — |

## 特徴

- **日本語品質保護**: GOBA-AI-Labs 独自の言語認識最適化により、日本語の推論能力を維持
- **Thinking ON で最大性能**: MMLU 79%、日本語 90% を達成
- **GSM8K 92%**: 数学的推論能力を完全保持
- **14 GB**: 16GB RAM 環境で動作可能
- **~55 tok/s**: Apple Silicon (Metal GPU) で高速推論

## 使い方

このモデルはレイヤー適応型 pruning を使用しているため、**moe-stream** での推論が必須です。

### インストール

```bash
# moe-stream のビルド (Rust + Metal GPU)
git clone https://github.com/GOBA-AI-Labs/moe-stream
cd moe-stream
cargo build --release --features metal,accelerate

# モデルのダウンロード
huggingface-cli download goba-ai-labs/PrunedHub-Qwen3-30B-A3B-JP-80pct \
  --local-dir models/
```

### CLI での推論

```bash
# テキスト生成
./target/release/moe-stream models/PrunedHub-Qwen3-30B-A3B-JP-80pct-Q4_K_M.gguf 512 \
  --prompt "日本の四季について教えてください" --stream

# Thinking ON モード (推奨 — 高精度)
./target/release/moe-stream models/PrunedHub-Qwen3-30B-A3B-JP-80pct-Q4_K_M.gguf 1024 \
  --think --stream
```

### OpenAI 互換 HTTP サーバー

```bash
# サーバー起動
./target/release/moe-stream-server \
  --model models/PrunedHub-Qwen3-30B-A3B-JP-80pct-Q4_K_M.gguf --port 11434

# curl でテスト
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"local","messages":[{"role":"user","content":"日本の首都はどこですか?"}],"stream":true}'
```

### Python から使用

```python
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="unused")
response = client.chat.completions.create(
    model="local",
    messages=[{"role": "user", "content": "量子コンピュータについて説明してください"}],
    stream=True
)
for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")
```

## 手法について

GOBA-AI-Labs 独自の言語認識 expert 最適化パイプラインを使用しています。

- **Calibration ベースの重要度スコアリング**: 多言語テキスト(日本語・英語・コード・数学)を実際に推論し、各 expert の活性化パターンから重要度を実測。静的な重み分析と比較して大幅に高精度な重要度ランキングを実現
- **言語特化 expert の自動検出と保護**: MoE routing パターンの言語間差分分析により、日本語品質に寄与する expert を自動的に同定し、pruning 対象から保護
- **レイヤー適応型 expert 割り当て**: 各レイヤーの品質寄与度に基づき、レイヤーごとに最適な expert 数を動的に決定。均一な pruning と比較して品質保持率が大幅に向上
- **Thinking モード対応**: Thinking ON/OFF 両方で評価済み。Thinking ON では MMLU +5pp、日本語品質 90% を達成

## 推論エンジン: moe-stream

[moe-stream](https://github.com/GOBA-AI-Labs/moe-stream) は GOBA-AI-Labs が開発した Rust 製 MoE 推論エンジンです。

| 機能 | 詳細 |
|------|------|
| 推論モード | GPU Resident / GPU Hybrid / SSD Streaming (自動選択) |
| GPU 対応 | Apple Metal / NVIDIA CUDA |
| 量子化 | Q2K-Q8K, MXFP4, F16, F32 (13 形式対応) |
| API | OpenAI 互換 HTTP / JSONL / MCP |
| 特殊機能 | Q4 Quantized MatMul (+79% 高速化), Dynamic K |

## 引用

```bibtex
@misc{goba-ai-labs-prunedhub-qwen3-30b-jp,
  title={PrunedHub Qwen3-30B-A3B-JP-80pct: 日本語品質保護 MoE 圧縮},
  author={GOBA-AI-Labs},
  year={2026},
  url={https://huggingface.co/goba-ai-labs/PrunedHub-Qwen3-30B-A3B-JP-80pct}
}
```

## リンク

- [GOBA-AI-Labs](https://huggingface.co/goba-ai-labs)
- [moe-stream (推論エンジン)](https://github.com/GOBA-AI-Labs/moe-stream)
- [ベースモデル: Qwen3-30B-A3B](https://huggingface.co/Qwen/Qwen3-30B-A3B)
- [Ko-fi で GOBA-AI-Labs を支援](https://ko-fi.com/gobaailabs)