How to use from
llama.cpp
Install from brew
brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
# Run inference directly in the terminal:
llama-cli -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
Install from WinGet (Windows)
winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
# Run inference directly in the terminal:
llama-cli -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
Use pre-built binary
# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
# Run inference directly in the terminal:
./llama-cli -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
Build from source code
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
# Run inference directly in the terminal:
./build/bin/llama-cli -hf k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
Use Docker
docker model run hf.co/k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF:
Quick Links

Qwen3.5-35B-A3B-heretic-v2 Japanese imatrix GGUF

日本語を主体としたImportance MatrixによるGGUF量子化です。

Japanese-focused imatrix GGUF quantizations of llmfan46/Qwen3.5-35B-A3B-heretic-v2.

量子化情報

imatrixについて

日本語テキストを主体としたキャリブレーションデータでImportance Matrixを生成しています。

(おそらく)英語データをメインにで生成されたimatrixと比較して、低ビット量子化(IQ3/IQ4クラス)において日本語の生成品質をより良く維持することを期待していましたが、no thinkingでの選択式や抽出型などの日本語ベンチマークでは微妙な結果でした。 llmfan46/Qwen3.5-35B-A3B-heretic-v2-GGUFを使用することを推奨します。Q6_K以上ではimatrixによる差異は小さいと思うので、本リポジトリでは低ビット量子化に絞って公開しています。

imatrixデータファイル(Qwen3.5-35B-A3B-heretic-v2.imatrix)を同梱しているため、他の量子化タイプを生成したい場合にご利用いただけます。

⚠️ 注意 / Disclaimer

このモデルは検閲除去処理が施されたモデルの量子化です。安全フィルターが大幅に緩和されており、有害・不適切なコンテンツを生成する可能性があります。出力内容の利用については利用者自身の責任においてご判断ください。

This is a quantization of an abliterated model with significantly reduced safety filters. Use at your own risk and responsibility.

クレジット

Downloads last month
53
GGUF
Model size
35B params
Architecture
qwen35moe
Hardware compatibility
Log In to add your hardware

3-bit

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for k0ndra/Qwen3.5-35B-A3B-heretic-v2-ja-imatrix-GGUF