Xiadie-Qwen3TTS-12Hz-1.7B

基于 Qwen3-TTS-12Hz-1.7B-Base 微调（Fine-tune）的遐蝶（Xiadie）日语/中文语音克隆模型。

模型简介

基础模型：Qwen/Qwen3-TTS-12Hz-1.7B-Base
训练数据：来自 ACGN.AI 整合的遐蝶语音数据集
微调参数：lr=1e-7, epochs=6, batch_size=1, grad_acc=4
支持语言：中文、日语、英语等
推理方式：Voice Clone（语音克隆），需要提供参考音频

快速开始

安装依赖

pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation  # 可选，降低显存占用

语音克隆推理

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# 加载模型
model = Qwen3TTSModel.from_pretrained(
    "fangzny/xiadie-qwen3tts-12hz-1.7b",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="sdpa",  # 或 "flash_attention_2"
)

# 使用默认遐蝶参考音频
ref_audio = "ref_audio/xiadie_gold_standard.wav"
ref_text = "冷么？要不要一起去日光下走走？"

wavs, sr = model.generate_voice_clone(
    text="今日はいい天気ですね、一緒に散歩に行きませんか？",
    language="Japanese",
    ref_audio=ref_audio,
    ref_text=ref_text,
    temperature=0.7,
    top_p=0.9,
    top_k=50,
    repetition_penalty=1.2,
)
sf.write("output.wav", wavs[0], sr)

使用自己的参考音频

你可以替换 ref_audio 为任意遐蝶角色的音频文件（建议 3-10 秒，清晰无背景噪音），并传入对应的 ref_text 文本来克隆不同的音色。

更高级的用法请参考 webui.py 示例。

推理参数建议

参数	推荐值	说明
`temperature`	0.7	越高越有变化但可能出错
`top_p`	0.9	采样概率阈值
`top_k`	50	采样候选集大小
`repetition_penalty`	1.2	防止循环复读

硬件要求

显存：约 8GB+（使用 bfloat16 和 flash_attn）
推荐：NVIDIA RTX 3060 及以上

致谢

声音数据来源：ACGN.AI
基础模型：Qwen/Qwen3-TTS

Downloads last month: 50

Safetensors

Model size

2B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for fangzny/xiadie-qwen3tts-12hz-1.7b

Base model

Qwen/Qwen3-TTS-12Hz-1.7B-Base

Finetuned

(28)

this model