Xiadie-Qwen3TTS-12Hz-1.7B
基于 Qwen3-TTS-12Hz-1.7B-Base 微调(Fine-tune)的遐蝶(Xiadie)日语/中文语音克隆模型。
模型简介
- 基础模型:Qwen/Qwen3-TTS-12Hz-1.7B-Base
- 训练数据:来自 ACGN.AI 整合的遐蝶语音数据集
- 微调参数:
lr=1e-7, epochs=6, batch_size=1, grad_acc=4 - 支持语言:中文、日语、英语等
- 推理方式:Voice Clone(语音克隆),需要提供参考音频
快速开始
安装依赖
pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation # 可选,降低显存占用
语音克隆推理
import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel
# 加载模型
model = Qwen3TTSModel.from_pretrained(
"fangzny/xiadie-qwen3tts-12hz-1.7b",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="sdpa", # 或 "flash_attention_2"
)
# 使用默认遐蝶参考音频
ref_audio = "ref_audio/xiadie_gold_standard.wav"
ref_text = "冷么?要不要一起去日光下走走?"
wavs, sr = model.generate_voice_clone(
text="今日はいい天気ですね、一緒に散歩に行きませんか?",
language="Japanese",
ref_audio=ref_audio,
ref_text=ref_text,
temperature=0.7,
top_p=0.9,
top_k=50,
repetition_penalty=1.2,
)
sf.write("output.wav", wavs[0], sr)
使用自己的参考音频
你可以替换 ref_audio 为任意遐蝶角色的音频文件(建议 3-10 秒,清晰无背景噪音),并传入对应的 ref_text 文本来克隆不同的音色。
更高级的用法请参考 webui.py 示例。
推理参数建议
| 参数 | 推荐值 | 说明 |
|---|---|---|
temperature |
0.7 | 越高越有变化但可能出错 |
top_p |
0.9 | 采样概率阈值 |
top_k |
50 | 采样候选集大小 |
repetition_penalty |
1.2 | 防止循环复读 |
硬件要求
- 显存:约 8GB+(使用 bfloat16 和 flash_attn)
- 推荐:NVIDIA RTX 3060 及以上
致谢
- 声音数据来源:ACGN.AI
- 基础模型:Qwen/Qwen3-TTS
- Downloads last month
- 50
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for fangzny/xiadie-qwen3tts-12hz-1.7b
Base model
Qwen/Qwen3-TTS-12Hz-1.7B-Base