Xiadie-Qwen3TTS-12Hz-1.7B

基于 Qwen3-TTS-12Hz-1.7B-Base 微调(Fine-tune)的遐蝶(Xiadie)日语/中文语音克隆模型。

模型简介

  • 基础模型Qwen/Qwen3-TTS-12Hz-1.7B-Base
  • 训练数据:来自 ACGN.AI 整合的遐蝶语音数据集
  • 微调参数lr=1e-7, epochs=6, batch_size=1, grad_acc=4
  • 支持语言:中文、日语、英语等
  • 推理方式:Voice Clone(语音克隆),需要提供参考音频

快速开始

安装依赖

pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation  # 可选,降低显存占用

语音克隆推理

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

# 加载模型
model = Qwen3TTSModel.from_pretrained(
    "fangzny/xiadie-qwen3tts-12hz-1.7b",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="sdpa",  # 或 "flash_attention_2"
)

# 使用默认遐蝶参考音频
ref_audio = "ref_audio/xiadie_gold_standard.wav"
ref_text = "冷么?要不要一起去日光下走走?"

wavs, sr = model.generate_voice_clone(
    text="今日はいい天気ですね、一緒に散歩に行きませんか?",
    language="Japanese",
    ref_audio=ref_audio,
    ref_text=ref_text,
    temperature=0.7,
    top_p=0.9,
    top_k=50,
    repetition_penalty=1.2,
)
sf.write("output.wav", wavs[0], sr)

使用自己的参考音频

你可以替换 ref_audio 为任意遐蝶角色的音频文件(建议 3-10 秒,清晰无背景噪音),并传入对应的 ref_text 文本来克隆不同的音色。

更高级的用法请参考 webui.py 示例

推理参数建议

参数 推荐值 说明
temperature 0.7 越高越有变化但可能出错
top_p 0.9 采样概率阈值
top_k 50 采样候选集大小
repetition_penalty 1.2 防止循环复读

硬件要求

  • 显存:约 8GB+(使用 bfloat16 和 flash_attn)
  • 推荐:NVIDIA RTX 3060 及以上

致谢

Downloads last month
50
Safetensors
Model size
2B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for fangzny/xiadie-qwen3tts-12hz-1.7b

Finetuned
(28)
this model