amitaro-ita-omnivoice-full-finetune

OmniVoice を「あみたろの声素材工房」の ITA コーパス読み上げ音声(通常スタイル)でフルファインチューニングした日本語 TTS モデルです。

音声サンプル

omnivoice-kit の generate コマンドで生成できます。

利用方法

omnivoice-kit を使って推論します。

git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv && source .venv/bin/activate
pip install -e third_party/OmniVoice && pip install -e .
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/amitaro-ita-omnivoice-full-finetune \
  --input-jsonl your_prompts.jsonl \
  --output-dir output/ \
  --language ja \
  --num-step 20

入力 JSONL の形式:

{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "春はあけぼの。ようよう白くなりゆく山際。"}

モデル詳細

項目 内容
ベースモデル k2-fsa/OmniVoice
学習手法 Full fine-tuning(3 フェーズ、合計 600 ステップ)
言語 日本語
学習データ あみたろの声素材工房 ITA コーパス(通常スタイル)
データ件数 424 件(train 381 / dev 43)

学習設定(月読ちゃんモデルと同一)

パラメータ Phase 1 Phase 2 Phase 3
Steps 300 450 600
Learning rate 2e-5 2e-5 5e-6
Batch tokens 256 256 256
Gradient accumulation 4 4 4
Warmup ratio 0.03 0.0 0.0

学習データと著作権表示

このモデルは あみたろの声素材工房 が公開する ITA コーパス読み上げ音声(通常スタイル)を使用して学習しています。

著作権者・クレジット表記(必須):

あみたろの声素材工房(https://amitaro.net/)

データの利用規約:https://amitaro.net/voice/ita/

利用条件

本モデルの利用にあたっては、学習データの利用規約(https://amitaro.net/voice/ita/)を遵守してください。

必須:

  • 本モデルを使用した成果物(音声・ソフトウェア等)には、上記クレジット表記を必ず記載してください。

禁止:

  • 年齢制限が必要な成人向けコンテンツへの使用
  • 政治活動・宗教活動・ヘイトスピーチへの使用
  • 素材そのもの(本モデルを含む)の単体販売・素材集としての頒布

推奨(義務ではない):

ライセンス

このモデルのライセンスは、学習データの利用規約(https://amitaro.net/voice/ita/)に準じます。 ベースモデル OmniVoice のライセンスは Apache-2.0 です。 omnivoice-kit のライセンスは Apache-2.0 です。

Downloads last month
14
Safetensors
Model size
0.6B params
Tensor type
I64
·
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support