amitaro-ita-omnivoice-full-finetune

OmniVoice を「あみたろの声素材工房」の ITA コーパス読み上げ音声（通常スタイル）でフルファインチューニングした日本語 TTS モデルです。

音声サンプル

omnivoice-kit の generate コマンドで生成できます。

利用方法

omnivoice-kit を使って推論します。

git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv && source .venv/bin/activate
pip install -e third_party/OmniVoice && pip install -e .

CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
  --base-model kizuna-intelligence/amitaro-ita-omnivoice-full-finetune \
  --input-jsonl your_prompts.jsonl \
  --output-dir output/ \
  --language ja \
  --num-step 20

入力 JSONL の形式：

{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "春はあけぼの。ようよう白くなりゆく山際。"}

モデル詳細

項目	内容
ベースモデル	k2-fsa/OmniVoice
学習手法	Full fine-tuning（3 フェーズ、合計 600 ステップ）
言語	日本語
学習データ	あみたろの声素材工房 ITA コーパス（通常スタイル）
データ件数	424 件（train 381 / dev 43）

学習設定（月読ちゃんモデルと同一）

パラメータ	Phase 1	Phase 2	Phase 3
Steps	300	450	600
Learning rate	2e-5	2e-5	5e-6
Batch tokens	256	256	256
Gradient accumulation	4	4	4
Warmup ratio	0.03	0.0	0.0

学習データと著作権表示

このモデルは あみたろの声素材工房 が公開する ITA コーパス読み上げ音声（通常スタイル）を使用して学習しています。

著作権者・クレジット表記（必須）：

あみたろの声素材工房（https://amitaro.net/）

データの利用規約：https://amitaro.net/voice/ita/

利用条件

本モデルの利用にあたっては、学習データの利用規約（https://amitaro.net/voice/ita/）を遵守してください。

必須：

本モデルを使用した成果物（音声・ソフトウェア等）には、上記クレジット表記を必ず記載してください。

禁止：

年齢制限が必要な成人向けコンテンツへの使用
政治活動・宗教活動・ヘイトスピーチへの使用
素材そのもの（本モデルを含む）の単体販売・素材集としての頒布

推奨（義務ではない）：

商業目的での使用時および公開配布時は、事後でも構いませんのであみたろ様への連絡フォームからご一報ください。

ライセンス

このモデルのライセンスは、学習データの利用規約（https://amitaro.net/voice/ita/）に準じます。ベースモデル OmniVoice のライセンスは Apache-2.0 です。 omnivoice-kit のライセンスは Apache-2.0 です。

Downloads last month: 14

Safetensors

Model size

0.6B params

Tensor type

I64

F32