amitaro-ita-omnivoice-full-finetune
OmniVoice を「あみたろの声素材工房」の ITA コーパス読み上げ音声(通常スタイル)でフルファインチューニングした日本語 TTS モデルです。
音声サンプル
omnivoice-kit の generate コマンドで生成できます。
利用方法
omnivoice-kit を使って推論します。
git clone https://github.com/kizuna-intelligence/omnivoice-kit
cd omnivoice-kit
git submodule update --init --recursive
python -m venv .venv && source .venv/bin/activate
pip install -e third_party/OmniVoice && pip install -e .
CUDA_VISIBLE_DEVICES=0 \
omnivoice-kit generate \
--base-model kizuna-intelligence/amitaro-ita-omnivoice-full-finetune \
--input-jsonl your_prompts.jsonl \
--output-dir output/ \
--language ja \
--num-step 20
入力 JSONL の形式:
{"id": "001", "text": "こんにちは、今日はいい天気ですね。"}
{"id": "002", "text": "春はあけぼの。ようよう白くなりゆく山際。"}
モデル詳細
| 項目 | 内容 |
|---|---|
| ベースモデル | k2-fsa/OmniVoice |
| 学習手法 | Full fine-tuning(3 フェーズ、合計 600 ステップ) |
| 言語 | 日本語 |
| 学習データ | あみたろの声素材工房 ITA コーパス(通常スタイル) |
| データ件数 | 424 件(train 381 / dev 43) |
学習設定(月読ちゃんモデルと同一)
| パラメータ | Phase 1 | Phase 2 | Phase 3 |
|---|---|---|---|
| Steps | 300 | 450 | 600 |
| Learning rate | 2e-5 | 2e-5 | 5e-6 |
| Batch tokens | 256 | 256 | 256 |
| Gradient accumulation | 4 | 4 | 4 |
| Warmup ratio | 0.03 | 0.0 | 0.0 |
学習データと著作権表示
このモデルは あみたろの声素材工房 が公開する ITA コーパス読み上げ音声(通常スタイル)を使用して学習しています。
著作権者・クレジット表記(必須):
あみたろの声素材工房(https://amitaro.net/)
データの利用規約:https://amitaro.net/voice/ita/
利用条件
本モデルの利用にあたっては、学習データの利用規約(https://amitaro.net/voice/ita/)を遵守してください。
必須:
- 本モデルを使用した成果物(音声・ソフトウェア等)には、上記クレジット表記を必ず記載してください。
禁止:
- 年齢制限が必要な成人向けコンテンツへの使用
- 政治活動・宗教活動・ヘイトスピーチへの使用
- 素材そのもの(本モデルを含む)の単体販売・素材集としての頒布
推奨(義務ではない):
- 商業目的での使用時および公開配布時は、事後でも構いませんので あみたろ様への連絡フォーム からご一報ください。
ライセンス
このモデルのライセンスは、学習データの利用規約(https://amitaro.net/voice/ita/)に準じます。 ベースモデル OmniVoice のライセンスは Apache-2.0 です。 omnivoice-kit のライセンスは Apache-2.0 です。
- Downloads last month
- 14