短い入力テキストで音声が不明瞭になる(または崩れる)現象について

#2
by kankan7 - opened

Piper Plus を利用させていただいております。
素晴らしいツールをありがとうございます。
利用中に気づいた点があり、こちらのデモ環境でも同様の挙動が再現できたため、ご報告いたします。

・現象
極端に短いテキストを入力すると、正常に合成されない現象が発生します。

・デモでの再現条件
Select Model : Multilingual (Japanese)
パラメータ : デフォルト設定

・正常に合成される例:
「こんにちは、世界!今日はいい天気ですね。」
「おはようございます。本日の会議は午後3時から始まります。」

・音声が崩れる(ノイズや歪み)例:
「こんにちは、世界!」
「おはようございます。」

・0.00秒の音声になる例:
「こんにちは。」
「おはよう。」

・Piper Plus で利用したモデル : piper-plus-css10-ja-6lang

Speaker ID やパラメータを変えても改善することができませんでした。
お手隙の際にご確認いただけますと幸いです。

@kankan7 ご連絡ありがとうございます.ベースのアーキテクチャーがVITSベースのため短いテキストの生成がうまくいかないことがわかっており、現在は改善目処が立っていません。そのため今後調査と対応をしますが、少し時間がかかると思われます
よろしくお願い致します

お忙しい中、丁寧なご返信をいただき、誠にありがとうございました。
ここまで軽量で使い勝手の良い日本語TTSは他にないので、今後の展開も大いに期待しております。
これからも応援しております。

kankan7 changed discussion status to closed

お忙しい中、丁寧なご返信をいただき、誠にありがとうございました。
ここまで軽量で使い勝手の良い日本語TTSは他にないので、今後の展開も大いに期待しております。
これからも応援しております。

ありがとうございます!こちらコード側でなるべく問題が起きにくい対応を入れましたので、ご確認ください!ただモデル側のアーキテクチャの問題がベースにあるためこれ以上の改善は今のところ見込めない状態です

Sign up or log in to comment