File size: 5,406 Bytes

cb9ad2c

---

language:
- ja
license: cc-by-sa-3.0
library_name: transformers
tags:
- automatic-speech-recognition
- ctc
- wavlm
- japanese
- hiragana
- phoneme
- custom_code
pipeline_tag: automatic-speech-recognition
base_model: microsoft/wavlm-base-plus
---


# wavlm-base-plus-hiragana-ctc

WavLMをベースに、ひらがなと音素のデュアルCTC（Dual CTC）ヘッドを搭載した軽量な日本語音声認識（ASR）モデルです。  
自己回帰デコーダを持たないため繰り返すハルシネーションを起こさず、ひらがな（および音素）のみを安定して出力します。

前バージョンの [`wavlm-base-plus-hiragana-ctc`](https://huggingface.co/TylorShine/wavlm-base-plus-hiragana-ctc) から、音素CTCとかなCTCのHead両方をMLPに変更しています。

このモデルはカスタムアーキテクチャを採用しており、Hugging Faceの `AutoModel` (`trust_remote_code=True`) を使用して簡単に読み込むことができます。

## 🚀 元モデルからの変更点

オリジナルである [`japanese-wav2vec2-large-hiragana-ctc`](https://huggingface.co/sakasegawa/japanese-wav2vec2-large-hiragana-ctc) から以下の点を変更しています。

1. **ベースモデルを WavLM に変更**
   よりノイズに強く、幅広い音声表現を獲得できる [WavLM-Base-Plus](https://huggingface.co/microsoft/wavlm-base-plus) をエンコーダに採用しました。
2. **Head位置の変更**
   [WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing](https://arxiv.org/abs/2110.13900) のデータを参考に、音素CTCとかなCTCのHead位置を変更しました。
3. **Hugging Face `AutoModel` ネイティブ対応**
   カスタムモジュール (`modeling_dual_ctc.py`) を同梱したため、ローカルのチェックポイントファイルを意識することなく、`transformers` から直接モデルをロードして推論できるようになりました。

## 🏗 Architecture

```text

Audio (16kHz) → WavLM Encoder

                  ├── Intermediate Layer 9 → Kana CTC Head (84 classes)

                  └── Intermediate Layer 11 → Phoneme CTC Head (44 classes)

```

## 💻 Usage

本モデルはカスタムコード（`DualCTCModel`）を使用しているため、ロード時に `trust_remote_code=True` を指定する必要があります。

### インストール
```bash

pip install torch torchaudio transformers

```

### 推論コードの例

```python

import torch

import torchaudio

from transformers import AutoFeatureExtractor, AutoModel, PreTrainedTokenizerFast



model_id = "TylorShine/wavlm-base-plus-hiragana-ctc"



# 特徴量抽出器とモデルのロード

processor = AutoFeatureExtractor.from_pretrained(model_id)

model = AutoModel.from_pretrained(model_id, trust_remote_code=True)

model.eval()



# トークナイザーのロード

kana_tokenizer = PreTrainedTokenizerFast.from_pretrained(model_id, subfolder="kana_tokenizer")

phoneme_tokenizer = PreTrainedTokenizerFast.from_pretrained(model_id, subfolder="phoneme_tokenizer")



# 音声ファイルの読み込み (16kHzにリサンプリング)

waveform, sample_rate = torchaudio.load("nihongo_no_onsei.wav")

if sample_rate != 16000:

    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)

    waveform = resampler(waveform)



# 前処理

inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt")



# 推論

with torch.no_grad():

    outputs = model(**inputs)



# ひらがなと音素のロジットを取得

kana_logits = outputs["kana_logits"]

phoneme_logits = outputs["phoneme_logits"]



# Greedy Decoding

kana_preds = torch.argmax(kana_logits, dim=-1).tolist()

phoneme_preds = torch.argmax(phoneme_logits, dim=-1).tolist()



# print("Kana Token IDs:", kana_preds[0])

# print("Phoneme Token IDs:", phoneme_preds[0])



# `model.ctc_decode()` でトークンをテキストに変換

kana_text = model.ctc_decode(kana_preds, kana_tokenizer, is_kana=True)

phoneme_text = model.ctc_decode(phoneme_preds, phoneme_tokenizer, is_kana=False)



print("Kana:", kana_text)

print("Phoneme:", phoneme_text)

```

## 📊 Model Details & Evaluation

| Property | Value |
|----------|-------|
| Architecture | WavLM + Dual CTC (Kana & Phoneme) |
| Precision | BF16 |
| Kana vocab | 84 tokens |
| Phoneme vocab | 44 tokens |

| Dataset | Condition | KER | PER |
|---------|-----------|-----|-----|
| JSUT-BASIC5000 | スタジオ収録、単一話者 | 3.97% | 3.33% |
| JVS pallarel100 | 100話者 | 5.46% | 4.35% |
| JVS whisper10 | 100話者、ささやき声 | 11.6% | 7.51% |
| ReazonSpeech (20k samples from `medium` subset) | TV音声 | 17.5% | 14.7% |


## 📜 License

Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0) license. See [LICENSE](LICENSE) for details.  
(CC BY-SA 3.0 ライセンスはWavLMから継承しています。)


## 🎓️ References / Acknowledgements

本モデルのベースとさせていただいたプロジェクト（Wav2Vec 2.0版）に関する詳細は、以下をご参照ください。
- Sakasegawa. (2026). "hiragana-asr: Lightweight Japanese ASR with Dual CTC". [github.com/nyosegawa/hiragana-asr](https://github.com/nyosegawa/hiragana-asr)