Hugging Face Mallikuvaus: ZipVoice-Finnish-12k
Tämä malli on korkealaatuinen suomen kielen hienosäätö (fine-tune) ZipVoice-perusmallista. Se on optimoitu suomen kielen fonologiaan, painotuksiin ja prosodiaan hyödyntämällä tarkasti suodatettua aineistoa.
Mallin tiedot
- Perusmalli: k2-fsa/ZipVoice
- Kieli: Suomi (fi)
- Koulutusvaiheet: 12 000 iteraatiota
- Tokenisoija:
espeak-ng(Finnish backend) - Arkkitehtuuri: Flow-matching TTS Swoosh-optimoinneilla (käyttäen
k2-kirjastoa)
Aineisto ja laadunvarmistus
Malli on koulutettu noin 28 tunnilla korkealaatuista suomenkielistä puhetta. Koulutusdata on koostettu kahdesta päälähteestä:
Valikoitu NordParl-aineisto: Alkuperäisestä, lähes 100 000 näytettä sisältävästä Nordic Parliamentary Corpus -aineistosta suodatettiin 11 804 parasta klippiä (n. 23,4 h). Suodatus tehtiin kustomoidulla työkalulla hyödyntäen Audio-AES-laatuarvioita seuraavilla kriteereillä: PQ4-CE4-CU4.4-PC3.
CSS10 Finnish -äänikirja-aineisto: Mallin yleisen sujuvuuden ja luonnollisuuden lisäämiseksi mukaan sekoitettiin 20 % suhteella (n. 5 h) suomenkielistä äänikirjadataa.
Yhteenveto:
Parlamenttiaineisto: 11 804 korkealaatuista klippiä (PQ4-CE4-CU4.4-PC3).
Lisäaineisto: CSS10 Finnish (20 % sekoitussuhde).
Tämä hienosäädetty malli hallitsee suomen kielen fonetiikan, kuten pitkät vokaalit ja kaksoiskonsonantit, erittäin tarkasti.
Lisenssi (License)
Tämä malli on julkaistu CC BY-ND 4.0 (Creative Commons Attribution-NoDerivatives 4.0 International) -lisenssillä.
- Ehto: Käytetty NordParl-aineisto on lisensoitu CC BY-ND 4.0 -ehdoilla. Koska malli on tästä aineistosta johdettu teos, se perii "NoDerivatives" (ND) -ehdon.
- Käyttö: Voit vapaasti käyttää mallia ja jakaa sitä alkuperäisessä muodossaan. Et kuitenkaan saa jakaa edelleen mallista tehtyjä muokattuja versioita (esim. jatkokoulutetut mallit) ilman lupaa.
- Maininta: Mallia käytettäessä on mainittava alkuperäiset aineistolähteet (Nordic Parliamentary Corpus & CSS10) sekä mallin kouluttaja.
Ääninäytteet (Audio Samples)
Alla olevat esimerkit havainnollistavat perusmallin (Base) ja hienosäädetyn mallin (Fine-tune) eroja suhteessa referenssiaudioon. Referenssiäänet CC0-1.0 -lisenssillä datasetistä Mozilla Common Voice Scripted Speech 24.0 - Finnish
Example 1
Referenssi: "Nyt pitäisi palata kotiin jo etuajassa."
| Versio | Toistopainike |
|---|---|
| Referenssi | |
| Base Model | |
| Fine-tuned |
Example 2
Referenssi: "Oli selvää, että..."
| Versio | Toistopainike |
|---|---|
| Referenssi | |
| Base Model | |
| Fine-tuned |
Asennusohjeet ja vaatimukset
Käyttääksesi tätä mallia, sinun on asennettava alkuperäinen ZipVoice-repo: https://github.com/k2-fsa/ZipVoice
Erityisvaatimukset:
Malli vaatii espeak-ng-pohjaisen tokenisoinnin toimiakseen oikein suomeksi.
- Järjestelmäkirjastot (WSL/Linux):
sudo apt-get update && sudo apt-get install espeak-ng libespeak-ng-dev
- Python-riippuvuudet: Malli on optimoitu PyTorch 2.9.1 ja k2-ympäristöön. Varmista, että
torchcodecon asennettu. - Inference-asetukset: Käytä aina lippuja
--tokenizer espeakja--lang fi.
Inferenssi:
Seuraa ohjeita alkuperäisestä reposta (https://github.com/k2-fsa/ZipVoice) ja korvaa alkuperäinen malli tällä mallilla.