Hugging Face Mallikuvaus: ZipVoice-Finnish-12k

Tämä malli on korkealaatuinen suomen kielen hienosäätö (fine-tune) ZipVoice-perusmallista. Se on optimoitu suomen kielen fonologiaan, painotuksiin ja prosodiaan hyödyntämällä tarkasti suodatettua aineistoa.

Mallin tiedot

Perusmalli: k2-fsa/ZipVoice
Kieli: Suomi (fi)
Koulutusvaiheet: 12 000 iteraatiota
Tokenisoija: espeak-ng (Finnish backend)
Arkkitehtuuri: Flow-matching TTS Swoosh-optimoinneilla (käyttäen k2-kirjastoa)

Aineisto ja laadunvarmistus

Malli on koulutettu noin 28 tunnilla korkealaatuista suomenkielistä puhetta. Koulutusdata on koostettu kahdesta päälähteestä:

Valikoitu NordParl-aineisto: Alkuperäisestä, lähes 100 000 näytettä sisältävästä Nordic Parliamentary Corpus -aineistosta suodatettiin 11 804 parasta klippiä (n. 23,4 h). Suodatus tehtiin kustomoidulla työkalulla hyödyntäen Audio-AES-laatuarvioita seuraavilla kriteereillä: PQ4-CE4-CU4.4-PC3.

CSS10 Finnish -äänikirja-aineisto: Mallin yleisen sujuvuuden ja luonnollisuuden lisäämiseksi mukaan sekoitettiin 20 % suhteella (n. 5 h) suomenkielistä äänikirjadataa.

Yhteenveto:

Parlamenttiaineisto: 11 804 korkealaatuista klippiä (PQ4-CE4-CU4.4-PC3).

Lisäaineisto: CSS10 Finnish (20 % sekoitussuhde).

Tämä hienosäädetty malli hallitsee suomen kielen fonetiikan, kuten pitkät vokaalit ja kaksoiskonsonantit, erittäin tarkasti.

Lisenssi (License)

Tämä malli on julkaistu CC BY-ND 4.0 (Creative Commons Attribution-NoDerivatives 4.0 International) -lisenssillä.

Ehto: Käytetty NordParl-aineisto on lisensoitu CC BY-ND 4.0 -ehdoilla. Koska malli on tästä aineistosta johdettu teos, se perii "NoDerivatives" (ND) -ehdon.
Käyttö: Voit vapaasti käyttää mallia ja jakaa sitä alkuperäisessä muodossaan. Et kuitenkaan saa jakaa edelleen mallista tehtyjä muokattuja versioita (esim. jatkokoulutetut mallit) ilman lupaa.
Maininta: Mallia käytettäessä on mainittava alkuperäiset aineistolähteet (Nordic Parliamentary Corpus & CSS10) sekä mallin kouluttaja.

Ääninäytteet (Audio Samples)

Alla olevat esimerkit havainnollistavat perusmallin (Base) ja hienosäädetyn mallin (Fine-tune) eroja suhteessa referenssiaudioon. Referenssiäänet CC0-1.0 -lisenssillä datasetistä Mozilla Common Voice Scripted Speech 24.0 - Finnish

Example 1

Referenssi: "Nyt pitäisi palata kotiin jo etuajassa."

Versio	Toistopainike
Referenssi
Base Model
Fine-tuned

Example 2

Referenssi: "Oli selvää, että..."

Versio	Toistopainike
Referenssi
Base Model
Fine-tuned

Asennusohjeet ja vaatimukset

Käyttääksesi tätä mallia, sinun on asennettava alkuperäinen ZipVoice-repo: https://github.com/k2-fsa/ZipVoice

Erityisvaatimukset:

Malli vaatii espeak-ng-pohjaisen tokenisoinnin toimiakseen oikein suomeksi.

Järjestelmäkirjastot (WSL/Linux):

sudo apt-get update && sudo apt-get install espeak-ng libespeak-ng-dev

Python-riippuvuudet: Malli on optimoitu PyTorch 2.9.1 ja k2-ympäristöön. Varmista, että torchcodec on asennettu.
Inference-asetukset: Käytä aina lippuja --tokenizer espeak ja --lang fi.

Inferenssi:

Seuraa ohjeita alkuperäisestä reposta (https://github.com/k2-fsa/ZipVoice) ja korvaa alkuperäinen malli tällä mallilla.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

o-8-o
/

ZipVoice-Suomi-12k