Hugging Face Mallikuvaus: ZipVoice-Finnish-12k

Tämä malli on korkealaatuinen suomen kielen hienosäätö (fine-tune) ZipVoice-perusmallista. Se on optimoitu suomen kielen fonologiaan, painotuksiin ja prosodiaan hyödyntämällä tarkasti suodatettua aineistoa.

Mallin tiedot

  • Perusmalli: k2-fsa/ZipVoice
  • Kieli: Suomi (fi)
  • Koulutusvaiheet: 12 000 iteraatiota
  • Tokenisoija: espeak-ng (Finnish backend)
  • Arkkitehtuuri: Flow-matching TTS Swoosh-optimoinneilla (käyttäen k2-kirjastoa)

Aineisto ja laadunvarmistus

Malli on koulutettu noin 28 tunnilla korkealaatuista suomenkielistä puhetta. Koulutusdata on koostettu kahdesta päälähteestä:

Valikoitu NordParl-aineisto: Alkuperäisestä, lähes 100 000 näytettä sisältävästä Nordic Parliamentary Corpus -aineistosta suodatettiin 11 804 parasta klippiä (n. 23,4 h). Suodatus tehtiin kustomoidulla työkalulla hyödyntäen Audio-AES-laatuarvioita seuraavilla kriteereillä: PQ4-CE4-CU4.4-PC3.

CSS10 Finnish -äänikirja-aineisto: Mallin yleisen sujuvuuden ja luonnollisuuden lisäämiseksi mukaan sekoitettiin 20 % suhteella (n. 5 h) suomenkielistä äänikirjadataa.

Yhteenveto:

Parlamenttiaineisto: 11 804 korkealaatuista klippiä (PQ4-CE4-CU4.4-PC3).

Lisäaineisto: CSS10 Finnish (20 % sekoitussuhde).

Tämä hienosäädetty malli hallitsee suomen kielen fonetiikan, kuten pitkät vokaalit ja kaksoiskonsonantit, erittäin tarkasti.

Lisenssi (License)

Tämä malli on julkaistu CC BY-ND 4.0 (Creative Commons Attribution-NoDerivatives 4.0 International) -lisenssillä.

  • Ehto: Käytetty NordParl-aineisto on lisensoitu CC BY-ND 4.0 -ehdoilla. Koska malli on tästä aineistosta johdettu teos, se perii "NoDerivatives" (ND) -ehdon.
  • Käyttö: Voit vapaasti käyttää mallia ja jakaa sitä alkuperäisessä muodossaan. Et kuitenkaan saa jakaa edelleen mallista tehtyjä muokattuja versioita (esim. jatkokoulutetut mallit) ilman lupaa.
  • Maininta: Mallia käytettäessä on mainittava alkuperäiset aineistolähteet (Nordic Parliamentary Corpus & CSS10) sekä mallin kouluttaja.

Ääninäytteet (Audio Samples)

Alla olevat esimerkit havainnollistavat perusmallin (Base) ja hienosäädetyn mallin (Fine-tune) eroja suhteessa referenssiaudioon. Referenssiäänet CC0-1.0 -lisenssillä datasetistä Mozilla Common Voice Scripted Speech 24.0 - Finnish

Example 1

Referenssi: "Nyt pitäisi palata kotiin jo etuajassa."

Versio Toistopainike
Referenssi
Base Model
Fine-tuned

Example 2

Referenssi: "Oli selvää, että..."

Versio Toistopainike
Referenssi
Base Model
Fine-tuned

Asennusohjeet ja vaatimukset

Käyttääksesi tätä mallia, sinun on asennettava alkuperäinen ZipVoice-repo: https://github.com/k2-fsa/ZipVoice

Erityisvaatimukset:

Malli vaatii espeak-ng-pohjaisen tokenisoinnin toimiakseen oikein suomeksi.

  1. Järjestelmäkirjastot (WSL/Linux):
sudo apt-get update && sudo apt-get install espeak-ng libespeak-ng-dev
  1. Python-riippuvuudet: Malli on optimoitu PyTorch 2.9.1 ja k2-ympäristöön. Varmista, että torchcodec on asennettu.
  2. Inference-asetukset: Käytä aina lippuja --tokenizer espeak ja --lang fi.

Inferenssi:

Seuraa ohjeita alkuperäisestä reposta (https://github.com/k2-fsa/ZipVoice) ja korvaa alkuperäinen malli tällä mallilla.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train o-8-o/ZipVoice-Suomi-12k