Common Voice

Z Wikipedie, otevřené encyklopedie
Common Voice
Logo
VývojářMozilla Foundation
První vydání20170619a19. června 2017
Typ softwaruvoice dataset a crowdsourcing
LicenceCreative Commons CC0
LokalizaceVíce jazyčné (List of languages)
Webvoice.mozilla.org
Některá data mohou pocházet z datové položky.

Common Voice je crowdsourcingový projekt vytvořený organizací Mozilla za účelem vytvoření bezplatné databáze pro software rozpoznávající řeč. Projekt je vytvářen dobrovolníky, kteří nahrávají zvukové záznamy v podobě krátkých vět nebo kontrolují nahrávky ostatních uživatelů. Přepsané věty budou přístupné v databázi jako volné dílo s licencí CC0. Tato licence zajišťuje vývojářům bezplatné použití databáze.

Projekt vznikl jako reakce na hlasové asistenty velkých společností jako je Amazon Echo, Siri nebo Google Assistant.

Hlasová databáze[editovat | editovat zdroj]

Anglická databáze Common Voice je druhou největší volně přístupnou databází po LibriSpeech. Při první publikaci dat dne 29. listopadu 2017 bylo registrováno více než 20 000 uživatelů, kteří ověřili 400 000 vět s celkovou délkou 500 hodin.[1]

V únoru 2019 byl k používání publikován první balíček jazyků. Ten zahrnoval 18 jazyků: angličtinu, francouzštinu, němčinu a mandarínšitnu, ale také méně běžné jazyky velština a kabylština. To je celkem 1 400 hodin záznamů od více než 42 000 přispěvatelů.[2]

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

  1. Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset [online]. November 29, 2017. Dostupné online. 
  2. Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages [online]. February 28, 2019. Dostupné online. 

Externí odkazy[editovat | editovat zdroj]