2023-05-24
Meta 為超過 1,100 種語言帶來語音轉文字、文字轉語音等功能,配備理解並產生語音功能的機器,可以讓更多人存取各種資訊,包括完全依賴聲音來存取資訊的人。
然而,為這些事項開發優質的機器學習模型,需要使用大量標記數據,意即數千個小時的音訊內容及轉錄文字。
對於大多數語言來說,此類資料根本不存在。舉例來說,現有語音識別模型僅涵蓋約 100 種語言,只屬於全球 7,000 多種已知口語語言的一小部分。更令人擔憂的是,這些語言當中,近半數或會在不久將來消失。
在大規模多語言語音(Massively Multilingual Speech,MMS)項目中,
我們運用了自己開發的自我監督學習技術
wav2vec 2.0,結合一個為逾 1,100 種語言提供標記數據和為近 4,000 種語言提供未標記數據的全新資料集,從而克服了上述的部分挑戰。
部分語言如 Tatuyo,只有幾百個人會說,且其中大多數並不存在於過往的語音技術。
我們的研究結果顯示,大規模多語言語音模型比現有模型的表現更好,而且涵蓋的語言數量是它的 10 倍。