Meta 為超過 1,100 種語言帶來語音轉文字、文字轉語音等功能
2023-05-24
時間: 2023-05-24 11:34 AM 
檔名: Meta MLLB 
大小: 47.34 KB 
尺寸: 1024x576px
 
       Meta 為超過 1,100 種語言帶來語音轉文字、文字轉語音等功能,配備理解並產生語音功能的機器,可以讓更多人存取各種資訊,包括完全依賴聲音來存取資訊的人。
 
然而,為這些事項開發優質的機器學習模型,需要使用大量標記數據,意即數千個小時的音訊內容及轉錄文字。
 
對於大多數語言來說,此類資料根本不存在。舉例來說,現有語音識別模型僅涵蓋約 100 種語言,只屬於全球 7,000 多種已知口語語言的一小部分。更令人擔憂的是,這些語言當中,近半數或會在不久將來消失。
 
在大規模多語言語音(Massively Multilingual Speech,MMS)項目中,我們運用了自己開發的自我監督學習技術 wav2vec 2.0,結合一個為逾 1,100 種語言提供標記數據和為近 4,000 種語言提供未標記數據的全新資料集,從而克服了上述的部分挑戰。
 
部分語言如 Tatuyo,只有幾百個人會說,且其中大多數並不存在於過往的語音技術。
 
我們的研究結果顯示,大規模多語言語音模型比現有模型的表現更好,而且涵蓋的語言數量是它的 10 倍。
 
Meta 專注於多語言的廣泛層面上:在文字方面,NLLB 項目將多語言翻譯技術拓展至 200 種語言,而MMS項目則將語音技術擴展至更多語言。