财联社
当地时间周二(8月22日),Meta发布了一个名为SeamlessM4T的人工智能(AI)模型,可以翻译和转录近百种语言。
据Meta介绍,SeamlessM4T可以翻译近100种语言的语音到文本和文本到文本。对于语音转语音和文本转语音的操作,它可以识别100种输入语言,并将其转换为35种输出语言。
SeamlessM4T是根据知识共享许可(CC) 协议4.0发布的,允许研究人员对其进行迭代。
除了SeamlessM4T,Meta还发布了其开放翻译数据集SeamlessAlign的元数据。
Meta表示:“建立一个通用语言翻译器,例如像《银河系漫游指南》中虚构的巴别鱼那样,是具有挑战性的,因为现有的语音对语音和语音对文本系统只覆盖了世界语言的一小部分。”
《银河系漫游指南》是由英国作家道格拉斯·亚当斯所写的一系列科幻小说,而巴别鱼是这部作品所创造的一种神奇生物,体型小到足以放进人的耳朵,靠接受脑电波为生。如果将巴别鱼放到耳朵里,人们可以理解任何语言。
对于SeamlessM4T模型,Meta研究人员在一篇研究论文中表示,他们从400万小时的原始音频中收集了音频训练数据,这些音频来自一个公开的抓取网络数据存储库,但没有说明是哪个存储库。
研究报告称,文本数据来自去年创建的数据集,这些数据集从维基百科和相关网站上提取了内容。
Meta表示,SeamlessM4T代表了一个重大突破,因为这个模型可以一次性完成整个翻译任务,而不像其他大型翻译模型那样,将翻译分成不同的系统。
SeamlessM4T建立在Meta之前的翻译模型之上。Meta去年发布了支持200种语言的文本到文本的翻译模型。它开发了用于多语言语音到语音翻译的数据集,以及用于语音识别的大规模多语言语音。Meta去年展示了它的通用语音翻译器,可将闽南语转化为英语。