艾巴生活网

您现在的位置是:主页>资讯 >内容

资讯

Meta的开源语音AI可识别4000多种口头语言

2023-05-23 08:49:13资讯传统的飞鸟
Meta创建了一种 AI 语言模型,它(以令人耳目一新的速度变化)不是ChatGPT 的克隆。该公司的大规模多语言语音 (MMS) 项目可以识别 4,00

Meta创建了一种 AI 语言模型,它(以令人耳目一新的速度变化)不是ChatGPT 的克隆。该公司的大规模多语言语音 (MMS) 项目可以识别 4,000 多种口头语言并生成 1,100 多种语音(文本到语音)。与大多数其他公开宣布的AI 项目一样,Meta 今天正在开源 MMS,以帮助保护语言多样性并鼓励研究人员在其基础上进行构建。“今天,我们公开分享我们的模型和代码,以便研究界的其他人可以在我们的工作基础上进行构建,”该公司写道。“通过这项工作,我们希望为保护世界上令人难以置信的语言多样性做出一点贡献。”

您现在可以使用亚马逊的掌上阅读技术购买酒精

语音识别和文本转语音模型通常需要对数千小时的音频进行训练,并附带转录标签。(标签对机器学习至关重要,它允许算法正确分类和“理解”数据。)但对于工业化国家未广泛使用的语言——其中许多语言在未来几十年有消失的危险——“这数据根本不存在,”正如 Meta 所说。

Meta 使用了一种非常规的方法来收集音频数据:利用翻译宗教文本的录音。该公司表示:“我们转向宗教文本,例如圣经,这些文本已被翻译成多种不同的语言,并且其译文已被广泛研究用于基于文本的语言翻译研究。” “这些翻译有公开的录音,人们用不同的语言阅读这些文本。” 结合圣经和类似文本的未标记录音,Meta 的研究人员将模型的可用语言增加到 4,000 多种。

如果您和我一样,乍一看,这种方法可能会引起您的注意,因为这听起来像是严重偏向基督教世界观的 AI 模型的配方。但 Meta 表示情况并非如此。“虽然录音的内容是宗教的,但我们的分析表明,这不会使模型产生更多宗教语言,”Meta 写道。“我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法,与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比,这种方法受到的限制要大得多。” 此外,尽管大多数宗教录音都是由男性演讲者朗读的,但这也没有引入男性偏见——在女性和男性的声音中表现同样出色。

在训练了一个对齐模型以使数据更有用之后,Meta 使用了公司的“自监督语音表示学习”模型 wav2vec 2.0,它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型产生了令人印象深刻的结果。“我们的结果表明,与现有模型相比,大规模多语言语音模型表现良好,覆盖的语言数量是现有模型的 10 倍。” 具体来说,Meta 将 MMS 与OpenAI 的 Whisper进行了比较,结果超出了预期。“我们发现,在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率,但 Massively Multilingual Speech 涵盖的语言是原来的 11 倍。”

Meta 警告说它的新模型并不完美。该公司写道:“例如,语音转文本模型可能会错误转录选定的单词或短语,这存在一定风险。” “根据输出结果,这可能会导致攻击性和/或不准确的语言。我们仍然相信,整个 AI 社区的协作对于负责任地开发 AI 技术至关重要。”

既然 Meta 已经发布了用于开源研究的 MMS,它希望它能够扭转技术将世界语言减少到 100 种或更少的趋势,而这些语言是 Big Tech 最常支持的。它看到了一个辅助技术、TTS 甚至 VR/AR 技术让每个人都能用母语说话和学习的世界。它说,“我们设想一个技术具有相反效果的世界,鼓励人们保持他们的语言的活力,因为他们可以通过说他们喜欢的语言来获取信息和使用技术。”