AI开源程序AI音频工具

VALL-EX

一个开源的多语言文本到语音合成与语音克隆模型

标签:
其他站点:Demo
1AiBox AI社群

VALL-EX是一个开源的多语言文本到语音合成与语音克隆模型。
该模型支持多种语言(英语、中文和日语)和零样本语音克隆,你只需要提供一个人短短几秒钟的录音(3-10秒),就能模仿出那个人的声音。此外,它还具有语音情感控制和口音控制等高级功能。
同时相对于其他模型,它更轻量、更快速!

VALL-EX最初由微软发布。但并未发布任何代码或预训练模型。作者认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。

VALL-EX模型具有以下显著的功能特点:

  • 多语言 TTS(文本到语音合成): 支持英语、中文和日语,能进行自然和富有表现力的语音合成。
  • 零样本语音克隆: 只需录制说话人短短的 3~10 秒录音,即可生成个性化、高质量的语音。
  • 语音情感控制: 能合成与给定说话人录音相同情感的语音。
  • 零样本跨语言语音合成: 可以合成与给定说话人母语不同的另一种语言的语音。
  • 口音控制: 允许用户控制所合成音频的口音。
  • 声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,模型可以保留该声学环境。

VALL-E X 模型还采用了GPT风格的自回归模型和EnCodec解码器,以实现高效和高质量的多语言文本到语音合成。
这意味着模型会考虑到之前生成的音频片段来生成接下来的音频。
这种结构使模型在计算资源和时间方面更加经济,同时也能生成高质量的中文和日文语音。

相关导航