罗永浩谈东方甄选风波

小米开源 OmniVoice 多语言语音克隆 TTS,号称一个模型搞定 600 余种语言_蜘蛛资讯网

向华强女儿说向太拿烟头烫她

目前同类主流模型,同时,训练和推理速度极具优势,一天完成 10 万小时训练,用 PyTorch 推理就可以达到 40 倍实时,轻松适配各类应用场景。在这种实力的背后,是两项“关键设计”:一是通过全码本随机掩蔽策略,显著提升模型的训练效率,进而全面提升模型能力;二是引入大语言模型作为模型的预训练参数,首次在非自回归 TTS 模型中有效利用大语言模型,让语音合成的可懂度大幅提升,解决“读不准”的问题。

文章来源:澎湃新闻)

模型。官方表示,该模型在低资源小语种上具备极强的泛化能力,你想得到的所有语种几乎都可以用 OmniVoice 来合成。OmniVoice“最亮眼的突破”是其极简的模型架构。它仅用一个双向 Transformer 网络,就能直接实现文本到语音的转化,省去了多余的结构和环节:没有文本的单独建模,没有复杂的混合结构,也没有多层级的 token 预测,是目前最简单的非自回归 TTS 模型。OmniVoic

当前文章:http://p0tylf.ceqialuo.cn/0fmx/1pac.doc

发布时间:10:14:29