罗永浩谈东方甄选风波

小米开源 OmniVoice 多语言语音克隆 TTS，号称一个模型搞定 600 余种语言_蜘蛛资讯网

向华强女儿说向太拿烟头烫她

目前同类主流模型，同时，训练和推理速度极具优势，一天完成 10 万小时训练，用 PyTorch 推理就可以达到 40 倍实时，轻松适配各类应用场景。在这种实力的背后，是两项“关键设计”：一是通过全码本随机掩蔽策略，显著提升模型的训练效率，进而全面提升模型能力；二是引入大语言模型作为模型的预训练参数，首次在非自回归 TTS 模型中有效利用大语言模型，让语音合成的可懂度大幅提升，解决“读不准”的问题。

文章来源：澎湃新闻）

模型。官方表示，该模型在低资源小语种上具备极强的泛化能力，你想得到的所有语种几乎都可以用 OmniVoice 来合成。OmniVoice“最亮眼的突破”是其极简的模型架构。它仅用一个双向 Transformer 网络，就能直接实现文本到语音的转化，省去了多余的结构和环节：没有文本的单独建模，没有复杂的混合结构，也没有多层级的 token 预测，是目前最简单的非自回归 TTS 模型。OmniVoic

当前文章：http://p0tylf.ceqialuo.cn/0fmx/1pac.doc

发布时间：10:14:29

上一篇：天塞酒庄多款产品亮相糖酒会
下一篇：AI PCB，史上最大扩产潮

蜘蛛资讯网相关内容