您当前的位置 :三板富> 推荐 > 正文
Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话
2025-10-30 10:07:51 来源:北青网 编辑:news2020

近日,Soul App AI团队(Soul AI Lab)正式开源播客语音合成模型SoulX-Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。


【资料图】

除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语音体验。

SoulX-Podcast表现

Demo Page:

https://soul-ailab.github.io/soulx-podcast

Technical Report:

https://arxiv.org/pdf/2510.23541

Source Code: https://github.com/Soul-AILab/SoulX-Podcast

HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast

SoulX-Podcast亮点:流畅自然多轮对话、多方言、超长播客生成

零样本克隆的多轮对话能力

在零样本克隆播客生成场景中,SoulX-Podcast 展现出卓越的语音生成能力。它不仅能高度还原参考语音的音色与风格,更能根据对话语境灵活调节韵律与节奏,让每一段对话都自然流畅、富有节奏感。无论是多轮长时对话,还是情感层次丰富的交流,SoulX-Podcast 都能保持声音的连贯与表达的真实。此外,SoulX-Podcast 还支持笑声、清嗓等多种副语言元素的可控生成,让合成语音更具临场感与表现力。

多语种和跨方言的克隆能力

除中英文外,SoulX-Podcast 同样支持四川话、河南话、粤语等多种主流方言。更值得关注的是,SoulX-Podcast 实现了跨方言音色克隆——即便仅提供普通话的参考语音,模型也能灵活生成带有四川话、河南话、粤语等方言特征的自然语音。

标签: 消费导报网 24小时资讯

版权和免责申明

凡注有"三板富 | 专注于新三板的第一垂直服务平台"或电头为"三板富 | 专注于新三板的第一垂直服务平台"的稿件,均为三板富 | 专注于新三板的第一垂直服务平台独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"三板富 | 专注于新三板的第一垂直服务平台",并保留"三板富 | 专注于新三板的第一垂直服务平台"的电头。

最新热点

精彩推送

 

Copyright © 1999-2020 www.3bf.cc All Rights Reserved 关于我们
三板富投资网  版权所有 沪ICP备2020036824号-16联系邮箱:562 66 29@qq.com