<sup id="fcb1s"></sup>

    1. 成全高清在线播放电视剧,看全黄大色黄大片视频,国产18禁黄网站禁片免费视频,色综合视频一区二区三区,波多野结衣久久一区二区,风韵丰满妇啪啪区老老熟女杏吧,亚洲欧美日本久久网站,亚洲av激情综合在线
      Soul App開源播客語音合成模型SoulX-Podcast,支持流暢自然多輪語音對話

      DoNews10月29日消息,近日,Soul App AI團隊(Soul AI Lab)正式開源播客語音合成模型SoulX-Podcast。該模型是一款專為多人、多輪對話場景打造的語音生成模型,支持中、英、川、粵等多語種/方言與副語言風格,能穩(wěn)定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。

      除了播客場景以外,SoulX-Podcast在通用語音合成或克隆場景下也表現出色,帶來更真實、更生動的語音體驗。

      SoulX-Podcast表現

      SoulX-Podcast亮點:流暢自然多輪對話、多方言、超長播客生成

      • 零樣本克隆的多輪對話能力

      在零樣本克隆播客生成場景中,SoulX-Podcast 展現出卓越的語音生成能力。它不僅能高度還原參考語音的音色與風格,更能根據對話語境靈活調節(jié)韻律與節(jié)奏,讓每一段對話都自然流暢、富有節(jié)奏感。無論是多輪長時對話,還是情感層次豐富的交流,SoulX-Podcast 都能保持聲音的連貫與表達的真實。此外,SoulX-Podcast 還支持笑聲、清嗓等多種副語言元素的可控生成,讓合成語音更具臨場感與表現力。

      • 多語種和跨方言的克隆能力

      除中英文外,SoulX-Podcast 同樣支持四川話、河南話、粵語等多種主流方言。更值得關注的是,SoulX-Podcast 實現了跨方言音色克隆——即便僅提供普通話的參考語音,模型也能靈活生成帶有四川話、河南話、粵語等方言特征的自然語音。

      • 超長播客生成

      SoulX-Podcast可以支持超長播客的生成,并維持穩(wěn)定的音色與風格。

      聚焦語音,AI重構情感紐帶

      一直以來,聲音都是傳遞信息和情感的重要媒介,也最能在溝通中賦予“情緒溫度”和“陪伴感”。在Soul,用戶積極通過語音實時互動,表達自我、分享交流,收獲新關系,語音成為用戶構建鏈接的“情感紐帶”,“語音社交”也成為平臺頗具代表性的標簽之一。

      在推進AI+社交的過程中,智能對話、語音生成、情感化表達等語音能力是Soul重點布局的方向。此前,平臺端到端全雙工語音通話大模型全面升級,并在站內開啟內測。新模型賦予 AI 自主決策對話節(jié)奏的能力,AI可主動打破沉默、適時打斷用戶、邊聽邊說、時間語義感知、并行發(fā)言討論等,實現更接近生活日常的交互對話和“類真人”的情感陪伴體驗。

      同時,團隊推出了自研的語音生成大模型、語音識別大模型、語音對話大模型等語音大模型能力,快速應用于“虛擬伴侶”、 群聊派對(多人語音互動場景)等多元場景中。

      例如,9月,Soul 的兩位虛擬人——孟知時與嶼你——在群聊派對中發(fā)起了一場持續(xù)約40分鐘的對話,在沒有任何額外投流、僅依靠虛擬人自身自然流量的情況下,這場活動迅速引爆社區(qū),房間互動熱度刷新平臺紀錄,受到了廣大用戶的熱烈歡迎。

      這一成功案例讓 Soul 的 AI 技術與虛擬IP運營團隊深刻意識到:“虛擬IP + AI語音對話” 正在成為虛擬內容生態(tài)的重要增長點。它不僅展現了虛擬人的人格魅力與表達張力,更揭示了 AI 在內容創(chuàng)作與社交互動中的全新潛能。

      然而,當時業(yè)界能夠穩(wěn)定支持多輪自然對話的開源播客生成模型相對較少,并且當場景從單人獨白擴展到多人對話與長篇播客時,也普遍面臨一些問題。為此,Soul 團隊決定開源 SoulX-Podcast, 希望能攜手 AIGC 社區(qū),共同探索 AI 語音在內容創(chuàng)作、社交表達與虛擬生態(tài)中的更多可能。

      開源新階段,探索AI+社交更多可能

      相比傳統(tǒng)的單說話人語音合成系統(tǒng),播客語音合成系統(tǒng)不僅需要保持文本與語音的精準一致,還要具備更強的上下文理解能力,以實現多輪對話間語音銜接的自然流暢與節(jié)奏的動態(tài)變化。此外,面對多角色交互和超長對話場景,系統(tǒng)還需在音色一致性、風格延續(xù)性以及角色切換的準確性上實現更高水平的控制與建模。

      近來,已有部分開源研究開始探索播客或對話場景下的多說話人、多輪次語音合成能力。然而,這些工作仍主要聚焦于普通話或英語,對中文受眾廣泛的方言(如粵語、四川話、河南話等)支持不足。此外,在多輪語音對話場景中,恰當的副語言表達——如嘆息、呼吸、笑聲——對提升對話的生動性與自然度至關重要,但現有模型對此普遍關注不足。

      而SoulX-Podcast正是希望解決這些痛點:不僅支持多輪、多角色的長對話生成,同時兼顧方言覆蓋和副語言表達能力,使播客語音更貼近真實交流場景、富有表現力與生動感,從而提升聽眾的沉浸體驗和內容傳播力。

      整體SoulX-Podcast模型基礎結構上采用了常用的LLM + Flow Matching的語音生成范式,前者建模語義token,后者進一步建模聲學特征。在基于LLM的語義token建模方面,SoulX-Podcast 以 Qwen3-1.7B 作為基座模型,并基于原始文本模型參數進行初始化,以充分繼承其語言理解能力。

      盡管SoulX-Podcast是專為多人、多輪對話場景設計的系統(tǒng),但在傳統(tǒng)的單人語音合成與零樣本語音克隆任務中同樣表現優(yōu)異。在播客生成任務中,相較于近期相關工作,SoulX-Podcast 在語音可懂度與音色相似度方面均取得了最佳結果。

      SoulX-Podcast在播客場景下的表現

      SoulX-Podcast在通用TTS上的表現,*官方模型的復現結果

      此次 SoulX-Podcast 的開源,是 Soul 在開源社區(qū)領域的一次全新嘗試,也是一個新的起點。 Soul團隊表示,未來將持續(xù)聚焦語音對話合成、全雙工語音通話、擬人化表達、視覺交互等核心交互能力的提升,并加速技術在多樣化應用場景與整體生態(tài)中的融合落地,為用戶帶來更加沉浸、智能且富有溫度的交互體驗,持續(xù)提升個體的幸福感與歸屬感。同時,團隊將進一步深化開源生態(tài)建設,與全球開發(fā)者攜手,共同拓展 AI 語音等前沿能力的邊界,探索 “AI +社交” 的更多可能。

      Soul App開源播客語音合成模型SoulX-Podcast,支持流暢自然多輪語音對話
      掃描二維碼查看原文
      分享自DoNews
      Copyright ? DoNews 2000-2025 All Rights Reserved
      蜀ICP備2024059877號-1
      主站蜘蛛池模板: 青草青草久热精品视频在线观看| 亚洲成av人片无码迅雷下载| 自拍偷拍一区二区三区四| 99热国产成人最新精品| 四虎精品视频永久免费| 在线永久看片免费的视频| 国产午夜影视大全免费观看| 欧洲美熟女乱又伦免费视频| 亚洲第一福利网站在线观看| 日韩秘 无码一区二区三区| 亚洲国产成人久久精品软件| 大地资源中文第三页| 国产精品日韩专区第一页| 高清自拍亚洲精品二区| 一本大道久久香蕉成人网| 亚洲丰满熟女一区二区蜜桃| 亚洲综合一区二区国产精品 | 国产国语一级毛片| 人人妻人人澡人人爽不卡视频| 欧洲精品色在线观看| 亚洲中文字幕一区二区| 丰满少妇被猛烈进出69影院| 精品无码国产一区二区三区51安| 九九热免费精品在线视频| 国产精品成人久久电影| 中国猛少妇色xxxxx| 精品一日韩美女性夜视频| 大地资源中文第二页日本| 亚洲综合天堂av网站在线观看| 亚洲精品成人片在线观看精品字幕 | 四虎国产精品免费久久| 亚洲产国偷v产偷v自拍色戒| 噜噜综合亚洲av中文无码| 波多野结衣av无码| 亚洲av网一区天堂福利| 亚洲人成网网址在线看| 精品国产一区二区色老头| 色视频在线观看免费视频| 精品无码国产不卡在线观看| 午夜福利国产区在线观看| 韩国无码av片在线观看|