必讀視頻專(zhuān)題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車(chē)智慧城市會(huì)展特約記者

Soul App開(kāi)源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk:0.87s亞秒級(jí)延時(shí),32fps超長(zhǎng)視頻生成

2026年2月3日 11:33CCTIME飛象網(wǎng)

近期,Soul App AI團(tuán)隊(duì)(Soul AI Lab)已開(kāi)源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk 。這是首個(gè)能夠?qū)崿F(xiàn)0.87s亞秒級(jí)超低延時(shí)、32fps高幀率,并支持超長(zhǎng)視頻穩(wěn)定生成的14B數(shù)字人模型。

在持續(xù)建設(shè)AI能力的過(guò)程中,Soul團(tuán)隊(duì)始終致力于通過(guò)技術(shù)創(chuàng)新實(shí)現(xiàn)更沉浸、多元的交互體驗(yàn)。此次開(kāi)源新模型,除了在速度、效果、延遲和保真度上表現(xiàn)出色,更重要的是,為行業(yè)提供了切實(shí)可應(yīng)用的業(yè)務(wù)解決方案,推動(dòng)大參數(shù)量實(shí)時(shí)生成式數(shù)字人邁入可具體商用落地階段。

Project Page: https://soul-ailab.github.io/soulx-flashtalk/

Technical Report: https://arxiv.org/pdf/2512.23379

Source Code: https://github.com/Soul-AILab/SoulX-FlashTalk

HuggingFace:https://huggingface.co/Soul-AILab/SoulX-FlashTalk-14B

SoulX-FlashTalk亮點(diǎn):

四大關(guān)鍵指標(biāo),重塑實(shí)時(shí)互動(dòng)體驗(yàn)

0.87s 亞秒級(jí)延時(shí),即時(shí)交互

在實(shí)時(shí)視頻交互中,延遲是決定用戶體驗(yàn)的核心。SoulX-FlashTalk 憑借全棧加速引擎的極致優(yōu)化,成功將首幀視頻輸出的延時(shí)降至0.87s亞秒級(jí)。

•“零延遲”即時(shí)反饋: 首次讓 14B 級(jí)大模型數(shù)字人具備了即時(shí)反應(yīng)能力,徹底消除了傳統(tǒng)大模型生成的“滯后感”。

•全場(chǎng)景交互: 無(wú)論是視頻通話中的即時(shí)對(duì)答、直播間彈幕的秒級(jí)互動(dòng),還是智能客服的實(shí)時(shí)響應(yīng),均能實(shí)現(xiàn)自然、流暢的深度對(duì)話。

32fps 高幀率,重新定義“流暢”

盡管搭載了 14B 參數(shù)量的超大 DiT 模型,SoulX-FlashTalk 的推理吞吐量仍高達(dá) 32 FPS。

•超越行業(yè)標(biāo)準(zhǔn):遠(yuǎn)超直播所需的 25 FPS 實(shí)時(shí)標(biāo)準(zhǔn),確保每一幀畫(huà)面都絲滑順暢。

•大模型,高性能:證明了 140 億參數(shù)大模型在經(jīng)過(guò)深度加速優(yōu)化后,依然可以擁有極佳的運(yùn)行效率。

超長(zhǎng)視頻穩(wěn)定清晰生成,告別畫(huà)面“崩壞”

數(shù)字人視頻最怕在生成中出現(xiàn)人物面部不一致或顯著畫(huà)質(zhì)下降的問(wèn)題。SoulX-FlashTalk 憑借獨(dú)家的自糾正雙向蒸餾技術(shù),解決了這一痛點(diǎn):

•無(wú)感糾錯(cuò),畫(huà)質(zhì)無(wú)損:引入多步回溯自糾正機(jī)制,模擬長(zhǎng)序列生成的誤差傳播并進(jìn)行實(shí)時(shí)修正,就像為 AI 裝上了“實(shí)時(shí)校準(zhǔn)器”,主動(dòng)恢復(fù)受損特征。

•超長(zhǎng)視頻,穩(wěn)定生成: 不同于傳統(tǒng)的單向依賴,SoulX-FlashTalk 完全保留了雙向注意力機(jī)制,讓每一幀生成都能同時(shí)參考過(guò)去與隱含的未來(lái)上下文,從根本上壓制身份漂移,這意味著在超長(zhǎng)直播中,主播的口型、面部細(xì)節(jié)和背景環(huán)境將始終保持一致,不會(huì)出現(xiàn)模糊或變形。

全身動(dòng)作交互:不只是“口型對(duì)齊”

SoulX-FlashTalk 突破了傳統(tǒng)數(shù)字人僅能實(shí)現(xiàn)面部“對(duì)口型”的局限,帶來(lái)了更加真實(shí)自然的全身肢體動(dòng)態(tài)表現(xiàn)。

•全身肢體動(dòng)態(tài)合成: 不同于僅對(duì)臉部進(jìn)行局部重繪的方案,SoulX-FlashTalk 支持受音頻驅(qū)動(dòng)的全身動(dòng)作生成,產(chǎn)生真實(shí)自然的人體動(dòng)態(tài)。

•高精細(xì)手部表現(xiàn): 基于14B DiT的強(qiáng)大建模能力,系統(tǒng)能夠有效消除手部畸形與運(yùn)動(dòng)模糊,精準(zhǔn)呈現(xiàn)結(jié)構(gòu)清晰、紋理銳利的手部動(dòng)作細(xì)節(jié)。

•靈動(dòng)而不失穩(wěn)定: 在追求大幅度動(dòng)態(tài)表現(xiàn)力的同時(shí),系統(tǒng)依然維持了極高的身份一致性(Subject-C 達(dá) 99.22),實(shí)現(xiàn)了動(dòng)作靈活性與畫(huà)面穩(wěn)定性的完美平衡。

核心方案:

雙向蒸餾+多步回溯自糾正機(jī)制

在行業(yè)中,傳統(tǒng)數(shù)字人生成方案大多面臨畫(huà)面生成時(shí)間長(zhǎng)、延遲高、生成效果差、效果不穩(wěn)定、保真度低等問(wèn)題。

在這樣的背景下,SoulX-FlashTalk正式開(kāi)源,為了平衡生成質(zhì)量與推理速度,團(tuán)隊(duì)采用了兩階段訓(xùn)練策略:

第一階段:延遲感知時(shí)空適配 (Latency-Aware Spatiotemporal Adaptation),結(jié)合動(dòng)態(tài)長(zhǎng)寬比分桶策略進(jìn)行微調(diào),使模型適應(yīng)較低的分辨率和更短的幀序列;

第二階段:自糾正雙向蒸餾 (Self-Correcting Bidirectional Distillation)。利用 DMD 框架壓縮采樣步數(shù)并移除無(wú)分類(lèi)器引導(dǎo)(CFG),實(shí)現(xiàn)加速;多步回溯自糾正機(jī)制,通過(guò) autoregressively 合成連續(xù)分塊(最多 K個(gè)chunks),顯式模擬長(zhǎng)視頻生成的誤差傳播;隨機(jī)截?cái)嗖呗?在訓(xùn)練中在第 k(< K)個(gè)分塊數(shù)進(jìn)行反向傳播,實(shí)現(xiàn)高效且無(wú)偏的顯存友好優(yōu)化。

訓(xùn)練流程示意圖

同時(shí),團(tuán)隊(duì)進(jìn)行實(shí)時(shí)推理加速系統(tǒng)優(yōu)化, 針對(duì) 8-H800 節(jié)點(diǎn)設(shè)計(jì)的全棧加速引擎實(shí)現(xiàn)了亞秒級(jí)延遲,包括了

•混合序列并行 (Hybrid Sequence Parallelism):整合 Ulysses 和 Ring Attention,使單步推理速度提升約5倍算子級(jí)優(yōu)化:采用針對(duì)Hopper架構(gòu)優(yōu)化的FlashAttention3,通過(guò)異步執(zhí)行進(jìn)一步減少 20% 的延遲。

•3D VAE 并行化:引入空間切片并行解碼策略,實(shí)現(xiàn)VAE處理的5倍加速。

•整鏈優(yōu)化:通過(guò) torch.compile 實(shí)現(xiàn)全流程圖融合與內(nèi)存優(yōu)化。

值得注意的是,在Soul AI團(tuán)隊(duì)發(fā)布的技術(shù)報(bào)告中指出,傳統(tǒng)的單向(Unidirectional)模型在處理全局時(shí)間結(jié)構(gòu)時(shí)存在約束,容易導(dǎo)致時(shí)間不一致和身份漂移。因此,團(tuán)隊(duì)完全保留雙向注意力機(jī)制(All-to-All 交互),使模型能同時(shí)利用過(guò)去與隱含的未來(lái)上下文,顯著提升了生成的一致性與細(xì)節(jié)質(zhì)量。

SoulX-FlashTalk推理架構(gòu)流程圖

AI+實(shí)時(shí)體驗(yàn)

賦能行業(yè)多元業(yè)務(wù)場(chǎng)景

從模型表現(xiàn)來(lái)看,通過(guò)在 TalkBench-Short 和 TalkBench-Long 數(shù)據(jù)集上的定量對(duì)比,展示了SoulX-FlashTalk在視覺(jué)質(zhì)量、同步精度及生成速度上的全面領(lǐng)先:

在短視頻評(píng)測(cè)中,它以3.51的ASE和4.79的IQA刷新了視覺(jué)保真度記錄,并以1.47的Sync-C分?jǐn)?shù)表現(xiàn)出最優(yōu)的口型同步精準(zhǔn)度;在5分鐘以上的長(zhǎng)視頻生成中,系統(tǒng)憑借雙向蒸餾策略有效抑制了同步漂移,取得了1.61的Sync-C優(yōu)異成績(jī);此外,作為14B參數(shù)規(guī)模的大模型,它在長(zhǎng)短視頻任務(wù)中均維持了32 FPS 的高吞吐量,不僅遠(yuǎn)超25 FPS的實(shí)時(shí)性基準(zhǔn),更在推理效率上顯著優(yōu)于行業(yè)同類(lèi)主流模型。

依托模型優(yōu)越的性能表現(xiàn),開(kāi)源后,SoulX-FlashTalk將有機(jī)會(huì)在多領(lǐng)域、行業(yè)實(shí)際落地,創(chuàng)造更多價(jià)值。例如,在電商領(lǐng)域打造7×24小時(shí)AI直播間,特別是,此前傳統(tǒng)的數(shù)字人直播長(zhǎng)時(shí)間運(yùn)行后常會(huì)出現(xiàn)嘴型對(duì)不上或畫(huà)質(zhì)模糊的問(wèn)題,而SoulX-FlashTalk可以支持全天候的流暢視頻直播,即便是在高強(qiáng)度的實(shí)時(shí)互動(dòng)中(如回復(fù)彈幕),也能保持如同真人出鏡的高保真畫(huà)質(zhì),極大降低直播成本。

此外,在短視頻制作、AI教育、多元互動(dòng)場(chǎng)景NPC交互、AI客服等方向,模型也提供了高質(zhì)量、可落地、可接入業(yè)務(wù)系統(tǒng)的解決方案。

對(duì)Soul而言,SoulX-FlashTalk的發(fā)布也意味著團(tuán)隊(duì)進(jìn)入了開(kāi)源新階段。去年10月底,Soul AI團(tuán)隊(duì)開(kāi)源語(yǔ)音合成模型SoulX-Podcast,在發(fā)布后快速登頂開(kāi)源社區(qū)平臺(tái)HuggingFace TTS(Text To Speech)趨勢(shì)榜,目前該模型在GitHub上收獲了超3100星標(biāo)。

接下來(lái),在聚焦語(yǔ)音對(duì)話合成、視覺(jué)交互等核心交互能力的提升,為用戶帶來(lái)更加沉浸、智能且富有溫度的交互體驗(yàn)的過(guò)程中,以持續(xù)推進(jìn)開(kāi)源工作為契機(jī),Soul將積極與全球開(kāi)發(fā)者攜手,共建生態(tài),為推動(dòng)“ AI +社交”方向前沿能力建設(shè)貢獻(xiàn)力量。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專(zhuān)題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像