必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會展特約記者

單卡RTX 4090可運(yùn)行 、96 FPS,Soul App開源實(shí)時(shí)數(shù)字人生成模型SoulX-FlashHead

2026年2月24日 13:38CCTIME飛象網(wǎng)

在實(shí)時(shí)數(shù)字人賽道,開發(fā)者們曾長期面臨一個(gè)困擾:追求高畫質(zhì)就需要具備昂貴的 H800 集群,追求低成本就得忍受“面癱”和畫面崩壞。

為解決這一問題,繼開源 14B 的實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk 之后,近日,Soul App AI團(tuán)隊(duì)(Soul AI Lab)推出了SoulX-FlashHead。這款1.3B參數(shù)的輕量化模型,能夠在單張消費(fèi)級顯卡( RTX 4090 )上跑出96FPS的工業(yè)級速度,同時(shí)實(shí)現(xiàn)高質(zhì)量畫質(zhì),為行業(yè)提供新的實(shí)時(shí)數(shù)字人方案。

目前,SoulX-FlashHead 的權(quán)重與代碼已全面開放:

論文:https://www.arxiv.org/pdf/2602.07449

項(xiàng)目:https://soul-ailab.github.io/soulx-flashhead/

代碼:https://github.com/Soul-AILab/SoulX-FlashHead

模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B

數(shù)據(jù)集:https://huggingface.co/datasets/Soul-AILab/VividHead

SoulX-FlashHead核心亮點(diǎn):

不僅是實(shí)時(shí),更是“算力自由”

在消費(fèi)級顯卡上,SoulX-FlashHead 的表現(xiàn):

·Lite版本(高速率):單卡4090推理幀率可達(dá)96FPS,僅需6.4G顯存,最高支持3路并發(fā),讓實(shí)時(shí)數(shù)字人模型真正走到了消費(fèi)級終端上。

·Pro版本(高畫質(zhì)):單卡5090推理幀率16.8FPS,雙卡可實(shí)時(shí)(25fps+),FID(視覺質(zhì)量指標(biāo))和Lip-sync(唇形一致指標(biāo))在benchmark上達(dá)到了SOTA,甚至超過了更大參數(shù)量的模型,解決了“小模型沒好畫質(zhì)”的行業(yè)痛點(diǎn)。

原理介紹

如何讓 1.3B 模型“以小博大”?SoulX-FlashHead創(chuàng)新引入了:

訓(xùn)練“先知”:雙向蒸餾機(jī)制 (Oracle-Guided Distillation)

長視頻生成的“身份漂移”一直是行業(yè)痛點(diǎn)。SoulX-FlashHead引入了“上帝視角”教師模型,利用 Ground Truth 作為先知錨點(diǎn)進(jìn)行強(qiáng)約束。

效果: 像給模型裝了校準(zhǔn)器,無論視頻多長,人物特征始終穩(wěn)定。

8秒記憶:時(shí)序音頻上下文緩存 (TACC)

流式生成中,音頻切片太短會導(dǎo)致口型抖動。

創(chuàng)新: 強(qiáng)制模型緩存 8秒 歷史音頻特征,補(bǔ)償上下文缺失。

體驗(yàn): 解決“嘴瓢”和“對不上號”問題,開播即進(jìn)入理想狀態(tài)。

高質(zhì)量數(shù)據(jù)底座:自研 VividHead 數(shù)據(jù)集

從 10,000+ 小時(shí)素材中精煉出 782 小時(shí)高質(zhì)量音畫數(shù)據(jù):

嚴(yán)苛篩選: 經(jīng)過切分、DWpose 關(guān)鍵點(diǎn)、唇形一致分?jǐn)?shù)過濾等多個(gè)處理步驟,為模型提供了最純凈的“養(yǎng)料”。

客觀表現(xiàn)

在 HDTF 與 VFHQ 兩大權(quán)威數(shù)據(jù)集的實(shí)測中,SoulX-FlashHead 展現(xiàn)了出色的表現(xiàn):

畫質(zhì)新標(biāo)桿:在高清視頻(HDTF)評測中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成績刷新紀(jì)錄,視覺細(xì)膩度超過 一些“大參數(shù)”模型。

口型精準(zhǔn)捕捉:面對野外復(fù)雜場景(VFHQ),憑借獨(dú)創(chuàng)的“時(shí)序音頻上下文緩存”策略,其 Sync-C 得分高達(dá) 5.60,大幅領(lǐng)先此前相關(guān)工作,解決對不上口型的尷尬。

速度“快”:僅憑 1.3B 的輕量化體量,Lite 版本在單張 RTX 4090 上跑出了 96 FPS 的吞吐量。這不僅是實(shí)時(shí)基準(zhǔn)(25 FPS)的 近4倍,推理效率更是行業(yè)同類主流模型的 100倍以上。

應(yīng)用場景:

“人人可用”的數(shù)字人技術(shù)

今年1月,Soul AI Lab開源了實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk,能夠?qū)崿F(xiàn)0.87s亞秒級超低延時(shí)、32FPS高幀率,并支持超長視頻穩(wěn)定生成。

對比SoulX-FlashTalk,SoulX-FlashHead的價(jià)值在于,將高保真技術(shù)進(jìn)一步從“算力機(jī)房”解放到了“個(gè)人工作站”,讓更廣泛的場景應(yīng)用成為可能:

·7x24h矩陣直播:個(gè)人主播用一臺游戲 PC,即可搭建高保真電商直播間。

·游戲NPC引擎:1.3B 體積極易集成,NPC 毫秒級響應(yīng),且不搶占核心渲染資源。

·AI一對一外教:支持 15 種語言,實(shí)時(shí)將音頻轉(zhuǎn)化為生動的教學(xué)畫面。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像