首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 終端 >> 正文

蘋(píng)果另辟蹊徑:利用“歸一化流”技術(shù)打造 AI 生圖模型

2025年6月24日 09:07  IT之家  作 者:漾仔

業(yè)界通常使用擴(kuò)散模型或自回歸模型來(lái)研發(fā) AI 生圖模型,蘋(píng)果公司近期發(fā)布的論文顯示該公司正在選擇一條被“遺忘”的歸一化流(Normalizing Flows)技術(shù)路線研發(fā)相應(yīng)模型。

據(jù)介紹,這一“歸一化流”技術(shù)是一種通過(guò)學(xué)習(xí)數(shù)學(xué)變換的方式,將真實(shí)世界的數(shù)據(jù)(如圖像)轉(zhuǎn)換成結(jié)構(gòu)化噪聲,并再將噪聲還原為圖像樣本的生成模型。其最大優(yōu)勢(shì)是能夠精確計(jì)算生成圖像的概率,這是擴(kuò)散模型無(wú)法做到的。這一特性使得歸一化流在對(duì)概率要求較高的任務(wù)中具有獨(dú)特吸引力。不過(guò)此類模型并不常見(jiàn),原因在于其研發(fā)成本更高,同時(shí)早期采用相應(yīng)技術(shù)生成的模型往往相對(duì)模糊、缺乏細(xì)節(jié)。

參考蘋(píng)果公司《Normalizing Flows are Capable Generative Models》論文,其推出一種名為 TarFlow(Transformer AutoRegressive Flow)的新型歸一化流技術(shù)模型,該模型的核心思路是將一張待生成的大圖拆成“小區(qū)塊”,再以相應(yīng)區(qū)塊為單位進(jìn)行生成一系列像素值,每一塊圖像像素值的生成都依賴于前面已生成的部分,繼而形成完整的圖像,因此能夠有效避免圖像被壓縮為固定詞匯表時(shí)產(chǎn)生的質(zhì)量損失與表現(xiàn)僵化的問(wèn)題。

當(dāng)然,TarFlow 在生成高分辨率圖像方面仍存在局限,這就引出了第二篇研究《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。

參考這篇論文,蘋(píng)果在 TarFlow 的基礎(chǔ)上進(jìn)一步提出了增強(qiáng)版本:STARFlow(Scalable Transformer AutoRegressive Flow)

該模型最大的改進(jìn)在于,它不再直接在像素層面生成圖像,而是在“潛空間”(latent space)中工作,首先生成圖像的壓縮表示,再通過(guò)解碼器進(jìn)行放大還原。因此模型可無(wú)須再預(yù)測(cè)數(shù)百萬(wàn)個(gè)像素值,而是先處理圖像的大體結(jié)構(gòu),細(xì)節(jié)部分留給解碼器進(jìn)行補(bǔ)充,從而在不損失質(zhì)量的前提下提升生成效率。

此外,STARFlow 還改進(jìn)了對(duì)文本提示的處理方式。它不再內(nèi)建專用文本編碼器,而是支持調(diào)用現(xiàn)有語(yǔ)言模型(例如谷歌推出的小語(yǔ)言模型 Gemma,理論上可以直接在設(shè)備上運(yùn)行)來(lái)處理用戶的語(yǔ)言指令。這樣一來(lái),模型的圖像生成部分可以專注于圖像細(xì)節(jié)的生成與優(yōu)化。 

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
韋樂(lè)平:大模型時(shí)代將開(kāi)啟新一波“光進(jìn)銅退”
精彩視頻
2025MWC上海丨中興通訊副總裁熊杰就AI萬(wàn)兆全光園區(qū)話題進(jìn)行交流
2025MWC上海|中國(guó)信科:全棧算力創(chuàng)新應(yīng)用 為AI時(shí)代構(gòu)筑數(shù)智基石
2025MWC上海丨智能加速度 中興通訊展臺(tái)直擊
2025MWC上海|京信通信:AI賦能5G-A 重構(gòu)連接的價(jià)值
精彩專題
2025 MWC 上海
2025工業(yè)互聯(lián)網(wǎng)大會(huì)
2025世界電信和信息社會(huì)日大會(huì)
第八屆數(shù)字中國(guó)建設(shè)峰會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像