首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 頭條資訊 >> 正文

文生圖功能升級 ChatGPT追擊

2025年3月27日 08:16  北京商報  

轉(zhuǎn)自:北京商報

AI圖像生成領(lǐng)域傳來了新進展。當?shù)貢r間3月25日,OpenAI在直播中對GPT-4o和Sora進行更新,并宣布其最新一代多模態(tài)模型GPT-4o正式集成“迄今為止最先進的圖像生成器”,并開放免費使用。這一動作被業(yè)界視為對同日凌晨Google發(fā)布的Gemini 2.5 Pro Experimental模型的直接狙擊。兩大巨頭的同日“對壘”,標志著生成式AI競賽進入白熱化階段。

攻克“生成圖像中的文字”難題

據(jù)OpenAI介紹,GPT-4o圖像生成功能擅長準確呈現(xiàn)文本,并精準遵循提示詞,該功能還會將GPT-4o的知識庫和聊天上下文作為靈感來源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、Pro、Team和免費用戶使用,并計劃隨后向企業(yè)、教育和API使用者推出。

在OpenAI的示例中,要求大模型生成一名女子在一個俯瞰海灣大橋的房間里用筆在白板上寫字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現(xiàn)了這一畫面,且白板上的字不會變得凌亂,女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。

生成圖像中的文字,此前是圖像生成領(lǐng)域的一個難題。ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發(fā)布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨立的系統(tǒng)。國內(nèi)廠商中,去年豆包升級文生圖能力,支持一鍵生成指定文本。今年3月,智譜AI發(fā)布了首個支持生成漢字的開源文生圖模型CogView4。

就如何訓(xùn)練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型,讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系,使模型具有視覺流暢性,生成的圖片是有用的、具備上下文連貫性的。

就GPT-4o圖像生成功能的特點,OpenAI還表示,用戶可以通過自然對話與大模型交流,要求大模型改進圖像,在這個過程中圖像中的人物等要素會保持一致性。使用者與大模型的交流也更順暢,可以同時要求大模型處理10到20個不同的對象,以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對比其他圖像生成系統(tǒng)時稱,其他系統(tǒng)只能同時處理5到8個對象。

不過,OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺、難以呈現(xiàn)太多依賴知識庫的圖像要素(例如元素周期表)、圖表準確性不足、呈現(xiàn)非拉丁語言時可能容易出現(xiàn)幻覺、要求修改圖像中的錯別字時難以精準編輯。

一位從業(yè)者對北京商報記者表示,GPT-4o圖像生成確實強大,但完全替代UI設(shè)計師還早,創(chuàng)意和細節(jié)還得靠人!88分的設(shè)計流,剩下12分才是設(shè)計師的真正價值!

GPT-5路線圖

此次更新GPT-4o的圖像生成功能之后,OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會在ChatGPT和API服務(wù)中搭載新模型GPT-5,GPT-5將集成公司多項技術(shù),包括推理模型o3的技術(shù),GPT-5可能會在未來幾個月內(nèi)推出。

相比于之前一直不明確GPT-5的推出節(jié)點,奧爾特曼突然官宣GPT路線圖,或許是因為OpenAI面臨用戶流失的壓力。奧爾特曼此前表示,DeepSeek讓OpenAI的領(lǐng)先優(yōu)勢不會像前幾年那么大了,并稱個人認為在開源權(quán)重模型和研究成果的問題上,OpenAI已經(jīng)站在了歷史的錯誤一邊,需要制定不同的開源策略。

此前據(jù)《華爾街日報》報道,OpenAI內(nèi)部代號為“獵戶座”(Orion)的GPT-5項目的開發(fā)已持續(xù)近兩年,目前面臨嚴峻挑戰(zhàn)。按原計劃,該項目應(yīng)在2024年年中完成,但現(xiàn)在進度嚴重滯后。

OpenAI已經(jīng)進行了至少兩次大型訓(xùn)練,每次訓(xùn)練都需要數(shù)月時間處理大量數(shù)據(jù),目的是讓“獵戶座”變得更聰明。一位前OpenAI高管表示,如果說GPT-4的表現(xiàn)相當于一個優(yōu)秀高中生,那么GPT-5的目標是要在某些任務(wù)上達到博士水平。然而熟悉該項目的人士表示,“獵戶座”的訓(xùn)練每次都會出現(xiàn)新問題,軟件也達不到研究人員的預(yù)期。

東吳證券(7.920,-0.03,-0.38%)發(fā)布研報稱,判斷OpenAI對大模型的產(chǎn)品線與預(yù)期曾進行過調(diào)整。GPT-5的發(fā)布時間或提前,或由于DeepSeek近期的重磅更新和亮眼表現(xiàn)對OpenAI產(chǎn)品版圖構(gòu)成了威脅,進而希望加快產(chǎn)品迭代步伐。

外部競爭

困擾OpenAI的不只是數(shù)據(jù)和成本,外部競爭同樣關(guān)鍵。就在OpenAI宣布更新的大約一小時前,谷歌正式推出了旗下新一代人工智能模型Gemini 2.5。該模型基于多模態(tài)大語言框架升級,顯著增強了推理能力、多語言支持及長文本處理能力。

谷歌將Gemini 2.5定義為公司迄今為止“最智能的AI模型”,Gemini 2.5 Pro實驗版本在多項基準測試中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。據(jù)官方介紹,Gemini 2.5通過優(yōu)化算法架構(gòu),將響應(yīng)速度提升40%,能耗降低25%。在關(guān)鍵指標測試中,其復(fù)雜邏輯任務(wù)完成度較前代提升65%,尤其在醫(yī)療診斷輔助、法律文書生成等垂直領(lǐng)域展現(xiàn)出更高精度。

Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態(tài)輸入,上下文窗口達100萬token(約75萬單詞),可解析完整《指環(huán)王》系列文本,未來將升級至200萬token。谷歌表示,“推理”能力不僅僅指分類和預(yù)測,而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細微差別,以及做出明智決策的能力。

該模型一經(jīng)發(fā)布,便在各大基準測試上全面“屠榜”,在所有測試中都穩(wěn)居第一名的位置,包括常見的編程、數(shù)學(xué)和科學(xué)基準測試。在推理能力方面,Gemini 2.5 Pro在一系列需要高級推理的基準測試中都處于領(lǐng)先地位。在“人類的最后考試”中(一個由數(shù)百名學(xué)科專家設(shè)計的數(shù)據(jù)集,旨在捕捉人類知識和推理的前沿),它在未使用工具的模型中也獲得了18.8%的最高分數(shù),這是目前最先進的成績。

谷歌Deepmind首席技術(shù)官Koray Kavukcuoglu在博客中寫道:“現(xiàn)在,通過Gemini 2.5,我們結(jié)合了顯著增強的基礎(chǔ)模型和改進后的后續(xù)訓(xùn)練,實現(xiàn)了全新的性能水平。未來,我們將把這種思維能力直接構(gòu)建到我們所有的模型中,使其能夠處理更復(fù)雜的問題,并支持更強大、更具情境感知能力的智能體。”

研究機構(gòu)Gartner預(yù)測,到2026年,多模態(tài)生成模型的商業(yè)價值將占AI市場的45%。隨著谷歌與微軟等巨頭持續(xù)加碼,生成式AI正從通用工具向產(chǎn)業(yè)基礎(chǔ)設(shè)施演變,但其社會倫理、監(jiān)管框架的完善也有待各方共同探索。

北京商報記者 趙天舒

編 輯:魏德齡
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中興通訊董事長李自學(xué):算力筑基、 AI 啟智,共迎數(shù)智化新紀元
精彩專題
3·15權(quán)益日 | 共筑滿意消費 守護信息通信安全防線
聚焦2025全國兩會
2025年世界移動通信大會
低空經(jīng)濟2025:助力中國經(jīng)濟騰飛,成就高質(zhì)量發(fā)展
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像