精品一久久香蕉,无码喷水一区二区浪潮AV,免费观看国产午夜激AV

轉(zhuǎn)自：北京商報(bào)

AI圖像生成領(lǐng)域傳來了新進(jìn)展。當(dāng)?shù)貢r(shí)間3月25日，OpenAI在直播中對(duì)GPT-4o和Sora進(jìn)行更新，并宣布其最新一代多模態(tài)模型GPT-4o正式集成“迄今為止最先進(jìn)的圖像生成器”，并開放免費(fèi)使用。這一動(dòng)作被業(yè)界視為對(duì)同日凌晨Google發(fā)布的Gemini 2.5 Pro Experimental模型的直接狙擊。兩大巨頭的同日“對(duì)壘”，標(biāo)志著生成式AI競(jìng)賽進(jìn)入白熱化階段。

攻克“生成圖像中的文字”難題

據(jù)OpenAI介紹，GPT-4o圖像生成功能擅長(zhǎng)準(zhǔn)確呈現(xiàn)文本，并精準(zhǔn)遵循提示詞，該功能還會(huì)將GPT-4o的知識(shí)庫(kù)和聊天上下文作為靈感來源，這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質(zhì)量。該功能供ChatGPT Plus、Pro、Team和免費(fèi)用戶使用，并計(jì)劃隨后向企業(yè)、教育和API使用者推出。

在OpenAI的示例中，要求大模型生成一名女子在一個(gè)俯瞰海灣大橋的房間里用筆在白板上寫字，衣服上印有OpenAI字樣，白板映著攝影師的身影，并描述了白板上所寫的文字。GPT-4o生成的圖像都體現(xiàn)了以上要求。隨后，OpenAI要求攝影師走到鏡頭前與女子擊掌，GPT-4o也呈現(xiàn)了這一畫面，且白板上的字不會(huì)變得凌亂，女子的身形和發(fā)型也與前一張圖像呈現(xiàn)的背影一致。

生成圖像中的文字，此前是圖像生成領(lǐng)域的一個(gè)難題。ChatGPT在2022年底上線，最初只能生成和編輯文本，不能生成圖像。大約一年后，OpenAI發(fā)布第三代圖像生成模型DALL-E 3，并集成到ChatGPT，但兩者一直是互相獨(dú)立的系統(tǒng)。國(guó)內(nèi)廠商中，去年豆包升級(jí)文生圖能力，支持一鍵生成指定文本。今年3月，智譜AI發(fā)布了首個(gè)支持生成漢字的開源文生圖模型CogView4。

就如何訓(xùn)練GPT-4o圖像生成功能，OpenAI解釋，OpenAI使用了網(wǎng)絡(luò)上的圖像和文本訓(xùn)練模型，讓模型學(xué)習(xí)圖像與文字、圖像與圖像之間的關(guān)系，使模型具有視覺流暢性，生成的圖片是有用的、具備上下文連貫性的。

就GPT-4o圖像生成功能的特點(diǎn)，OpenAI還表示，用戶可以通過自然對(duì)話與大模型交流，要求大模型改進(jìn)圖像，在這個(gè)過程中圖像中的人物等要素會(huì)保持一致性。使用者與大模型的交流也更順暢，可以同時(shí)要求大模型處理10到20個(gè)不同的對(duì)象，以便圖像中各要素呈現(xiàn)出相關(guān)性。OpenAI對(duì)比其他圖像生成系統(tǒng)時(shí)稱，其他系統(tǒng)只能同時(shí)處理5到8個(gè)對(duì)象。

不過，OpenAI也指出，GPT-4o圖像生成功能也具備一些限制，例如存在幻覺、難以呈現(xiàn)太多依賴知識(shí)庫(kù)的圖像要素（例如元素周期表）、圖表準(zhǔn)確性不足、呈現(xiàn)非拉丁語(yǔ)言時(shí)可能容易出現(xiàn)幻覺、要求修改圖像中的錯(cuò)別字時(shí)難以精準(zhǔn)編輯。

一位從業(yè)者對(duì)北京商報(bào)記者表示，GPT-4o圖像生成確實(shí)強(qiáng)大，但完全替代UI設(shè)計(jì)師還早，創(chuàng)意和細(xì)節(jié)還得靠人�！�88分的設(shè)計(jì)流，剩下12分才是設(shè)計(jì)師的真正價(jià)值�！�

GPT-5路線圖

此次更新GPT-4o的圖像生成功能之后，OpenAI更大的產(chǎn)品更新將是推出GPT-5。今年2月，OpenAI首席執(zhí)行官山姆·奧爾特曼表示，OpenAI將會(huì)在ChatGPT和API服務(wù)中搭載新模型GPT-5，GPT-5將集成公司多項(xiàng)技術(shù)，包括推理模型o3的技術(shù)，GPT-5可能會(huì)在未來幾個(gè)月內(nèi)推出。

相比于之前一直不明確GPT-5的推出節(jié)點(diǎn)，奧爾特曼突然官宣GPT路線圖，或許是因?yàn)镺penAI面臨用戶流失的壓力。奧爾特曼此前表示，DeepSeek讓OpenAI的領(lǐng)先優(yōu)勢(shì)不會(huì)像前幾年那么大了，并稱個(gè)人認(rèn)為在開源權(quán)重模型和研究成果的問題上，OpenAI已經(jīng)站在了歷史的錯(cuò)誤一邊，需要制定不同的開源策略。

此前據(jù)《華爾街日?qǐng)?bào)》報(bào)道，OpenAI內(nèi)部代號(hào)為“獵戶座”（Orion）的GPT-5項(xiàng)目的開發(fā)已持續(xù)近兩年，目前面臨嚴(yán)峻挑戰(zhàn)。按原計(jì)劃，該項(xiàng)目應(yīng)在2024年年中完成，但現(xiàn)在進(jìn)度嚴(yán)重滯后。

OpenAI已經(jīng)進(jìn)行了至少兩次大型訓(xùn)練，每次訓(xùn)練都需要數(shù)月時(shí)間處理大量數(shù)據(jù)，目的是讓“獵戶座”變得更聰明。一位前OpenAI高管表示，如果說GPT-4的表現(xiàn)相當(dāng)于一個(gè)優(yōu)秀高中生，那么GPT-5的目標(biāo)是要在某些任務(wù)上達(dá)到博士水平。然而熟悉該項(xiàng)目的人士表示，“獵戶座”的訓(xùn)練每次都會(huì)出現(xiàn)新問題，軟件也達(dá)不到研究人員的預(yù)期。

東吳證券(7.920,-0.03,-0.38%)發(fā)布研報(bào)稱，判斷OpenAI對(duì)大模型的產(chǎn)品線與預(yù)期曾進(jìn)行過調(diào)整。GPT-5的發(fā)布時(shí)間或提前，或由于DeepSeek近期的重磅更新和亮眼表現(xiàn)對(duì)OpenAI產(chǎn)品版圖構(gòu)成了威脅，進(jìn)而希望加快產(chǎn)品迭代步伐。

外部競(jìng)爭(zhēng)

困擾OpenAI的不只是數(shù)據(jù)和成本，外部競(jìng)爭(zhēng)同樣關(guān)鍵。就在OpenAI宣布更新的大約一小時(shí)前，谷歌正式推出了旗下新一代人工智能模型Gemini 2.5。該模型基于多模態(tài)大語(yǔ)言框架升級(jí)，顯著增強(qiáng)了推理能力、多語(yǔ)言支持及長(zhǎng)文本處理能力。

谷歌將Gemini 2.5定義為公司迄今為止“最智能的AI模型”，Gemini 2.5 Pro實(shí)驗(yàn)版本在多項(xiàng)基準(zhǔn)測(cè)試中全面超越OpenAI o3-mini、Claude3.7 Sonnet、Grok-3和DeepSeek-R1。據(jù)官方介紹，Gemini 2.5通過優(yōu)化算法架構(gòu)，將響應(yīng)速度提升40%，能耗降低25%。在關(guān)鍵指標(biāo)測(cè)試中，其復(fù)雜邏輯任務(wù)完成度較前代提升65%，尤其在醫(yī)療診斷輔助、法律文書生成等垂直領(lǐng)域展現(xiàn)出更高精度。

Gemini 2.5 Pro支持文本、圖像、音頻、視頻及代碼的多模態(tài)輸入，上下文窗口達(dá)100萬token（約75萬單詞），可解析完整《指環(huán)王》系列文本，未來將升級(jí)至200萬token。谷歌表示，“推理”能力不僅僅指分類和預(yù)測(cè)，而是指系統(tǒng)分析信息、得出邏輯結(jié)論、融入上下文和細(xì)微差別，以及做出明智決策的能力。

該模型一經(jīng)發(fā)布，便在各大基準(zhǔn)測(cè)試上全面“屠榜”，在所有測(cè)試中都穩(wěn)居第一名的位置，包括常見的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試。在推理能力方面，Gemini 2.5 Pro在一系列需要高級(jí)推理的基準(zhǔn)測(cè)試中都處于領(lǐng)先地位。在“人類的最后考試”中（一個(gè)由數(shù)百名學(xué)科專家設(shè)計(jì)的數(shù)據(jù)集，旨在捕捉人類知識(shí)和推理的前沿），它在未使用工具的模型中也獲得了18.8%的最高分?jǐn)?shù)，這是目前最先進(jìn)的成績(jī)。

谷歌Deepmind首席技術(shù)官Koray Kavukcuoglu在博客中寫道：“現(xiàn)在，通過Gemini 2.5，我們結(jié)合了顯著增強(qiáng)的基礎(chǔ)模型和改進(jìn)后的后續(xù)訓(xùn)練，實(shí)現(xiàn)了全新的性能水平。未來，我們將把這種思維能力直接構(gòu)建到我們所有的模型中，使其能夠處理更復(fù)雜的問題，并支持更強(qiáng)大、更具情境感知能力的智能體�！�

研究機(jī)構(gòu)Gartner預(yù)測(cè)，到2026年，多模態(tài)生成模型的商業(yè)價(jià)值將占AI市場(chǎng)的45%。隨著谷歌與微軟等巨頭持續(xù)加碼，生成式AI正從通用工具向產(chǎn)業(yè)基礎(chǔ)設(shè)施演變，但其社會(huì)倫理、監(jiān)管框架的完善也有待各方共同探索。

北京商報(bào)記者趙天舒

文生圖功能升級(jí) ChatGPT追擊