首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

OpenAI推出GPT4.5研究預(yù)覽版 情商更高、幻覺更少 Altman:下周再增數(shù)萬GPU

2025年2月28日 09:42  華爾街見聞  

OpenAI周四在System Card報告中推出OpenAI GPT-4.5的研究預(yù)覽版,這是其迄今最大、知識最豐富的模型,現(xiàn)已向每月訂閱費用200美元的ChatGPT Pro訂閱用戶開放。

下周,該模型也將向每月20美元的ChatGPT Plus訂閱用戶開放。OpenAI首席執(zhí)行官Altman表示,屆時該公司將增加數(shù)萬塊GPU,提供算力支撐。

情商更高、幻覺更少

OpenAI表示,在GPT-4o的基礎(chǔ)上,GPT-4.5進一步擴展了預(yù)訓(xùn)練,并被設(shè)計成比其強大的stem推理模型更通用。早期測試表明,與GPT-4.5互動感覺更自然。它擁有更廣泛的知識庫,更符合用戶意圖,情商更高,因此非常適合寫作、編程和解決實際問題等任務(wù),而且幻覺更少。

例如,在面對“我考試失敗了,心情很低落”這樣的輸入時,OpenAI 之前的模型會立即嘗試解決問題。而新模型 GPT-4.5 會先詢問用戶是否想聊聊這個問題,還是需要一些分散注意力的方法。研究人員認為,這種回應(yīng)顯示出更高的情感智能。

在早期測試中,該模型的“幻覺率”——即AI系統(tǒng)生成不準確信息的概率——為37%,相比之下,其前代模型GPT-4o的幻覺率接近60%。OpenAI在博客中表示,

成本太高 Altman:下周再增數(shù)萬GPU 支撐算力

GPT-4.5最初將作為“研究預(yù)覽版”,提供給一小部分軟件開發(fā)者以及支付每月200美元訂閱費用的ChatGPT Pro用戶。該公司計劃從首批試用者那里收集反饋。

OpenAI首席執(zhí)行官Altman也在X平臺發(fā)文說,將在下周正式發(fā)布GPT-4.5的時候增加數(shù)萬塊GPU:

OpenAI在2022年底推出ChatGPT,引發(fā)了生成式AI的狂熱潮流,該工具最初基于GPT-3.5模型運行。自那以來,該公司陸續(xù)發(fā)布了一系列日益先進的系統(tǒng),包括多個模擬人類推理過程的選項。但OpenAI如今正面臨來自中國新興企業(yè)DeepSeek、馬斯克旗下的xAI以及Anthropic等競爭對手的激烈競爭,這些公司近幾周都相繼推出了新的AI模型。周一,Anthropic發(fā)布了Claude 3.7 Sonnet,而在上周,馬斯克旗下的xAI也推出了最新模型Grok 3。

吹牛吹過頭?基準測試部分表現(xiàn)不如DeepSeek、Anthropic及o系列模型

在GPT-4.5之前,每一代GPT模型的擴展都會帶來跨數(shù)學(xué)、寫作和編程等多個領(lǐng)域的巨大性能提升。然而,從多個跡象來看,單純依賴數(shù)據(jù)和計算能力的擴展所帶來的收益正在逐步減少。在多個AI基準測試中,GPT-4.5的表現(xiàn)不及DeepSeek、Anthropic以及OpenAI自身開發(fā)的新一代推理模型。

OpenAI研究副總裁Nick Ryder向媒體表示,他預(yù)計GPT-4.5的能力提升幅度將與GPT-3.5升級至GPT-4時的變化相當,而GPT-4是在2023年初發(fā)布的。OpenAI強調(diào),GPT-4.5不是GPT-4o的直接替代品,后者仍然是公司API和ChatGPT平臺的主力模型。

從性能上看,GPT-4.5在多個方面超過了GPT-4o及其他許多AI模型。例如,在OpenAI的SimpleQA基準測試(該測試考察 AI 在處理簡單、事實性問題時的準確度)中,GPT-4.5的表現(xiàn)優(yōu)于GPT-4o和OpenAI的推理模型o1、o3-mini。

然而,OpenAI并未公布其最先進的AI推理模型deep research在SimpleQA測試中的表現(xiàn)。OpenAI發(fā)言人告訴媒體,公司尚未公開deep research在該基準測試中的得分,并表示這一對比不具備參考價值。值得注意的是,AI初創(chuàng)公司Perplexity的Deep Research模型在此測試中的表現(xiàn)優(yōu)于GPT-4.5。

在編程能力方面,GPT-4.5在SWE-Bench Verified基準測試(測試AI在編程問題上的能力)上與GPT-4o和o3-mini表現(xiàn)相當,但遜色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在SWE-Lancer編程測試(衡量AI生成完整軟件功能的能力)上,GPT-4.5超過了GPT-4o和o3-mini,但仍不及deep research。

在一些學(xué)術(shù)基準測試(如AIME和 GPQA)上,GPT-4.5的表現(xiàn)不及領(lǐng)先的AI推理模型,如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技術(shù)上屬于混合模型)。不過,在數(shù)學(xué)和科學(xué)相關(guān)問題上,GPT-4.5的表現(xiàn)仍然處于領(lǐng)先水平,與其他非推理模型相比表現(xiàn)更優(yōu)。

打造過程充滿挑戰(zhàn)

打造GPT-4.5的過程充滿挑戰(zhàn)。彭博新聞此前報道稱,該模型在公司內(nèi)部被稱為“Orion”,但在去年未能達到OpenAI設(shè)定的性能基準。例如,截至去年夏天,Orion在回答其未受訓(xùn)練的編程問題時表現(xiàn)不佳。據(jù)知情人士向媒體透露,OpenAI和其他開發(fā)人員面臨的一個關(guān)鍵問題是如何找到新的、高質(zhì)量的訓(xùn)練數(shù)據(jù)來源,以開發(fā)更先進的AI系統(tǒng)。

對此,GPT-4.5采用了與其前代模型(包括 GPT-4、GPT-3、GPT-2 和 GPT-1)相同的核心技術(shù),即在“預(yù)訓(xùn)練”階段大幅增加計算能力和數(shù)據(jù)量的“無監(jiān)督學(xué)習(xí)”方法。在這一過程中,系統(tǒng)會結(jié)合人類反饋來優(yōu)化回答內(nèi)容,并調(diào)整模型與用戶互動的語氣等。此外,該公司還想出了一些新方法,利用從GPT-4.0訓(xùn)練數(shù)據(jù)中提取的信息來進一步訓(xùn)練GPT-4.5。OpenAI研究副總裁Mia Glaese表示,這一方法有助于改進模型的整體表現(xiàn)。

分析認為,GPT-4.5的發(fā)布標志著OpenAI時代的一個轉(zhuǎn)折點。本月早些時候,Altman在X平臺發(fā)文稱,這將是公司推出的最后一個不依賴額外計算能力來“思考”查詢后再回答的模型。OpenAI已在一些較新的模型(如o1和o3)中采用了這一推理方法。

未來,OpenAI計劃在今年晚些時候發(fā)布GPT-5,將把GPT系列模型與o系列模型結(jié)合,構(gòu)建能夠自主判斷需要思考多久再生成回答的AI系統(tǒng)。Altman表示,這一目標是為了簡化用戶體驗,讓用戶不必在越來越復(fù)雜的選項列表中進行選擇。

目前,OpenAI正在與軟銀(28.21, 0.00, 0.00%)(SoftBank)及其他投資者洽談融資,計劃籌集高達400億美元,使其估值達到3000億美元(包括新融資在內(nèi))。與此同時,Anthropic也在進行一輪約35億美元的融資,估值超過600億美元,兩位知情人士向媒體透露。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
低空經(jīng)濟2025:助力中國經(jīng)濟騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評選活動
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像