亚洲VA中文字幕无码视频,亚洲精品影院在线观看,亚洲中文人妻无码中文

OpenAI周四在System Card報(bào)告中推出OpenAI GPT-4.5的研究預(yù)覽版，這是其迄今最大、知識(shí)最豐富的模型，現(xiàn)已向每月訂閱費(fèi)用200美元的ChatGPT Pro訂閱用戶開放。

下周，該模型也將向每月20美元的ChatGPT Plus訂閱用戶開放。OpenAI首席執(zhí)行官Altman表示，屆時(shí)該公司將增加數(shù)萬(wàn)塊GPU，提供算力支撐。

情商更高、幻覺(jué)更少

OpenAI表示，在GPT-4o的基礎(chǔ)上，GPT-4.5進(jìn)一步擴(kuò)展了預(yù)訓(xùn)練，并被設(shè)計(jì)成比其強(qiáng)大的stem推理模型更通用。早期測(cè)試表明，與GPT-4.5互動(dòng)感覺(jué)更自然。它擁有更廣泛的知識(shí)庫(kù)，更符合用戶意圖，情商更高，因此非常適合寫作、編程和解決實(shí)際問(wèn)題等任務(wù)，而且幻覺(jué)更少。

例如，在面對(duì)“我考試失敗了，心情很低落”這樣的輸入時(shí)，OpenAI 之前的模型會(huì)立即嘗試解決問(wèn)題。而新模型 GPT-4.5 會(huì)先詢問(wèn)用戶是否想聊聊這個(gè)問(wèn)題，還是需要一些分散注意力的方法。研究人員認(rèn)為，這種回應(yīng)顯示出更高的情感智能。

在早期測(cè)試中，該模型的“幻覺(jué)率”——即AI系統(tǒng)生成不準(zhǔn)確信息的概率——為37%，相比之下，其前代模型GPT-4o的幻覺(jué)率接近60%。OpenAI在博客中表示，

成本太高 Altman：下周再增數(shù)萬(wàn)GPU 支撐算力

GPT-4.5最初將作為“研究預(yù)覽版”，提供給一小部分軟件開發(fā)者以及支付每月200美元訂閱費(fèi)用的ChatGPT Pro用戶。該公司計(jì)劃從首批試用者那里收集反饋。

OpenAI首席執(zhí)行官Altman也在X平臺(tái)發(fā)文說(shuō)，將在下周正式發(fā)布GPT-4.5的時(shí)候增加數(shù)萬(wàn)塊GPU：

OpenAI在2022年底推出ChatGPT，引發(fā)了生成式AI的狂熱潮流，該工具最初基于GPT-3.5模型運(yùn)行。自那以來(lái)，該公司陸續(xù)發(fā)布了一系列日益先進(jìn)的系統(tǒng)，包括多個(gè)模擬人類推理過(guò)程的選項(xiàng)。但OpenAI如今正面臨來(lái)自中國(guó)新興企業(yè)DeepSeek、馬斯克旗下的xAI以及Anthropic等競(jìng)爭(zhēng)對(duì)手的激烈競(jìng)爭(zhēng)，這些公司近幾周都相繼推出了新的AI模型。周一，Anthropic發(fā)布了Claude 3.7 Sonnet，而在上周，馬斯克旗下的xAI也推出了最新模型Grok 3。

吹牛吹過(guò)頭？基準(zhǔn)測(cè)試部分表現(xiàn)不如DeepSeek、Anthropic及o系列模型

在GPT-4.5之前，每一代GPT模型的擴(kuò)展都會(huì)帶來(lái)跨數(shù)學(xué)、寫作和編程等多個(gè)領(lǐng)域的巨大性能提升。然而，從多個(gè)跡象來(lái)看，單純依賴數(shù)據(jù)和計(jì)算能力的擴(kuò)展所帶來(lái)的收益正在逐步減少。在多個(gè)AI基準(zhǔn)測(cè)試中，GPT-4.5的表現(xiàn)不及DeepSeek、Anthropic以及OpenAI自身開發(fā)的新一代推理模型。

OpenAI研究副總裁Nick Ryder向媒體表示，他預(yù)計(jì)GPT-4.5的能力提升幅度將與GPT-3.5升級(jí)至GPT-4時(shí)的變化相當(dāng)，而GPT-4是在2023年初發(fā)布的。OpenAI強(qiáng)調(diào)，GPT-4.5不是GPT-4o的直接替代品，后者仍然是公司API和ChatGPT平臺(tái)的主力模型。

從性能上看，GPT-4.5在多個(gè)方面超過(guò)了GPT-4o及其他許多AI模型。例如，在OpenAI的SimpleQA基準(zhǔn)測(cè)試（該測(cè)試考察 AI 在處理簡(jiǎn)單、事實(shí)性問(wèn)題時(shí)的準(zhǔn)確度）中，GPT-4.5的表現(xiàn)優(yōu)于GPT-4o和OpenAI的推理模型o1、o3-mini。

然而，OpenAI并未公布其最先進(jìn)的AI推理模型deep research在SimpleQA測(cè)試中的表現(xiàn)。OpenAI發(fā)言人告訴媒體，公司尚未公開deep research在該基準(zhǔn)測(cè)試中的得分，并表示這一對(duì)比不具備參考價(jià)值。值得注意的是，AI初創(chuàng)公司Perplexity的Deep Research模型在此測(cè)試中的表現(xiàn)優(yōu)于GPT-4.5。

在編程能力方面，GPT-4.5在SWE-Bench Verified基準(zhǔn)測(cè)試（測(cè)試AI在編程問(wèn)題上的能力）上與GPT-4o和o3-mini表現(xiàn)相當(dāng)，但遜色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在SWE-Lancer編程測(cè)試（衡量AI生成完整軟件功能的能力）上，GPT-4.5超過(guò)了GPT-4o和o3-mini，但仍不及deep research。

在一些學(xué)術(shù)基準(zhǔn)測(cè)試（如AIME和 GPQA）上，GPT-4.5的表現(xiàn)不及領(lǐng)先的AI推理模型，如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet（技術(shù)上屬于混合模型）。不過(guò)，在數(shù)學(xué)和科學(xué)相關(guān)問(wèn)題上，GPT-4.5的表現(xiàn)仍然處于領(lǐng)先水平，與其他非推理模型相比表現(xiàn)更優(yōu)。

打造過(guò)程充滿挑戰(zhàn)

打造GPT-4.5的過(guò)程充滿挑戰(zhàn)。彭博新聞此前報(bào)道稱，該模型在公司內(nèi)部被稱為“Orion”，但在去年未能達(dá)到OpenAI設(shè)定的性能基準(zhǔn)。例如，截至去年夏天，Orion在回答其未受訓(xùn)練的編程問(wèn)題時(shí)表現(xiàn)不佳。據(jù)知情人士向媒體透露，OpenAI和其他開發(fā)人員面臨的一個(gè)關(guān)鍵問(wèn)題是如何找到新的、高質(zhì)量的訓(xùn)練數(shù)據(jù)來(lái)源，以開發(fā)更先進(jìn)的AI系統(tǒng)。

對(duì)此，GPT-4.5采用了與其前代模型（包括 GPT-4、GPT-3、GPT-2 和 GPT-1）相同的核心技術(shù)，即在“預(yù)訓(xùn)練”階段大幅增加計(jì)算能力和數(shù)據(jù)量的“無(wú)監(jiān)督學(xué)習(xí)”方法。在這一過(guò)程中，系統(tǒng)會(huì)結(jié)合人類反饋來(lái)優(yōu)化回答內(nèi)容，并調(diào)整模型與用戶互動(dòng)的語(yǔ)氣等。此外，該公司還想出了一些新方法，利用從GPT-4.0訓(xùn)練數(shù)據(jù)中提取的信息來(lái)進(jìn)一步訓(xùn)練GPT-4.5。OpenAI研究副總裁Mia Glaese表示，這一方法有助于改進(jìn)模型的整體表現(xiàn)。

分析認(rèn)為，GPT-4.5的發(fā)布標(biāo)志著OpenAI時(shí)代的一個(gè)轉(zhuǎn)折點(diǎn)。本月早些時(shí)候，Altman在X平臺(tái)發(fā)文稱，這將是公司推出的最后一個(gè)不依賴額外計(jì)算能力來(lái)“思考”查詢后再回答的模型。OpenAI已在一些較新的模型（如o1和o3）中采用了這一推理方法。

未來(lái)，OpenAI計(jì)劃在今年晚些時(shí)候發(fā)布GPT-5，將把GPT系列模型與o系列模型結(jié)合，構(gòu)建能夠自主判斷需要思考多久再生成回答的AI系統(tǒng)。Altman表示，這一目標(biāo)是為了簡(jiǎn)化用戶體驗(yàn)，讓用戶不必在越來(lái)越復(fù)雜的選項(xiàng)列表中進(jìn)行選擇。

目前，OpenAI正在與軟銀(28.21, 0.00, 0.00%)（SoftBank）及其他投資者洽談融資，計(jì)劃籌集高達(dá)400億美元，使其估值達(dá)到3000億美元（包括新融資在內(nèi)）。與此同時(shí)，Anthropic也在進(jìn)行一輪約35億美元的融資，估值超過(guò)600億美元，兩位知情人士向媒體透露。

OpenAI推出GPT4.5研究預(yù)覽版 情商更高、幻覺(jué)更少 Altman：下周再增數(shù)萬(wàn)GPU

OpenAI推出GPT4.5研究預(yù)覽版情商更高、幻覺(jué)更少 Altman：下周再增數(shù)萬(wàn)GPU