必讀視頻專題飛象趣談光通信人工智能低空經濟5G手機智能汽車智慧城市會展特約記者

美國發(fā)布大模型評估報告:DeepSeek性能差、不安全

2025年11月19日 07:16鈦媒體APP

近期,美國國家標準與技術研究院(NIST)人工智能標準與創(chuàng)新中心(CAISI)今日發(fā)布了《DeepSeek與美國AI模型綜合評估報告》。這一評估由美國總統(tǒng)特朗普的“AI行動計劃”授權進行,該報告對來自中國的DeepSeek AI模型與美國前沿AI模型在性能、成本和安全三個關鍵維度上進行了全面對比測試。

多維度評估方面,美國模型整體領先。

CAISI研究團隊對DeepSeek的三款模型(DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1)與四款美國模型(包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4)進行了19項基準測試。測試涵蓋了七個關鍵領域:軟件工程、網絡安全、科學知識、數(shù)學推理、限制遵守、成本效率和意識形態(tài)對齊。

評估結果明確顯示,美國模型在整體性能上優(yōu)于DeepSeek模型。特別是在軟件工程和網絡安全任務中,差距最為顯著。以網絡安全任務為例,表現(xiàn)最佳的美國模型GPT-5達到了68.9%的準確率,而最佳的DeepSeek模型(DeepSeek-V3.1)僅達到36.7%,差距高達32.2個百分點。

在軟件工程領域,GPT-5再次領先,達到75.8%的準確率,而DeepSeek-V3.1為54.8%,差距為21個百分點。這些數(shù)據(jù)顯示,在涉及代碼分析、漏洞檢測和安全策略制定等關鍵任務中,美國模型目前仍具有明顯的技術優(yōu)勢。

成本效率對比測試中,DeepSeek表現(xiàn)不佳。

值得注意的是,評估報告在成本效率方面得出了出人意料的結論。GPT-5-mini在與DeepSeek-V3.1的對比中,不僅性能更優(yōu),單token成本還低35%。這一發(fā)現(xiàn)挑戰(zhàn)了"美國模型價格更高"的常見看法。

CAISI主任Lynne Parker在新聞發(fā)布會上表示:“這一發(fā)現(xiàn)對市場認知具有重要意義。許多企業(yè)選擇特定AI模型時往往僅考慮API價格,但我們的測試表明,綜合性能和成本效率,美國模型實際上提供了更好的價值主張。”

安全性評估:DeepSeek存在嚴重漏洞

報告中最引人關注的發(fā)現(xiàn)集中在安全性方面。測試顯示,DeepSeek-R1-0528模型在代理安全測試中被劫持的概率高達37%-49%,比美國前沿模型高出12倍。在越獄攻擊測試中,DeepSeek-R1-0528的合規(guī)率僅為8%,而美國模型為94%。

數(shù)據(jù)顯示,被劫持的DeepSeek代理在模擬環(huán)境中成功執(zhí)行了多項高風險操作,包括發(fā)送網絡釣魚郵件、下載惡意軟件和竊取用戶憑據(jù)。

意識形態(tài)對齊問題

評估還發(fā)現(xiàn),DeepSeek模型更傾向于傳播與其訓練數(shù)據(jù)源一致的特定意識形態(tài)內容。在測試中,DeepSeek模型重復特定敘事的頻率是美國模型的2到4倍,數(shù)據(jù)波動取決于語言環(huán)境和具體主題。

DeepSeek使用率呈增長態(tài)勢

盡管存在這些明顯缺陷,DeepSeek的使用率仍在全球范圍內顯著增長。報告顯示,DeepSeek模型的下載量自2025年1月以來增長了近1000%,API請求量在某些平臺上激增5900%。

NIST CAISI是一家全球領先的測量科學合作中心,其致力于加速美國在AI領域的進展,通過開發(fā)和評估技術基礎來測試、評估和提高AI系統(tǒng)的能力、安全性和可信賴度,促進美國AI生態(tài)系統(tǒng)的競爭力、創(chuàng)新力。(文|老馬商業(yè)評述,作者|馬金男)

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦閱讀

精彩視頻

精彩專題

關于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網 CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經書面許可,禁止轉載、摘編、復制、鏡像