首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

DeepSeek究竟創(chuàng)新了什么?

2025年2月24日 07:14  《財經(jīng)》雜志  

DeepSeek春節(jié)前夕爆火,迄今熱度不減。DeepSeek徹底走開源路線,它的大模型既性能優(yōu)異,訓練成本和使用成本又都超低,讓人工智能從業(yè)者燃起了“我也能行”的希望,讓各行各業(yè)燃起了“趕緊把人工智能用起來吧”的熱情。

伴隨著這些振奮人心的消息,也有一些真假難辨的說法同時在流傳,例如DeepSeek顛覆了人工智能的發(fā)展方向,DeepSeek的水平已經(jīng)超過人工智能行業(yè)的領頭羊OpenAI;或者,DeepSeek是個巨大泡沫,它只是“蒸餾”了OpenAI的模型。

為搞清楚這些說法,這些天我研讀了很多資料,也請教了一些專家,對DeepSeek究竟創(chuàng)新了什么、能否持續(xù)創(chuàng)新有了初步答案。

先說第一個問題的結論:DeepSeek的大模型采用了更加高效的模型架構方法、訓練框架和算法,是巨大的工程創(chuàng)新,但不是從0到1的顛覆式創(chuàng)新。DeepSeek并未改變?nèi)斯ぶ悄苄袠I(yè)的發(fā)展方向,但大大加快了人工智能的發(fā)展速度。

為何會得出這個結論?我們需要先了解人工智能技術的發(fā)展脈絡。

人工智能簡史

人工智能發(fā)端于上世紀40年代,已經(jīng)發(fā)展了近80年,奠基人是英國計算機科學家艾倫·圖林(Alan Turing)。以他的名字命名的圖林獎是計算機科學界的諾貝爾獎。

如今,主導人工智能行業(yè)的是大模型技術,主導應用是生成式AI——生成語義、語音、圖像、視頻。無論DeepSeek系列,還是OpenAI的GPT系列,還是豆包、Kimi、通義千問、文心一言,都屬于大模型家族。

大模型的理論基礎是神經(jīng)網(wǎng)絡,這是一種試圖讓計算機摹仿人腦來工作的理論,該理論和人工智能同時發(fā)端,但頭40年都不是主流。20世紀80年代中后期,多層感知機模型和反向傳播算法得到完善,神經(jīng)網(wǎng)絡理論才有了用武之地。多人對此作出關鍵貢獻,其中最為我們熟知的是去年獲得諾貝爾物理學獎的杰弗里・辛頓(Geoffrey Hinton),他擁有英國和加拿大雙重國籍。

神經(jīng)網(wǎng)絡理論后來發(fā)展為深度學習理論,關鍵貢獻者除了被譽為“深度學習之父”的杰弗里・辛頓,還有法國人楊·勒昆(Yann LeCun,中文名楊立昆)、德國人尤爾根・施密德胡伯(jürgen schmidhuber)。他們分別提出或完善了三種模型架構方法:深度信念網(wǎng)絡(DBN,2006)、卷積神經(jīng)網(wǎng)絡(CNN,1998)、循環(huán)神經(jīng)網(wǎng)絡(RNN,1997),讓基于多層神經(jīng)網(wǎng)絡的機器深度學習得以實現(xiàn)。

但到此為止,都是小模型時代,DBN和RNN的參數(shù)量通常是幾萬到幾百萬,CNN參數(shù)量最大,也只有幾億。因此只能完成專門任務,比如基于CNN架構的谷歌AlphaGo,打敗了頂尖人類圍棋手柯潔和李世石,但它除了下圍棋啥也不會。

2014年,開發(fā)AlphaGo的谷歌DeepMind團隊首次提出“注意力機制”。同年底,蒙特利爾大學教授約書亞·本吉奧(Yoshua Bengio)和他的兩名博士生發(fā)表更詳盡的論文,這是神經(jīng)網(wǎng)絡理論的重大進步,極大增強了建模能力、提高了計算效率、讓大規(guī)模處理復雜任務得以實現(xiàn)。

約書亞·本吉奧、楊·勒昆、杰弗里・辛頓一起獲得了2019年的圖林獎。

2017年,谷歌提出完全基于注意力機制的Transformer架構,開啟大模型時代。迄今,包括DeepSeek在內(nèi)的主流大模型都采用該架構。強化學習理論(Reinforcement Learning,RL)、混合專家模型(Mixture of Experts,MOE,又譯稀疏模型)也是大模型的關鍵支撐,相關理論均在上世紀90年代提出,21世紀10年代后期由谷歌率先用于產(chǎn)品開發(fā)。

順便澄清一個普遍誤解,MOE并不是和Transformer并列的另一種模型架構方法,而是一種用來優(yōu)化Transformer架構的方法。

今天的主流大模型,參數(shù)量已達萬億級,DeepSeek V3是6710億。如此大的模型,對算力的需求驚人,而英偉達的GPU芯片正好提供了算力支持,英偉達在AI芯片領域的壟斷地位,既讓它成為全球市值最高的公司,也讓它成為中國AI公司的痛點。

谷歌在大模型時代一路領先,但這幾年站在風口上的并不是谷歌,而是2015年才成立的OpenAI,它的各類大模型一直被視為業(yè)界頂流,被各路追趕者用來對標。這說明在人工智能領域,看似無可撼動的巨頭,其實并非無法挑戰(zhàn)。人工智能技術雖然發(fā)展了80年,但真正加速也就最近十幾年,進入爆發(fā)期也就最近兩三年,后來者始終有機會。DeepSeek公司2023年7月才成立,它的母體幻方量化成立于2016年2月,也比OpenAI年輕。人工智能就是一個英雄出少年的行業(yè)。

開發(fā)出能像人一樣自主思考、自主學習、自主解決新問題的通用人工智能系統(tǒng)(Artificial General Intelligence,AGI),是AI業(yè)界的終極目標,無論奧特曼還是梁文峰,都把這個作為自己的使命。他們都選擇了大模型方向,這是業(yè)界的主流方向。

沿著大模型方向,要花多久才能實現(xiàn)AGI?樂觀的預測是3-5年,保守的預測是5-10年。也就是說,業(yè)界認為最遲到2035年,AGI就可實現(xiàn)。

大模型的競爭至關重要,大模型是各行各業(yè)人工智能應用的最上游,它就像人的大腦,大腦指揮四肢,大腦的質(zhì)量決定整個人的學習、工作、生活質(zhì)量。

當然,大模型并非通往AGI的唯一路徑。正如上世紀90年代后“深度學習-大模型”路線顛覆了人工智能頭幾十年的“規(guī)則系統(tǒng)-專家系統(tǒng)”路線,“深度學習-大模型”路線也有可能被顛覆,只是我們現(xiàn)在還看不到誰會是顛覆者。

DeepSeek創(chuàng)新了什么?

如今,DeepSeek又成了挑戰(zhàn)者,它真的已經(jīng)超越OpenAI了嗎?并非如此。DeepSeek在局部超過了OpenAI的水平,但整體而言OpenAI仍然領先。

先來看雙方的基礎大模型,OpenAI是2024年5月發(fā)布的GPT4-o,DeepSeek是2024年12月26日發(fā)布的V3。斯坦福大學基礎模型研究中心有個全球大模型綜合排名,最新排名是今年1月10日,一共六個指標,各指標得分加總后,DeepSeek V3總分4.835,名列第一;GPT4-o(5月版)總分4.567,僅列第六。第二到第五名都是美國模型,第二名是Claude 3.5 Sonnet,總分4.819,開發(fā)這個模型的Anthropic公司2021年2月才成立。

推理模型是大模型的新發(fā)展方向,因為它的思維模式更像人,前面說了,開發(fā)出能像人一樣自主思考、自主學習、自主解決新問題的通用人工智能是AI業(yè)界的終極目標。

2024年9月12 日,OpenAI發(fā)布世界上第一款推理大模型獵戶座1號(orion1 ,o1),o1在解決數(shù)學、編程和科學問題上的能力提升驚人,但OpenAI走閉源路線,不公布技術原理,更別提技術細節(jié)。一時間,如何復刻o1,成為全世界AI從業(yè)者的追求。

僅僅四個月后,今年1月20日,DeepSeek發(fā)布世界第二款推理大模型R1,名字樸實無華,R就是推理(Reasoning)的縮寫。測評結果顯示,DeepSeek-R1與OpenAI-o1水平相當。但OpenAI 2024年12月20日推出了升級版o3,性能大大超過o1。目前還沒有R1和o3的直接測評對比數(shù)據(jù)。

多模態(tài)也是大模型的重要發(fā)展方向——既能生成語義(寫代碼也屬于語義),也能生成語音、圖像、視頻,其中視頻生成最難,消耗的計算資源最多。DeepSeek 2024年10月發(fā)布首個多模態(tài)模型Janus,今年1月28日發(fā)布其升級版Janus-Pro-7B,其圖像生成能力在測試中表現(xiàn)優(yōu)異,但視頻能力如何尚無從知曉。GPT-4是多模態(tài)模型但不能生成視頻,不過OpenAI擁有專門的視頻生成模型Sora。

把模型做小做精,少消耗計算資源是另一個業(yè)界趨勢,混合專家模型的設計思路就是這個目的,推理模型也能減少通用大模型的驚人消耗。在這方面,DeepSeek的表現(xiàn)明顯比OpenAI優(yōu)異,這些天最被人津津樂道的就是DeepSeek的模型訓練成本只有OpenAI的1/10,使用成本只有1/30。DeepSeek能夠做到如此高的性價比,是因為它的模型里面有杰出的工程創(chuàng)新,不是單點創(chuàng)新,而是密集創(chuàng)新,每一個環(huán)節(jié)都有杰出創(chuàng)新。這里僅舉三例。

★模型架構環(huán)節(jié):大為優(yōu)化的Transformer + MOE組合架構。

前面說過,這兩個技術都是谷歌率先提出并采用的,但DeepSeek用它們設計自己的模型時做了巨大優(yōu)化,并且首次在模型中引入多頭潛在注意力機制(Multi-head Latent Attention,MLA),從而大大降低了算力和存儲資源的消耗。

★模型訓練環(huán)節(jié):FP8混合精度訓練框架。

傳統(tǒng)上,大模型訓練使用32位浮點數(shù)(FP32)格式來做計算和存儲,這能保證精度,但計算速度慢、存儲空間占用大。如何在計算成本和計算精度之間求得平衡,一直是業(yè)界難題。2022年,英偉達、Arm和英特爾一起,最早提出8位浮點數(shù)格式(FP8),但因為美國公司不缺算力,該技術淺嘗輒止。DeepSeek則構建了FP8 混合精度訓練框架,根據(jù)不同的計算任務和數(shù)據(jù)特點,動態(tài)選擇FP8或 FP32 精度來進行計算,把訓練速度提高了50%,內(nèi)存占用降低了40%。

★算法環(huán)節(jié):新的強化學習算法GRPO。

強化學習的目的是讓計算機在沒有明確人類編程指令的情況下自主學習、自主完成任務,是通往通用人工智能的重要方法。強化學習起初由谷歌引領,訓練AlphaGo時就使用了強化學習算法,但是OpenAI后來居上,2015年和2017年接連推出兩種新算法TRPO(Trust Region Policy Optimization,信任區(qū)域策略優(yōu)化)和PPO (Proximal Policy Optimization,近端策略優(yōu)化),DeepSeek更上層樓,推出新的強化學習算法GRPO( Group Relative Policy Optimization 組相對策略優(yōu)化),在顯著降低計算成本的同時,還提高了模型的訓練效率。

(GRPO算法公式。Source:DeepSeek-R1論文)

看到這里,對于“DeepSeek只是‘蒸餾’了OpenAI模型”的說法,你肯定已經(jīng)有了自己的判斷。但是,DeepSeek的創(chuàng)新是從0到1的顛覆式創(chuàng)新嗎?

顯然不是。顛覆式創(chuàng)新是指那種開辟了全新賽道,或導致既有賽道徹底轉向的創(chuàng)新。比如,汽車的發(fā)明顛覆了交通行業(yè),導致馬車行業(yè)消失;智能手機取代功能手機,雖沒有讓手機行業(yè)消失,但徹底改變了手機的發(fā)展方向。

回顧人工智能簡史,我們清楚看到,DeepSeek是沿著業(yè)界的主流方向前進,他們做了許多杰出的工程創(chuàng)新,縮短了中美AI的差距,但仍處于追趕狀態(tài)。白宮人工智能顧問大衛(wèi)·薩克斯(David Sacks)評價說:DeepSeek-R1讓中美的差距從6-12月縮短到3-6個月。

薩克斯說的是模型性能,但更加意義非凡的是性價比——訓練成本1/10、使用成本1/30,這讓尖端AI技術飛入尋常百姓家成為現(xiàn)實。最近兩周,各行各業(yè)的領頭羊紛紛接入DeepSeek大模型,部署本行業(yè)的應用,擁抱AI的熱情前所未有。

但我必須再次提醒,大模型技術進步很快,不能對階段性成果過于樂觀。同時大模型在人工智能生態(tài)中處于最上游,是所有下游應用的依托,因此基礎大模型的質(zhì)量決定了各行各業(yè)人工智能應用的質(zhì)量。

DeepSeek能否持續(xù)創(chuàng)新?

在DeepSeek的刺激下,薩姆·奧特曼(Sam Altman)2月13日透露了OpenAI 的發(fā)展計劃:未來幾周內(nèi)將發(fā)布GPT-4.5,未來幾個月內(nèi)發(fā)布GPT-5。GPT-5將整合推理模型o3的功能,是一個包含語義、語音、可視化圖像創(chuàng)作、搜索、深度研究等多種功能的多模態(tài)系統(tǒng)。奧特曼說,今后用戶不用再在一大堆模型中做選擇,GPT-5 將完成所有任務,實現(xiàn)“魔法般的統(tǒng)一智能”。果如所言,GPT-5離通用人工智能就又進了一步。

從用戶角度,一個模型解決所有需求肯定大為方便,就像早年手機只能打電話,你出門還得帶銀行卡、購物卡、交通卡等一大堆東西,現(xiàn)在一部智能手機全搞定。但全搞定的同時,所需要的計算資源也會高得驚人,iPhone16的算力是當年功能機的幾千萬倍。奇跡在于,我們使用iPhone16的成本反而比使用諾基亞8210的成本更低。希望這樣的奇跡也能發(fā)生在人工智能行業(yè)。

除了OpenAI,美國還有眾多頂尖人工智能公司,他們的水平差距不大。從前面講到的那個斯坦福大學排名就能看出來,總分第一名和第十名的分差只有0.335,平均到每個指標差距不到0.06。并且各種測評榜的排名雖是重要參考,但不等于實際能力的高下。對DeepSeek而言,不僅OpenAI,Anthropic、谷歌、Meta、xAI也都是強勁對手。2月18日,xAI發(fā)布了馬斯克自稱“地球最強AI”的大模型Grok-3。這個模型用了超過10萬塊H100芯片來訓練,把大模型的scaling law(規(guī)模法則,計算和數(shù)據(jù)資源投入越多模型效果越好)推向極致,但也讓scaling law的邊際效益遞減暴露無遺。

當然,中國也不是DeepSeek一家在戰(zhàn)斗,中國也有眾多優(yōu)秀人工智能公司。事實上,這些年來全球人工智能一直是中美雙峰并峙,只是美國那座峰更高一些。

盡管如此,我對梁文峰和DeepSeek團隊仍有信心。從梁文峰為數(shù)不多的采訪中可以看出,他是一個既充滿理想主義,又腳踏實地、有敏銳商業(yè)頭腦的人。他自己肯定懂技術,但應該不是技術天才,他有可能是喬布斯、馬斯克那樣能把技術天才聚集在一起做出偉大產(chǎn)品的技術型企業(yè)家。

梁文峰在接受《暗涌》專訪時說:“我們的核心技術崗位,基本以應屆和畢業(yè)一兩年的人為主。我們選人的標準一直都是熱愛和好奇心。招人時確保價值觀一致,然后通過企業(yè)文化來確保步調(diào)一致!

“最重要的是參與到全球創(chuàng)新的浪潮里去。過去三十多年IT浪潮里,我們基本沒有參與到真正的技術創(chuàng)新里。大部分中國公司習慣follow(追隨),而不是創(chuàng)新。中國AI和美國真正的gap(差距)是原創(chuàng)和模仿。如果這個不改變,中國永遠只能是追隨者。”

“創(chuàng)新首先是一個信念問題。為什么硅谷那么有創(chuàng)新精神?首先是敢。我們在做最難的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題!

喬布斯有句名言:只有瘋狂到認為自己可以改變世界的人才能改變世界。從梁文峰身上,我看到了這句話的影子。

但是,我們對中國AI超越美國千萬不能盲目樂觀,DeepSeek并沒有顛覆算力算法數(shù)據(jù)三要素的大模型發(fā)展路徑,DeepSeek的很多創(chuàng)新都是因為芯片受限而不得不為,比如英偉達H100的通信帶寬是每秒900GB,H800就只有每秒400GB,但DeepSeek只能用H800來訓練模型。

這些天我看了大量太平洋兩岸對DeepSeek的評論,“necessity is the mother of invention(迫不得已是創(chuàng)新之母)”,這句源自古希臘的諺語被不同的牛人說了好幾次。但是反過來想,DeepSeek能與OpenAI的同款產(chǎn)品打成平手,靠的是用逼出來的算法優(yōu)勢彌補算力劣勢,可對手已被點醒,如果他們開發(fā)出同樣好的算法,再加上更好的芯片,那中美大模型的差距是否會再次擴大?

另一方面,雖然DeepSeek已可適配國產(chǎn)芯片,但考慮到性能差距,算力劣勢短期內(nèi)無解。除非我們能再現(xiàn)電動車反轉燃油車的場面,實現(xiàn)換道超車。比如,用量子芯片替代硅基芯片。

陷入這種思考真是一個悲劇——技術創(chuàng)新本應造福全人類,卻被地緣政治因素扭曲。所以,我們更應該為DeepSeek堅決走開源路線而鼓掌。

編 輯:高靖宇
飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權和其它問題,請在相關作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
vivo胡柏山:手機行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
低空經(jīng)濟2025:助力中國經(jīng)濟騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應商評選活動
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉載、摘編、復制、鏡像