123,123,123

DeepSeek春節(jié)前夕爆火，迄今熱度不減。DeepSeek徹底走開源路線，它的大模型既性能優(yōu)異，訓(xùn)練成本和使用成本又都超低，讓人工智能從業(yè)者燃起了“我也能行”的希望，讓各行各業(yè)燃起了“趕緊把人工智能用起來吧”的熱情。

伴隨著這些振奮人心的消息，也有一些真假難辨的說法同時在流傳，例如DeepSeek顛覆了人工智能的發(fā)展方向，DeepSeek的水平已經(jīng)超過人工智能行業(yè)的領(lǐng)頭羊OpenAI；或者，DeepSeek是個巨大泡沫，它只是“蒸餾”了OpenAI的模型。

為搞清楚這些說法，這些天我研讀了很多資料，也請教了一些專家，對DeepSeek究竟創(chuàng)新了什么、能否持續(xù)創(chuàng)新有了初步答案。

先說第一個問題的結(jié)論：DeepSeek的大模型采用了更加高效的模型架構(gòu)方法、訓(xùn)練框架和算法，是巨大的工程創(chuàng)新，但不是從0到1的顛覆式創(chuàng)新。DeepSeek并未改變?nèi)斯ぶ悄苄袠I(yè)的發(fā)展方向，但大大加快了人工智能的發(fā)展速度。

為何會得出這個結(jié)論？我們需要先了解人工智能技術(shù)的發(fā)展脈絡(luò)。

人工智能簡史

人工智能發(fā)端于上世紀(jì)40年代，已經(jīng)發(fā)展了近80年，奠基人是英國計算機科學(xué)家艾倫·圖林（Alan Turing）。以他的名字命名的圖林獎是計算機科學(xué)界的諾貝爾獎。

如今，主導(dǎo)人工智能行業(yè)的是大模型技術(shù)，主導(dǎo)應(yīng)用是生成式AI——生成語義、語音、圖像、視頻。無論DeepSeek系列，還是OpenAI的GPT系列，還是豆包、Kimi、通義千問、文心一言，都屬于大模型家族。

大模型的理論基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)，這是一種試圖讓計算機摹仿人腦來工作的理論，該理論和人工智能同時發(fā)端，但頭40年都不是主流。20世紀(jì)80年代中后期，多層感知機模型和反向傳播算法得到完善，神經(jīng)網(wǎng)絡(luò)理論才有了用武之地。多人對此作出關(guān)鍵貢獻，其中最為我們熟知的是去年獲得諾貝爾物理學(xué)獎的杰弗里・辛頓（Geoffrey Hinton），他擁有英國和加拿大雙重國籍。

神經(jīng)網(wǎng)絡(luò)理論后來發(fā)展為深度學(xué)習(xí)理論，關(guān)鍵貢獻者除了被譽為“深度學(xué)習(xí)之父”的杰弗里・辛頓，還有法國人楊·勒昆（Yann LeCun，中文名楊立昆）、德國人尤爾根・施密德胡伯（jürgen schmidhuber）。他們分別提出或完善了三種模型架構(gòu)方法：深度信念網(wǎng)絡(luò)（DBN，2006）、卷積神經(jīng)網(wǎng)絡(luò)（CNN，1998）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN，1997），讓基于多層神經(jīng)網(wǎng)絡(luò)的機器深度學(xué)習(xí)得以實現(xiàn)。

但到此為止，都是小模型時代，DBN和RNN的參數(shù)量通常是幾萬到幾百萬，CNN參數(shù)量最大，也只有幾億。因此只能完成專門任務(wù)，比如基于CNN架構(gòu)的谷歌AlphaGo，打敗了頂尖人類圍棋手柯潔和李世石，但它除了下圍棋啥也不會。

2014年，開發(fā)AlphaGo的谷歌DeepMind團隊首次提出“注意力機制”。同年底，蒙特利爾大學(xué)教授約書亞·本吉奧（Yoshua Bengio）和他的兩名博士生發(fā)表更詳盡的論文，這是神經(jīng)網(wǎng)絡(luò)理論的重大進步，極大增強了建模能力、提高了計算效率、讓大規(guī)模處理復(fù)雜任務(wù)得以實現(xiàn)。

約書亞·本吉奧、楊·勒昆、杰弗里・辛頓一起獲得了2019年的圖林獎。

2017年，谷歌提出完全基于注意力機制的Transformer架構(gòu)，開啟大模型時代。迄今，包括DeepSeek在內(nèi)的主流大模型都采用該架構(gòu)。強化學(xué)習(xí)理論（Reinforcement Learning，RL）、混合專家模型（Mixture of Experts，MOE，又譯稀疏模型）也是大模型的關(guān)鍵支撐，相關(guān)理論均在上世紀(jì)90年代提出，21世紀(jì)10年代后期由谷歌率先用于產(chǎn)品開發(fā)。

順便澄清一個普遍誤解，MOE并不是和Transformer并列的另一種模型架構(gòu)方法，而是一種用來優(yōu)化Transformer架構(gòu)的方法。

今天的主流大模型，參數(shù)量已達萬億級，DeepSeek V3是6710億。如此大的模型，對算力的需求驚人，而英偉達的GPU芯片正好提供了算力支持，英偉達在AI芯片領(lǐng)域的壟斷地位，既讓它成為全球市值最高的公司，也讓它成為中國AI公司的痛點。

谷歌在大模型時代一路領(lǐng)先，但這幾年站在風(fēng)口上的并不是谷歌，而是2015年才成立的OpenAI，它的各類大模型一直被視為業(yè)界頂流，被各路追趕者用來對標(biāo)。這說明在人工智能領(lǐng)域，看似無可撼動的巨頭，其實并非無法挑戰(zhàn)。人工智能技術(shù)雖然發(fā)展了80年，但真正加速也就最近十幾年，進入爆發(fā)期也就最近兩三年，后來者始終有機會。DeepSeek公司2023年7月才成立，它的母體幻方量化成立于2016年2月，也比OpenAI年輕。人工智能就是一個英雄出少年的行業(yè)。

開發(fā)出能像人一樣自主思考、自主學(xué)習(xí)、自主解決新問題的通用人工智能系統(tǒng)（Artificial General Intelligence，AGI），是AI業(yè)界的終極目標(biāo)，無論奧特曼還是梁文峰，都把這個作為自己的使命。他們都選擇了大模型方向，這是業(yè)界的主流方向。

沿著大模型方向，要花多久才能實現(xiàn)AGI？樂觀的預(yù)測是3-5年，保守的預(yù)測是5-10年。也就是說，業(yè)界認為最遲到2035年，AGI就可實現(xiàn)。

大模型的競爭至關(guān)重要，大模型是各行各業(yè)人工智能應(yīng)用的最上游，它就像人的大腦，大腦指揮四肢，大腦的質(zhì)量決定整個人的學(xué)習(xí)、工作、生活質(zhì)量。

當(dāng)然，大模型并非通往AGI的唯一路徑。正如上世紀(jì)90年代后“深度學(xué)習(xí)-大模型”路線顛覆了人工智能頭幾十年的“規(guī)則系統(tǒng)-專家系統(tǒng)”路線，“深度學(xué)習(xí)-大模型”路線也有可能被顛覆，只是我們現(xiàn)在還看不到誰會是顛覆者。

DeepSeek創(chuàng)新了什么？

如今，DeepSeek又成了挑戰(zhàn)者，它真的已經(jīng)超越OpenAI了嗎？并非如此。DeepSeek在局部超過了OpenAI的水平，但整體而言O(shè)penAI仍然領(lǐng)先。

先來看雙方的基礎(chǔ)大模型，OpenAI是2024年5月發(fā)布的GPT4-o，DeepSeek是2024年12月26日發(fā)布的V3。斯坦福大學(xué)基礎(chǔ)模型研究中心有個全球大模型綜合排名，最新排名是今年1月10日，一共六個指標(biāo)，各指標(biāo)得分加總后，DeepSeek V3總分4.835，名列第一；GPT4-o（5月版）總分4.567，僅列第六。第二到第五名都是美國模型，第二名是Claude 3.5 Sonnet，總分4.819，開發(fā)這個模型的Anthropic公司2021年2月才成立。

推理模型是大模型的新發(fā)展方向，因為它的思維模式更像人，前面說了，開發(fā)出能像人一樣自主思考、自主學(xué)習(xí)、自主解決新問題的通用人工智能是AI業(yè)界的終極目標(biāo)。

2024年9月12 日，OpenAI發(fā)布世界上第一款推理大模型獵戶座1號（orion1 ，o1），o1在解決數(shù)學(xué)、編程和科學(xué)問題上的能力提升驚人，但OpenAI走閉源路線，不公布技術(shù)原理，更別提技術(shù)細節(jié)。一時間，如何復(fù)刻o1，成為全世界AI從業(yè)者的追求。

僅僅四個月后，今年1月20日，DeepSeek發(fā)布世界第二款推理大模型R1，名字樸實無華，R就是推理（Reasoning）的縮寫。測評結(jié)果顯示，DeepSeek-R1與OpenAI-o1水平相當(dāng)。但OpenAI 2024年12月20日推出了升級版o3，性能大大超過o1。目前還沒有R1和o3的直接測評對比數(shù)據(jù)。

多模態(tài)也是大模型的重要發(fā)展方向——既能生成語義（寫代碼也屬于語義），也能生成語音、圖像、視頻，其中視頻生成最難，消耗的計算資源最多。DeepSeek 2024年10月發(fā)布首個多模態(tài)模型Janus，今年1月28日發(fā)布其升級版Janus-Pro-7B，其圖像生成能力在測試中表現(xiàn)優(yōu)異，但視頻能力如何尚無從知曉。GPT-4是多模態(tài)模型但不能生成視頻，不過OpenAI擁有專門的視頻生成模型Sora。

把模型做小做精，少消耗計算資源是另一個業(yè)界趨勢，混合專家模型的設(shè)計思路就是這個目的，推理模型也能減少通用大模型的驚人消耗。在這方面，DeepSeek的表現(xiàn)明顯比OpenAI優(yōu)異，這些天最被人津津樂道的就是DeepSeek的模型訓(xùn)練成本只有OpenAI的1/10，使用成本只有1/30。DeepSeek能夠做到如此高的性價比，是因為它的模型里面有杰出的工程創(chuàng)新，不是單點創(chuàng)新，而是密集創(chuàng)新，每一個環(huán)節(jié)都有杰出創(chuàng)新。這里僅舉三例。

★模型架構(gòu)環(huán)節(jié)：大為優(yōu)化的Transformer + MOE組合架構(gòu)。

前面說過，這兩個技術(shù)都是谷歌率先提出并采用的，但DeepSeek用它們設(shè)計自己的模型時做了巨大優(yōu)化，并且首次在模型中引入多頭潛在注意力機制（Multi-head Latent Attention，MLA），從而大大降低了算力和存儲資源的消耗。

★模型訓(xùn)練環(huán)節(jié)：FP8混合精度訓(xùn)練框架。

傳統(tǒng)上，大模型訓(xùn)練使用32位浮點數(shù)（FP32）格式來做計算和存儲，這能保證精度，但計算速度慢、存儲空間占用大。如何在計算成本和計算精度之間求得平衡，一直是業(yè)界難題。2022年，英偉達、Arm和英特爾一起，最早提出8位浮點數(shù)格式（FP8），但因為美國公司不缺算力，該技術(shù)淺嘗輒止。DeepSeek則構(gòu)建了FP8 混合精度訓(xùn)練框架，根據(jù)不同的計算任務(wù)和數(shù)據(jù)特點，動態(tài)選擇FP8或 FP32 精度來進行計算，把訓(xùn)練速度提高了50%，內(nèi)存占用降低了40%。

★算法環(huán)節(jié)：新的強化學(xué)習(xí)算法GRPO。

強化學(xué)習(xí)的目的是讓計算機在沒有明確人類編程指令的情況下自主學(xué)習(xí)、自主完成任務(wù)，是通往通用人工智能的重要方法。強化學(xué)習(xí)起初由谷歌引領(lǐng)，訓(xùn)練AlphaGo時就使用了強化學(xué)習(xí)算法，但是OpenAI后來居上，2015年和2017年接連推出兩種新算法TRPO（Trust Region Policy Optimization，信任區(qū)域策略優(yōu)化）和PPO （Proximal Policy Optimization，近端策略優(yōu)化），DeepSeek更上層樓，推出新的強化學(xué)習(xí)算法GRPO（ Group Relative Policy Optimization 組相對策略優(yōu)化），在顯著降低計算成本的同時，還提高了模型的訓(xùn)練效率。

（GRPO算法公式。Source：DeepSeek-R1論文）

看到這里，對于“DeepSeek只是‘蒸餾’了OpenAI模型”的說法，你肯定已經(jīng)有了自己的判斷。但是，DeepSeek的創(chuàng)新是從0到1的顛覆式創(chuàng)新嗎？

顯然不是。顛覆式創(chuàng)新是指那種開辟了全新賽道，或?qū)е录扔匈惖缽氐邹D(zhuǎn)向的創(chuàng)新。比如，汽車的發(fā)明顛覆了交通行業(yè)，導(dǎo)致馬車行業(yè)消失；智能手機取代功能手機，雖沒有讓手機行業(yè)消失，但徹底改變了手機的發(fā)展方向。

回顧人工智能簡史，我們清楚看到，DeepSeek是沿著業(yè)界的主流方向前進，他們做了許多杰出的工程創(chuàng)新，縮短了中美AI的差距，但仍處于追趕狀態(tài)。白宮人工智能顧問大衛(wèi)·薩克斯（David Sacks）評價說：DeepSeek-R1讓中美的差距從6-12月縮短到3-6個月。

薩克斯說的是模型性能，但更加意義非凡的是性價比——訓(xùn)練成本1/10、使用成本1/30，這讓尖端AI技術(shù)飛入尋常百姓家成為現(xiàn)實。最近兩周，各行各業(yè)的領(lǐng)頭羊紛紛接入DeepSeek大模型，部署本行業(yè)的應(yīng)用，擁抱AI的熱情前所未有。

但我必須再次提醒，大模型技術(shù)進步很快，不能對階段性成果過于樂觀。同時大模型在人工智能生態(tài)中處于最上游，是所有下游應(yīng)用的依托，因此基礎(chǔ)大模型的質(zhì)量決定了各行各業(yè)人工智能應(yīng)用的質(zhì)量。

DeepSeek能否持續(xù)創(chuàng)新？

在DeepSeek的刺激下，薩姆·奧特曼（Sam Altman）2月13日透露了OpenAI 的發(fā)展計劃：未來幾周內(nèi)將發(fā)布GPT-4.5，未來幾個月內(nèi)發(fā)布GPT-5。GPT-5將整合推理模型o3的功能，是一個包含語義、語音、可視化圖像創(chuàng)作、搜索、深度研究等多種功能的多模態(tài)系統(tǒng)。奧特曼說，今后用戶不用再在一大堆模型中做選擇，GPT-5 將完成所有任務(wù)，實現(xiàn)“魔法般的統(tǒng)一智能”。果如所言，GPT-5離通用人工智能就又進了一步。

從用戶角度，一個模型解決所有需求肯定大為方便，就像早年手機只能打電話，你出門還得帶銀行卡、購物卡、交通卡等一大堆東西，現(xiàn)在一部智能手機全搞定。但全搞定的同時，所需要的計算資源也會高得驚人，iPhone16的算力是當(dāng)年功能機的幾千萬倍。奇跡在于，我們使用iPhone16的成本反而比使用諾基亞8210的成本更低。希望這樣的奇跡也能發(fā)生在人工智能行業(yè)。

除了OpenAI，美國還有眾多頂尖人工智能公司，他們的水平差距不大。從前面講到的那個斯坦福大學(xué)排名就能看出來，總分第一名和第十名的分差只有0.335，平均到每個指標(biāo)差距不到0.06。并且各種測評榜的排名雖是重要參考，但不等于實際能力的高下。對DeepSeek而言，不僅OpenAI，Anthropic、谷歌、Meta、xAI也都是強勁對手。2月18日，xAI發(fā)布了馬斯克自稱“地球最強AI”的大模型Grok-3。這個模型用了超過10萬塊H100芯片來訓(xùn)練，把大模型的scaling law（規(guī)模法則，計算和數(shù)據(jù)資源投入越多模型效果越好）推向極致，但也讓scaling law的邊際效益遞減暴露無遺。

當(dāng)然，中國也不是DeepSeek一家在戰(zhàn)斗，中國也有眾多優(yōu)秀人工智能公司。事實上，這些年來全球人工智能一直是中美雙峰并峙，只是美國那座峰更高一些。

盡管如此，我對梁文峰和DeepSeek團隊仍有信心。從梁文峰為數(shù)不多的采訪中可以看出，他是一個既充滿理想主義，又腳踏實地、有敏銳商業(yè)頭腦的人。他自己肯定懂技術(shù)，但應(yīng)該不是技術(shù)天才，他有可能是喬布斯、馬斯克那樣能把技術(shù)天才聚集在一起做出偉大產(chǎn)品的技術(shù)型企業(yè)家。

梁文峰在接受《暗涌》專訪時說：“我們的核心技術(shù)崗位，基本以應(yīng)屆和畢業(yè)一兩年的人為主。我們選人的標(biāo)準(zhǔn)一直都是熱愛和好奇心。招人時確保價值觀一致，然后通過企業(yè)文化來確保步調(diào)一致�！�

“最重要的是參與到全球創(chuàng)新的浪潮里去。過去三十多年IT浪潮里，我們基本沒有參與到真正的技術(shù)創(chuàng)新里。大部分中國公司習(xí)慣follow（追隨），而不是創(chuàng)新。中國AI和美國真正的gap（差距）是原創(chuàng)和模仿。如果這個不改變，中國永遠只能是追隨者�！�

“創(chuàng)新首先是一個信念問題。為什么硅谷那么有創(chuàng)新精神？首先是敢。我們在做最難的事。對頂級人才吸引最大的，肯定是去解決世界上最難的問題�！�

喬布斯有句名言：只有瘋狂到認為自己可以改變世界的人才能改變世界。從梁文峰身上，我看到了這句話的影子。

但是，我們對中國AI超越美國千萬不能盲目樂觀，DeepSeek并沒有顛覆算力算法數(shù)據(jù)三要素的大模型發(fā)展路徑，DeepSeek的很多創(chuàng)新都是因為芯片受限而不得不為，比如英偉達H100的通信帶寬是每秒900GB，H800就只有每秒400GB，但DeepSeek只能用H800來訓(xùn)練模型。

這些天我看了大量太平洋兩岸對DeepSeek的評論，“necessity is the mother of invention（迫不得已是創(chuàng)新之母）”，這句源自古希臘的諺語被不同的牛人說了好幾次。但是反過來想，DeepSeek能與OpenAI的同款產(chǎn)品打成平手，靠的是用逼出來的算法優(yōu)勢彌補算力劣勢，可對手已被點醒，如果他們開發(fā)出同樣好的算法，再加上更好的芯片，那中美大模型的差距是否會再次擴大？

另一方面，雖然DeepSeek已可適配國產(chǎn)芯片，但考慮到性能差距，算力劣勢短期內(nèi)無解。除非我們能再現(xiàn)電動車反轉(zhuǎn)燃油車的場面，實現(xiàn)換道超車。比如，用量子芯片替代硅基芯片。

陷入這種思考真是一個悲劇——技術(shù)創(chuàng)新本應(yīng)造福全人類，卻被地緣政治因素扭曲。所以，我們更應(yīng)該為DeepSeek堅決走開源路線而鼓掌。

DeepSeek究竟創(chuàng)新了什么？

DeepSeek究竟創(chuàng)新了什么？