首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據|物聯(lián)網|量子|低空經濟|智能汽車|特約記者
手機|互聯(lián)網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網|會展
首頁 >> 人工智能 >> 正文

智庫觀點:解碼DeepSeek

2025年2月10日 07:35  中移智庫  

2025年春節(jié)期間,DeepSeek爆火出圈,發(fā)布開源大模型,在數(shù)學、代碼、自然語言推理等任務上表現(xiàn)追平OpenAI,在美國對我國AI產業(yè)鏈全方位打壓遏制的背景下,成功走出了一條低成本、高性能、國產化“突圍之路”并震驚世界,為加速國產AI大模型降本提效、生態(tài)繁榮注入了強大動力。

出圈情況

DeepSeek憑借“低成本+高性能”模型全球破圈。DeepSeek早前發(fā)布的V3模型每訓練1萬億tokens僅需在2048塊H800 GPU集群上耗時3.7天,總計278萬 GPU小時、557.6萬美元的訓練成本,約為GPT-o1的1/20、Llama 3.1的1/10。

新發(fā)布的R1模型API服務價格為每百萬輸入tokens 1-4元、每百萬輸出tokens 16元,遠低于同期 OpenAI o1 API定價水平,且在邏輯、數(shù)學及中文任務中表現(xiàn)優(yōu)異。DeepSeek應用程序霸榜蘋果應用商店第一名,獲全球主流公有云公司平臺接入。

成功原因

DeepSeek通過較少算力實現(xiàn)高性能模型表現(xiàn),主要通過算法創(chuàng)新和工程優(yōu)化等方式大幅提升模型效率。一是成功走通“純”強化學習(RL)路徑。DeepSeek-R1拋開以預設思維鏈模板和監(jiān)督式微調等為特點的AI推理能力傳統(tǒng)訓練方法,僅依靠簡單的獎懲信號來指導優(yōu)化模型行為,不僅省去了SFT和復雜的獎懲模型對計算資源的需求,還促使模型以“頓悟”的形式學會思考。二是實現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。為大幅減少內存占用和計算量,DeepSeek系列模型在算法層面引入專家混合模型、多頭隱式注意力、多token預測,框架層面實現(xiàn)FP8混合精度訓練,硬件層面采用優(yōu)化的流水線并行策略,同時高效配置專家分發(fā)與跨節(jié)點通信,實現(xiàn)最優(yōu)效率配置和資源節(jié)約。

DeepSeek具有擁抱AI的創(chuàng)始基因豐富的算力資源儲備、極具天賦的本土人才團隊。一是自帶AI創(chuàng)始基因。創(chuàng)始人梁文鋒畢業(yè)于浙江大學電子信息工程和計算機科學專業(yè),早年創(chuàng)立對沖基金“幻方量化”,實現(xiàn)投資策略全面AI化,2023年5月成立深度求索,聚焦發(fā)展通用人工智能。二是豐富的算力資源儲備;梅搅炕顿Y超過10億元,先后研發(fā)了AI超級計算機“螢火一號”和“螢火二號”。其中,“螢火二號”搭載了約1萬張英偉達A100顯卡。三是極具天賦的本土人才團隊。DeepSeek團隊工程師和研發(fā)人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,鮮有“海歸”,以走出校園不久的博士為主,也有部分成員有英偉達、微軟等國外企業(yè)工作或實習經歷。

產業(yè)影響

一是DeepSeek打破大模型發(fā)展路徑依賴,基本確立了符合中國實際的AI發(fā)展道路。DeepSeek 打破了 AI 大模型發(fā)展對算力和標注數(shù)據的高度依賴,展示了通過改進模型架構和訓練方法,以較少的數(shù)據標注量和算力消耗提升模型推理能力的可行性,標志著我國在硬件上長期存在代際差距的情況下,可采取軟硬協(xié)同方式實現(xiàn)對海外頂尖大模型的性能追趕和成本領先。

二是DeepSeek提升行業(yè)對模型的后訓練和推理需求,長期提振算力需求。DeepSeek R1在 V3 的基礎上進行了兩次強化學習,明顯提升了訓練的探索時間和推理思考時間,將在后訓練階段延續(xù)Scaling Law法則。隨著高性能低成本模型的出現(xiàn)將大幅降低國內AI賦能千行百業(yè)的應用開發(fā)門檻,推動AI產業(yè)鏈從“訓練驅動”向“推理驅動”轉變,帶動推理算力需求加速釋放。

三是DeepSeek以模型開源推動AI平權,開源路線有望打造應用繁榮的“安卓時刻”。DeepSeek完全開源了模型權重,允許其他開發(fā)者將模型用于商業(yè)用途并進行模型蒸餾。已發(fā)布了基于R1蒸餾Llama與Qwen的6個小模型,在多項基礎測試集中性能對標 o1-mini,被Facebook首席人工智能科學家楊立昆譽為“開源模型對閉源模型的勝利”。開源模型通過知識蒸餾快速打造高性能、輕量化小模型,將驅動端側模型在手機、電腦、眼鏡等智能硬件上的部署應用,形成AI應用百花齊放的格局。

編 輯:高靖宇
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
vivo胡柏山:手機行業(yè)是最典型的新質生產力代表
精彩專題
2024通信業(yè)年終盤點
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質供應商評選活動
2024全球6G發(fā)展大會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像