首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 移動互聯(lián)網(wǎng) >> 正文

九章云極聯(lián)合團隊大模型慢思考推理技術(shù)獲系列成果預(yù)印版論文于arXiv發(fā)表

2025年3月12日 16:47  CCTIME飛象網(wǎng)  

近日,九章云極DataCanvas公司聯(lián)合中國人民大學STILL項目團隊、北京智源研究院團隊聯(lián)合在大模型慢思考推理技術(shù)上形成系列技術(shù)成果,初步復(fù)現(xiàn)類R1推理模型,完整開源了類R1類的實現(xiàn)細節(jié)以及訓(xùn)練技巧。進一步,創(chuàng)新性提出使用代碼工具來增強模型推理性能,在AIME數(shù)學推理測試中超越DeepSeek-R1的模型性能。 相關(guān)成果已經(jīng)形成論文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在預(yù)印版論文網(wǎng)站 arXiv上公開發(fā)表。

九章云極DataCanvas聯(lián)合研究團隊公布了復(fù)現(xiàn)DeepSeek- R1全參數(shù)微調(diào)開源方案,并發(fā)布了全新的強化學習訓(xùn)練模型STILL-3-Tool-32B。這個方案完整開放了從模型訓(xùn)練到推理部署的全鏈路工程代碼,同步公開實踐驗證過的技術(shù)經(jīng)驗與調(diào)優(yōu)策略,為開發(fā)者提供可直接部署的工業(yè)化級大模型訓(xùn)練框架。研究成果顯示,該模型在 AIME 2024 基準上取得了81.70%準確率(采樣),超越了DeepSeek-R1滿血版。該成果在GitHub社區(qū)中詳細闡述,并公開了相關(guān)開源鏈接。

論文地址:https://arxiv.org/pdf/2503.04548

開源鏈接:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

STILL-3-Tool-32B模型是九章云極DataCanvas聯(lián)合團隊在基于長鏈復(fù)雜推理模型訓(xùn)練框架上的又一次重要創(chuàng)新實踐。該研究論文表明,在已接近性能巔峰的蒸餾模型上,通過該強化學習訓(xùn)練方法也可以大幅提升AIME 2024的準確率,這一研究結(jié)果將極大促進正在運行中的較大模型的回復(fù)長度和推理準確性。面對語言推理可能存在精準性不夠的問題,STILL-3-Tool-32B模型引入了外部工具來加強AI模型的復(fù)雜推理能力。在AIME 2024上取得81.70%準確率(采樣),以15.56%的顯著優(yōu)勢超越其基座訓(xùn)練模型,與OpenAI o3-mini持平,超越o1 和DeepSeek-R1同場景表現(xiàn)。

自DeepSeek-R1技術(shù)報告公布后,開源模型仍然復(fù)現(xiàn)面臨代碼完整性缺失、超參數(shù)調(diào)試等共性難題,九章云極DataCanvas聯(lián)合團隊通過AI基礎(chǔ)設(shè)施深度融合‌實現(xiàn)突破。研究同步開源了該模型在DataCanvas Alaya NeW智算操作系統(tǒng)上完成的全過程完整訓(xùn)練日志、獎勵函數(shù)代碼及容器化部署方案。研究結(jié)果公布,在Alaya NeW中采用on-policy 學習策略是成功的關(guān)鍵因素,其將DeepSeek背后的基于規(guī)則的強化學習方法加以微調(diào),充分探索了相關(guān)的超參數(shù)設(shè)置以及訓(xùn)練技巧。

值得關(guān)注的是,DeepSeek以及蒸餾模型在推理過程中無法調(diào)用外部代碼工具,而這恰是復(fù)現(xiàn)的關(guān)鍵難點。研究結(jié)果顯示,Alaya NeW智算操作系統(tǒng)在開源工具鏈與基座模型適配、算法與算力協(xié)同、邏輯推理與多步?jīng)Q策等復(fù)雜任務(wù)框架方面表現(xiàn)出明顯優(yōu)勢,有望推動AI技術(shù)的進一步發(fā)展。

編 輯:T01
飛象網(wǎng)版權(quán)及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
聚焦2025全國兩會
2025年世界移動通信大會
低空經(jīng)濟2025:助力中國經(jīng)濟騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像