在DeepSeek成為全球開源大模型的焦點之后,國產開源大模型的研發熱潮持續升溫。如今,Dee pSeek的最強競爭對手終于亮相了! 阿里巴巴在今日凌晨3點30分刊登了一款重磅炸彈通義千問最新開源模型QQ-32B。這款模型在尺寸上比DeepSeek更小,但在性能上卻與全球最強的開源推理模型不相上下。
據理解,通過大規模強化研習,千問QQ-32B在數學、代碼及通用能力上實現了質的飛躍,整體性能與DeepSeek-R1相當。並且,千問QQ-32B在保持強勁性能的與此同時,還顯著降低了部署利用開銷,能夠在消費級顯卡上實現本地部署。
現階段,阿里已采用寬松的Apache20協議,將千問QQ-32B模型向全球開源,所有人 都可以免費下載及商用。與此同時,使用者也可以通過通義APP免費體驗最全新的千問QQ-32B模型。現階段,QQ-32B-Previe已經在(chatqenai)官網上線。
據通義千問Qen組介紹,近期的分析表明,強化研習可以大幅增加模型的推理能力。比方說,DeepSeek-R1通過融合冷啟動資料和多階段練習,實現了最先進的性能,使其能夠執行深度思考和復雜推理。而QQ-32B就是大規模強化研習(RL)對大語言模型的智能的提升作用的最好分析例證。
規模上,QQ-3 2B是一款僅有320億參數的模型,其性能卻可與具備6710 億 參數(其中370億被激活)的DeepSeek-R1媲美。 另外,Qen組還在推理模型中集成了與Agent相關的能力,使其能夠在利用工具的與此同時執行批判性思考,并根據環境反饋修正推理歷程。
檢測後果呈現,在檢測數學能力的人工智慧ME24評測集上,以及評估代碼能力的 LiveCodeBench中,千問QQ-32B展示與DeepSeek-R1相當,遠勝于o1-mini及一樣尺寸的R1 蒸餾模型。
在由Meta首席科學家楊立昆領銜的最難LLMs評測榜 LiveBench、google等指出的指令遵循能力IFEval評測集、由加州大專院校伯克利分校等指出的評估準確調用函數或工具方面的BFCL檢測中,千 問QQ-32B的進球均超越了DeepSeek-R1。
此外,Qen組還通過表現了一段簡短的示例代碼,解釋如何通過API利用 QQ-32B。Qen組表示,我們期望我們的一點努力能夠證據強大的基石模型疊加大規模強化研習也許是一條通往通用人工智能的可行之路。 受此消息衝擊,阿里巴巴港股大漲67%,截稿前報1386港元,總市值263萬億港元。
