本書(shū)以通俗易懂、大量圖解的方式剖析了DeepSeek的底層技術(shù)。
全書(shū)分為3章和附錄,第1章詳細(xì)分析了推理大模型的范式轉(zhuǎn)變,即從訓(xùn)練時(shí)計(jì)算到測(cè)試時(shí)計(jì)算;第2章解讀了DeepSeek-R1的架構(gòu)混合專(zhuān)家(MoE);第3章展示了DeepSeek-R1詳細(xì)的訓(xùn)練過(guò)程及核心技術(shù),涵蓋基于GRPO的強(qiáng)化學(xué)習(xí)等;附錄分享了DeepSeek開(kāi)源周活動(dòng)。
本書(shū)適合大模型從業(yè)人員和對(duì)大模型底層技術(shù)感興趣的讀者。書(shū)中通過(guò)豐富的圖解將復(fù)雜的技術(shù)解釋得簡(jiǎn)單、清晰、通透,是學(xué)習(xí)大模型技術(shù)難得一見(jiàn)的參考書(shū)。
1.【短小精悍】2小時(shí)搞懂DeepSeek底層技術(shù)
2.【通俗圖解】近120幅全彩插圖通俗解讀,不枯燥
3.【內(nèi)容系統(tǒng)】從推理模型原理到DeepSeek-R1訓(xùn)練
4.【作者資深】大模型領(lǐng)域知名專(zhuān)家Jay & Maarten作品
5.【圖解系列】袋鼠書(shū)《圖解大模型》同系列,廣受歡迎
Jay Alammar(杰伊·阿拉馬爾) Cohere總監(jiān)兼工程研究員,知名大模型技術(shù)博客Language Models & Co作者,DeepLearning.AI和Udacity熱門(mén)機(jī)器學(xué)習(xí)和自然語(yǔ)言處理課程作者。 Maarten Grootendorst(馬爾滕·格魯滕多斯特) IKNL(荷蘭綜合癌癥中心)高級(jí)臨床數(shù)據(jù)科學(xué)家,知名大模型技術(shù)博客博主,BERTopic等開(kāi)源大模型軟件包作者(下載量超過(guò)百萬(wàn)次),DeepLearning.AI和Udacity課程作者。 Jay & Maarten撰寫(xiě)的圖解系列文章廣受贊譽(yù),累計(jì)吸引了數(shù)百萬(wàn)專(zhuān)業(yè)讀者的目光。其中,Jay 的The Illustrated TransformerThe Illustrated DeepSeek-R1、Maarten的A Visual Guide to Reasoning LLMs在全網(wǎng)熱度極高。 Jay & Maarten的第一部作品《圖解大模型:生成式AI原理與實(shí)戰(zhàn)》(Hands-On Large Language Models)是業(yè)內(nèi)廣受贊譽(yù)的經(jīng)典!秷D解DeepSeek技術(shù)》是Jay & Maarten的第二部作品,人民郵電出版社圖靈全球獨(dú)家發(fā)布,是解讀DeepSeek原理與訓(xùn)練的寶貴讀物。 李博杰 智能體初創(chuàng)公司PINE AI聯(lián)合創(chuàng)始人、首席科學(xué)家。曾任華為計(jì)算機(jī)網(wǎng)絡(luò)與協(xié)議實(shí)驗(yàn)室副首席專(zhuān)家,入選華為首批天才少年項(xiàng)目。2019年獲中國(guó)科學(xué)技術(shù)大學(xué)與微軟亞洲研究院聯(lián)合培養(yǎng)博士學(xué)位,曾獲ACM中國(guó)優(yōu)秀博士學(xué)位論文獎(jiǎng)和微軟學(xué)者獎(jiǎng)學(xué)金。在SIGCOMM、SOSP、NSDI、USENIX ATC和PLDI等頂級(jí)會(huì)議上發(fā)表多篇論文。 孟佳穎 中國(guó)科學(xué)技術(shù)大學(xué)博士,F(xiàn)任北京中關(guān)村實(shí)驗(yàn)室助理研究員,主要從事網(wǎng)絡(luò)協(xié)議棧的漏洞挖掘與風(fēng)險(xiǎn)分析技術(shù)的研究工作。
譯者序
前言
第 1 章 測(cè)試時(shí)計(jì)算
1.1 什么是推理大模型 1
1.2 什么是訓(xùn)練時(shí)計(jì)算 3
1.3 什么是測(cè)試時(shí)計(jì)算 7
1.3.1 縮放定律 10
1.3.2 測(cè)試時(shí)計(jì)算的分類(lèi) 12
1.4 基于驗(yàn)證器的搜索 16
1.4.1 多數(shù)投票法 17
1.4.2 Best-of-N 采樣 17
1.4.3 基于過(guò)程獎(jiǎng)勵(lì)模型的束搜索 20
1.4.4 蒙特卡洛樹(shù)搜索 21
1.5 調(diào)整提議分布 24
1.5.1 提示工程 25
1.5.2 STaR 方法 26
1.6 小結(jié) 28
1.7 延伸閱讀 29
第 2 章 架構(gòu)設(shè)計(jì) 31
2.1 稠密層 31
2.2 MoE 層 34
2.2.1 專(zhuān)家機(jī)制 35
2.2.2 路由機(jī)制 40
2.2.3 DeepSeekMoE 44
2.3 小結(jié) 50
第 3 章 DeepSeek-R1 訓(xùn)練方案 51
3.1 回顧:大模型的訓(xùn)練原理 51
3.2 DeepSeek-R1-Zero 的推理能力 55
3.2.1 示例:推理問(wèn)題的自動(dòng)驗(yàn)證 57
3.2.2 DeepSeek-R1-Zero 的完整訓(xùn)練過(guò)程 62
3.3 DeepSeek-V3 的效率優(yōu)化策略 64
3.3.1 多頭潛在注意力機(jī)制 64
3.3.2 混合精度訓(xùn)練 66
3.3.3 多詞元預(yù)測(cè) 70
3.4 構(gòu)建 DeepSeek-R1 72
3.5 通過(guò) DeepSeek-R1 蒸餾推理能力 77
3.6 未成功的嘗試 78
3.7 基于 GRPO 的強(qiáng)化學(xué)習(xí) 78
3.7.1 獎(jiǎng)勵(lì)值與優(yōu)勢(shì)值 79
3.7.2 KL 散度懲罰項(xiàng) 83
3.7.3 GRPO 目標(biāo)函數(shù) 85
3.7.4 GRPO 算法 86
3.7.5 GRPO 參考實(shí)現(xiàn) 87
3.8 小結(jié) 87
附錄 DeepSeek 開(kāi)源周 89