DeepSeek原理與項(xiàng)目實(shí)戰(zhàn)大模型部署、微調(diào)與應(yīng)用開(kāi)發(fā)
定 價(jià):99.8 元
當(dāng)前圖書(shū)已被 4 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:未來(lái)智能實(shí)驗(yàn)室 代晶
- 出版時(shí)間:2025/3/1
- ISBN:9787115665584
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP18
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
DeepSeek 是一種基于 Transformer 架構(gòu)的生成式 AI(Artificial Intelligence)大模型,融合了MoE 架構(gòu)、混合精度訓(xùn)練、分布式優(yōu)化等先進(jìn)技術(shù),具備強(qiáng)大的文本生成、多模態(tài)處理和任務(wù)定制化能力。本書(shū)系統(tǒng)性地介紹了開(kāi)源大模型 DeepSeek-V3 的核心技術(shù)及其在實(shí)際開(kāi)發(fā)中的深度應(yīng)用。
全書(shū)分三部分共12章,涵蓋理論解析、技術(shù)實(shí)現(xiàn)和應(yīng)用實(shí)踐。第一部分從理論入手,詳細(xì)解析了Transformer 與注意力機(jī)制、DeepSeek-V3 的核心架構(gòu)與訓(xùn)練技術(shù)等內(nèi)容,并探討了 Scaling Laws 及其在模型優(yōu)化中的應(yīng)用。第二部分聚焦于大模型初步體驗(yàn)、開(kāi)放平臺(tái)與API 開(kāi)發(fā)、對(duì)話(huà)生成與代碼補(bǔ)全的實(shí)現(xiàn),以及函數(shù)回調(diào)與緩存優(yōu)化(Visual Studio Code),幫助讀者快速掌握關(guān)鍵技術(shù)的基礎(chǔ)理論和落地實(shí)踐。第三部分則通過(guò)實(shí)際案例剖析DeepSeek在Chat類(lèi)客戶(hù)端、智能 AI 助理、VS Code編程插件等多領(lǐng)域中的實(shí)用集成開(kāi)發(fā),展示了開(kāi)源大模型技術(shù)在工業(yè)與商業(yè)場(chǎng)景中的全面應(yīng)用。
本書(shū)通過(guò)深度講解與實(shí)用案例相結(jié)合的方式,幫助讀者理解 DeepSeek 大模型從原理到開(kāi)發(fā)的完整流程,學(xué)習(xí)新技術(shù)的實(shí)現(xiàn)方法與優(yōu)化策略,全面提升在大模型領(lǐng)域的理論素養(yǎng)與開(kāi)發(fā)能力。本書(shū)適合生成式 AI 技術(shù)研究者、軟件開(kāi)發(fā)工程師、數(shù)據(jù)科學(xué)家,以及希望快速掌握大模型技術(shù)并將其應(yīng)用于實(shí)際場(chǎng)景的 AI 技術(shù)愛(ài)好者和高校師生閱讀。
未來(lái)智能實(shí)驗(yàn)室(Future Intelligence Lab)由多名國(guó)內(nèi)top高校的博士、碩士組成,專(zhuān)注于大模型的研發(fā)與創(chuàng)新,聚焦自然語(yǔ)言處理、深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和多模態(tài)學(xué)習(xí)等領(lǐng)域。團(tuán)隊(duì)致力于推動(dòng)AI技術(shù)的突破,并為企業(yè)和開(kāi)發(fā)者提供全面的技術(shù)支持,助力復(fù)雜AI項(xiàng)目的高效開(kāi)發(fā)與應(yīng)用。 團(tuán)隊(duì)成員擁有豐富的實(shí)踐經(jīng)驗(yàn),曾參與國(guó)內(nèi)專(zhuān)業(yè)企業(yè)的大模型設(shè)計(jì)與落地項(xiàng)目,涉及對(duì)話(huà)系統(tǒng)、智能推薦、生成式AI等多個(gè)領(lǐng)域。團(tuán)隊(duì)通過(guò)技術(shù)研發(fā)與方案優(yōu)化,促進(jìn)大模型在工業(yè)界的落地,并加速智能化應(yīng)用的普及與行業(yè)創(chuàng)新。
代晶,畢業(yè)于清華大學(xué),研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、自然語(yǔ)言處理等。曾在IBM、VMware等企業(yè)擔(dān)任技術(shù)工程師十余年,擁有扎實(shí)的技術(shù)功底與廣泛的行業(yè)經(jīng)驗(yàn)。近年來(lái),她專(zhuān)注于大模型訓(xùn)練、自然語(yǔ)言處理、模型優(yōu)化等前沿技術(shù),具備敏銳的行業(yè)洞察力,熱衷于分享行業(yè)新動(dòng)態(tài),向大眾提供更有價(jià)值的知識(shí)分享,幫助更多的人快速掌握AI領(lǐng)域的前沿知識(shí)。
第 一部分 生成式AI的基礎(chǔ)與技術(shù)架構(gòu)
第 1章 Transformer與注意力機(jī)制的核心原理 2
1.1 Transformer 的基本結(jié)構(gòu) 2
1.1.1 Encoder-Decoder 架構(gòu) 2
1.1.2 Self-Attention 與 Multi-Head 機(jī)制 4
1.1.3 殘差連接與 Layer Normalization 5
1.2 注意力機(jī)制的核心原理 7
1.2.1 點(diǎn)積注意力與加性注意力的對(duì)比 7
1.2.2 Softmax 歸一化原理 9
1.2.3 注意力矩陣的稀疏性與加速優(yōu)化 10
1.3 Transformer 的擴(kuò)展與優(yōu)化 12
1.3.1 動(dòng)態(tài)注意力的實(shí)現(xiàn) 12
1.3.2 Long-Range Attention 與 Sparse Attention 13
1.3.3 多樣化位置編碼 15
1.4 上下文窗口 17
1.4.1 上下文窗口擴(kuò)展 17
1.4.2 內(nèi)存與計(jì)算復(fù)雜度的平衡 18
1.4.3 DeepSeek-V3 在上下文窗口方面的優(yōu)化 20
1.5 訓(xùn)練成本與計(jì)算效率的平衡 21
1.5.1 參數(shù)量與計(jì)算需求的增長(zhǎng)趨勢(shì) 21
1.5.2 GPU 計(jì)算架構(gòu)在 Transformer 中的應(yīng)用 23
1.5.3 DeepSeek-V3 如何降低訓(xùn)練成本 25
1.6 本章小結(jié) 26
第 2章 DeepSeek-V3 核心架構(gòu)及其訓(xùn)練技術(shù)詳解 27
2.1 MoE 架構(gòu)及其核心概念 27
2.1.1 Mixture of Experts(MoE)簡(jiǎn)介 27
2.1.2 Sigmoid 路由的工作機(jī)制 29
2.1.3 基于 MoE 的 DeepSeek-V3 架構(gòu)設(shè)計(jì) 31
2.2 FP8 混合精度訓(xùn)練的優(yōu)勢(shì) 32
2.2.1 混合精度計(jì)算的基本原理 32
2.2.2 FP8 在大模型訓(xùn)練中的應(yīng)用 33
2.2.3 基于 FP8 的 DeepSeek-V3 性能提升策略 35
2.3 dualpipe 算法與通信優(yōu)化 37
2.3.1 Dualpipe 雙管道處理算法 37
2.3.2 All-to-All 跨節(jié)點(diǎn)通信機(jī)制 39
2.3.3 Infiniband 與 NVLink 的帶寬優(yōu)化 40
2.4 大模型的分布式訓(xùn)練 42
2.4.1 數(shù)據(jù)并行與模型并行的權(quán)衡 42
2.4.2 DeepSeek-V3 的分布式訓(xùn)練架構(gòu) 44
2.4.3 動(dòng)態(tài)學(xué)習(xí)率調(diào)度器的設(shè)計(jì)與優(yōu)化 45
2.4.4 無(wú)輔助損失的負(fù)載均衡策略 46
2.4.5 多令牌預(yù)測(cè)訓(xùn)練目標(biāo) 48
2.5 緩存機(jī)制與 Token 49
2.5.1 緩存命中與未命中的基本概念 49
2.5.2 Token 的定義與編碼過(guò)程 51
2.5.3 DeepSeek-V3 的高效緩存機(jī)制 53
2.6 DeepSeek 系列模型 54
2.6.1 DeepSeek LLM 54
2.6.2 DeepSeek Coder 55
2.6.3 DeepSeek Math 57
2.6.4 DeepSeek VL 58
2.6.5 DeepSeek V2 59
2.6.6 DeepSeek Coder V2 60
2.6.7 DeepSeek-V3 61
2.7 本章小結(jié) 63
第3章 基于 DeepSeek-V3 大模型的開(kāi)發(fā)導(dǎo)論 64
3.1 大模型應(yīng)用場(chǎng)景 64
3.1.1 文本生成與摘要 64
3.1.2 問(wèn)答系統(tǒng)與對(duì)話(huà)生成 65
3.1.3 多語(yǔ)言編程與代碼生成 66
3.2 DeepSeek-V3 的優(yōu)勢(shì)與應(yīng)用方向 67
3.2.1 在不同領(lǐng)域的實(shí)際表現(xiàn) 67
3.2.2 多語(yǔ)言編程能力(基于 Aider 測(cè)評(píng)案例) 68
3.2.3 代碼與數(shù)學(xué)任務(wù)的應(yīng)用探索 68
3.3 Scaling Laws 研究與實(shí)踐 69
3.3.1 模型規(guī)模與性能的關(guān)系 69
3.3.2 小模型上的 Scaling Laws 實(shí)驗(yàn)結(jié)果 70
3.4 模型部署與集成 73
3.4.1 API 調(diào)用與實(shí)時(shí)生成 73
3.4.2 本地化部署 76
3.4.3 性能優(yōu)化策略 78
3.5 開(kāi)發(fā)中的常見(jiàn)問(wèn)題與解決方案 81
3.5.1 輸入設(shè)計(jì)與生成控制 81
3.5.2 模型偏差與穩(wěn)健性問(wèn)題 84
3.5.3 關(guān)于 DeepSeek-V3 特定問(wèn)題的應(yīng)對(duì)技巧 87
3.6 本章小結(jié) 91
第二部分 生成式 AI 的專(zhuān)業(yè)應(yīng)用與 Prompt 設(shè)計(jì)
第4章 DeepSeek-V3 大模型初體驗(yàn) 94
4.1 對(duì)話(huà)與語(yǔ)義理解能力 94
4.1.1 單輪對(duì)話(huà)與多輪對(duì)話(huà) 94
4.1.2 上下文交互 96
4.2 數(shù)學(xué)推理能力 99
4.2.1 常規(guī)數(shù)學(xué)題目評(píng)估 99
4.2.2 復(fù)雜難題理解與推理 101
4.3 輔助編程能力 106
4.3.1 輔助算法開(kāi)發(fā) 106
4.3.2 軟件開(kāi)發(fā) 108
4.4 本章小結(jié) 113
第5章 DeepSeek 開(kāi)放平臺(tái)與 API 開(kāi)發(fā)詳解 114
5.1 DeepSeek 開(kāi)放平臺(tái)簡(jiǎn)介 114
5.1.1 平臺(tái)核心模塊與服務(wù)概述 114
5.1.2 開(kāi)放生態(tài)中的關(guān)鍵角色與協(xié)作 116
5.2 DeepSeek API 的基礎(chǔ)操作與 API 接口詳解 118
5.2.1 API 調(diào)用的認(rèn)證機(jī)制與請(qǐng)求結(jié)構(gòu) 118
5.2.2 常用接口的功能解析與示例 121
5.3 API 性能優(yōu)化與安全策略 125
5.3.1 降低延遲的性能優(yōu)化技巧 125
5.3.2 數(shù)據(jù)保護(hù)與調(diào)用權(quán)限管理 129
5.4 本章小結(jié) 132
第6章 對(duì)話(huà)生成、代碼補(bǔ)全與定制化模型開(kāi)發(fā) 133
6.1 對(duì)話(huà)生成的基本原理與實(shí)現(xiàn) 133
6.1.1 對(duì)話(huà)模型的輸入輸出設(shè)計(jì) 133
6.1.2 自然語(yǔ)言交互中的上下文管理 136
6.2 代碼補(bǔ)全的實(shí)現(xiàn)邏輯與優(yōu)化 138
6.2.1 模型對(duì)編程語(yǔ)言的適配策略 139
6.2.2 深度補(bǔ)全功能的性能優(yōu)化 141
6.3 基于 DeepSeek 的定制化模型開(kāi)發(fā) 145
6.3.1 模型微調(diào)與任務(wù)特化技術(shù) 145
6.3.2 定制化對(duì)話(huà)與補(bǔ)全模型的案例解析 148
6.3.3 綜合案例:基于 DeepSeek-V3 模型的代碼生成與任務(wù)特化 151
6.4 本章小結(jié) 157
第7章 對(duì)話(huà)前綴續(xù)寫(xiě)、FIM 與 JSON 輸出開(kāi)發(fā)詳解 158
7.1 對(duì)話(huà)前綴續(xù)寫(xiě)的技術(shù)原理與應(yīng)用 158
7.1.1 前綴建模的設(shè)計(jì)邏輯與實(shí)現(xiàn)方案 158
7.1.2 多樣化續(xù)寫(xiě)風(fēng)格的控制與實(shí)現(xiàn) 161
7.2 Fill-in-the-Middle(FIM)生成模式解析 164
7.2.1 FIM 任務(wù)定義與生成流程 164
7.2.2 DeepSeek 對(duì) FIM 任務(wù)的優(yōu)化技術(shù) 166
7.3 JSON 格式輸出的設(shè)計(jì)與生成邏輯 169
7.3.1 結(jié)構(gòu)化數(shù)據(jù)生成的模型實(shí)現(xiàn) 169
7.3.2 JSON 輸出在實(shí)際開(kāi)發(fā)中的應(yīng)用 171
7.3.3 綜合案例:基于DeepSeek 模型的多輪對(duì)話(huà)與結(jié)構(gòu)化數(shù)據(jù)生成 175
7.4 本章小結(jié) 179
第8章 函數(shù)回調(diào)與上下文硬盤(pán)緩存 180
8.1 函數(shù)回調(diào)機(jī)制與應(yīng)用場(chǎng)景 180
8.1.1 回調(diào)函數(shù)原理及其設(shè)計(jì)原則 180
8.1.2 DeepSeek 回調(diào)優(yōu)化技巧 184
8.2 上下文硬盤(pán)緩存的基本原理 187
8.2.1 緩存命中與未命中的影響分析 187
8.2.2 硬盤(pán)緩存實(shí)現(xiàn) 190
8.3 函數(shù)回調(diào)與緩存機(jī)制的結(jié)合應(yīng)用 194
8.3.1 基于上下文的智能緩存調(diào)用設(shè)計(jì) 194
8.3.2 高效緩存與回調(diào)組合的性能提升案例分析 197
8.3.3 綜合案例:智能電站管理系統(tǒng)的 DeepSeek 集成與優(yōu)化 201
8.4 本章小結(jié) 206
第9章 DeepSeek 提示庫(kù):探索 Prompt 的更多可能 207
9.1 代碼相關(guān)應(yīng)用 208
9.1.1 代碼改寫(xiě) 208
9.1.2 代碼注釋 211
9.1.3 代碼生成 213
9.2 內(nèi)容生成與分類(lèi) 219
9.2.1 內(nèi)容分類(lèi) 219
9.2.2 結(jié)構(gòu)化輸出 221
9.3 角色扮演 223
9.3.1 角色扮演(自定義人設(shè)) 223
9.3.2 角色扮演(情景續(xù)寫(xiě)) 225
9.4 文學(xué)創(chuàng)作 227
9.4.1 散文寫(xiě)作 227
9.4.2 詩(shī)歌創(chuàng)作 229
9.5 文案與宣傳 230
9.5.1 文案大綱生成 230
9.5.2 宣傳標(biāo)語(yǔ)生成 233
9.6 模型與翻譯專(zhuān)家 234
9.6.1 模型提示詞生成 234
9.6.2 中英翻譯專(zhuān)家 236
9.7 本章小結(jié) 238
第三部分 實(shí)戰(zhàn)與高級(jí)集成應(yīng)用
第 10章 集成實(shí)戰(zhàn) 1:基于 LLM 的 Chat 類(lèi)客戶(hù)端開(kāi)發(fā) 240
10.1 Chat 類(lèi)客戶(hù)端概述與功能特點(diǎn) 240
10.1.1 Chat 的核心設(shè)計(jì)理念 240
10.1.2 常見(jiàn)應(yīng)用場(chǎng)景解析 243
10.2 DeepSeek API 的配置與集成 244
10.2.1 API 密鑰的獲取與配置步驟 244
10.2.2 常見(jiàn)接口調(diào)用 247
10.2.3 Chat 類(lèi)客戶(hù)端 API 集成實(shí)現(xiàn) 252
10.3 多模型支持與切換實(shí)現(xiàn) 254
10.3.1 支持多模型切換的架構(gòu)設(shè)計(jì) 255
10.3.2 不同任務(wù)場(chǎng)景下的模型選擇策略 258
10.3.3 完整代碼及系統(tǒng)測(cè)試 262
10.4 本章小結(jié) 266
第 11章 集成實(shí)戰(zhàn) 2:AI 智能助理開(kāi)發(fā) 267
11.1 AI 智能助理:AI 時(shí)代的啟動(dòng)器 267
11.1.1 AI 智能助理的核心功能解讀 267
11.1.2 AI 助理的商業(yè)化應(yīng)用趨勢(shì) 269
11.2 DeepSeek API 在 AI 智能助理中的配置與應(yīng)用 271
11.2.1 AI 智能助理與 DeepSeek 的 API 適配流程 271
11.2.2 語(yǔ)音識(shí)別與自然語(yǔ)言處理的結(jié)合應(yīng)用 273
11.3 智能助理功能的實(shí)現(xiàn)與優(yōu)化 276
11.3.1 提升問(wèn)答準(zhǔn)確率的優(yōu)化策略 276
11.3.2 持續(xù)學(xué)習(xí)與上下文理解的增強(qiáng)技術(shù) 278
11.4 本章小結(jié) 282
第 12章 集成實(shí)戰(zhàn) 3:基于 VS Code 的輔助編程插件開(kāi)發(fā) 283
12.1 輔助編程插件概述與核心功能 283
12.1.1 輔助編程插件功能定位 283
12.1.2 針對(duì)開(kāi)發(fā)者的實(shí)用功能解析 288
12.2 在 VS Code 中集成 DeepSeek API 的步驟 292
12.2.1 插件中調(diào)用 API 的流程 292
12.2.2 高效管理 API 調(diào)用的緩存 294
12.3 代碼自動(dòng)補(bǔ)全與智能建議的實(shí)現(xiàn) 298
12.3.1 深度語(yǔ)義理解下的代碼補(bǔ)全機(jī)制 298
12.3.2 個(gè)性化建議與開(kāi)發(fā)模式靈活配置 302
12.4 使用輔助編程插件提升開(kāi)發(fā)效率的技巧 306
12.4.1 快速錯(cuò)誤定位與修復(fù)的工具整合 306
12.4.2 自動(dòng)化腳本生成 310
12.4.3 快速生成大型項(xiàng)目文檔注釋 314
12.4.4 DeepSeek 賦能項(xiàng)目構(gòu)建 319
12.4.5 大型項(xiàng)目代碼維護(hù) 323
12.4.6 多語(yǔ)言支持的智能化代碼生成 327
12.4.7 深度整合開(kāi)發(fā)環(huán)境的智能化調(diào)試工具 330
12.4.8 智能化代碼質(zhì)量評(píng)估與優(yōu)化建議生成 334
12.5 本章小結(jié) 338