本書系統(tǒng)地探討了概率與統(tǒng)計在人工智能領(lǐng)域中的廣泛應(yīng)用,從理論基礎(chǔ)到實戰(zhàn)技術(shù),內(nèi)容全面且深入。全書共 13 章,涵蓋概率論、統(tǒng)計學(xué)、回歸分析、時間序列、特征工程與選擇、網(wǎng)絡(luò)模型構(gòu)建與優(yōu)化等基礎(chǔ)知識,延伸至自然語言處理、計算機視覺、推薦系統(tǒng)和強化學(xué)習(xí)等前沿應(yīng)用場景。
通過理論講解、模型分析和代碼實踐,深入剖析概率和統(tǒng)計在算法建模、性能優(yōu)化和結(jié)果解釋中的關(guān)鍵作用。
本書配有豐富的案例分析、課后練習(xí)及可視化示例,適合人工智能從業(yè)者、研究人員及相關(guān)專業(yè)學(xué)生學(xué)習(xí)和參考。
王卓,前阿里達摩院創(chuàng)新業(yè)務(wù)中心資深算法工程師,參與了通義千大模型系列Qwen1、Qwen1.5的落地工作。精通大模型開發(fā)、計算機視覺、自然語言處理等方向的技術(shù),負(fù)責(zé)多個深度學(xué)習(xí)算法在各種大模型和不同場景的業(yè)務(wù)落地。
薛棟,華東理工大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授/碩士生導(dǎo)師,德國慕尼黑工業(yè)大學(xué)工學(xué)博士,“上海市高層次青年人才計劃”“浦江人才計劃”獲得者。長期從事基于人工智能與大數(shù)據(jù)相關(guān)研究。
王圣強,華東理工大學(xué)數(shù)學(xué)學(xué)院副教授、數(shù)學(xué)與應(yīng)用數(shù)學(xué)系副主任,復(fù)旦大學(xué)數(shù)學(xué)科學(xué)學(xué)院理學(xué)博士,先后榮獲第五屆上海高校青年教師教學(xué)競賽一等獎,上海市教學(xué)能手,校優(yōu)秀共產(chǎn)黨員,校青年五四獎?wù),校教學(xué)新星、校研究生課程優(yōu)秀任課教師等榮譽。
第1章 概率論基礎(chǔ) 001
1.1 概率的基本概念 002
1.1.1 概率的定義 002
1.1.2 概率的公理 002
1.1.3 概率的衍生 003
1.1.4 事件的運算:并、交、補 004
1.2 樣本空間與事件 007
1.2.1 樣本空間的定義 007
1.2.2 事件的分類:簡單事件與復(fù)合事件 010
1.2.3 事件概率的運算:加法與乘法規(guī)則 012
1.3 條件概率與獨立性 016
1.3.1 條件概率的定義與計算 016
1.3.2 事件的獨立性 019
1.3.3 全概率公式與貝葉斯定理 021
1.4 隨機變量與其分布 024
1.4.1 隨機變量的定義與類型 024
1.4.2 概率密度函數(shù)與概率質(zhì)量函數(shù) 026
1.4.3 隨機變量的分布 029
1.5 期望值、方差與協(xié)方差 031
1.5.1 期望值的定義與計算 032
1.5.2 方差與標(biāo)準(zhǔn)差 035
1.5.3 協(xié)方差與相關(guān)系數(shù) 037
1.6 大數(shù)定律與中心極限定理 039
1.6.1 大數(shù)定律的概念與證明 039
1.6.2 弱大數(shù)定律與強大數(shù)定律 042
1.6.3 中心極限定理的概念與證明 043
1.7 隨機過程 045
1.8 課后練習(xí) 048
第2章 描述統(tǒng)計與推斷統(tǒng)計 049
2.1 描述統(tǒng)計的基本概念 050
2.2 點估計與區(qū)間估計 055
2.3 假設(shè)檢驗 061
2.3.1 t 檢驗 061
2.3.2 z 檢驗 064
2.3.3 卡方檢驗 067
2.4 課后練習(xí) 070
第3章 回歸分析與方差分析 071
3.1 線性回歸介紹 072
3.1.1 線性回歸的背景 072
3.1.2 線性回歸的基本概念 072
3.1.3 線性回歸的分類 072
3.2 簡單線性回歸 073
3.3 多元線性回歸與相關(guān)性分析 076
3.3.1 多元線性回歸模型 076
3.3.2 相關(guān)性分析 079
3.3.3 多重共線性問題 081
3.4 邏輯回歸 083
3.4.1 邏輯回歸模型的基本概念 083
3.4.2 最大似然估計 086
3.4.3 邏輯回歸模型的評估 088
3.5 正則化技術(shù) 091
3.5.1 正則化的基本概念 092
3.5.2 L1 正則化(Lasso 回歸) 092
3.5.3 L2 正則化(Ridge 回歸) 094
3.5.4 Elastic Net 正則化(Elastic Net 回歸) 096
3.6 方差分析(ANOVA) 098
3.7 課后練習(xí) 101
第4章 時間序列分析與蒙特卡洛模擬 103
4.1 時間序列分析 104
4.1.1 時間序列的定義與分類 104
4.1.2 時間序列的組成 104
4.1.3 時間序列的平穩(wěn)性與非平穩(wěn)性 105
4.2 自回歸模型(AR)與移動平均模型(MA)105
4.2.1 自回歸模型(AR) 105
4.2.2 移動平均模型(MA) 108
4.2.3 自回歸模型和移動平均模型的比較與選擇 111
4.3 ARIMA 模型 112
4.3.1 ARIMA 模型的基本概念 112
4.3.2 模型識別與參數(shù)估計 114
4.4 時間序列的季節(jié)性與趨勢分析 119
4.4.1 季節(jié)性分析 119
4.4.2 趨勢分析 123
4.5 隨機抽樣與蒙特卡洛方法 125
4.5.1 隨機抽樣 125
4.5.2 蒙特卡洛方法 126
4.5.3 蒙特卡洛方法的優(yōu)化 128
4.5.4 時間序列建模與蒙特卡洛模擬 130
4.6 課后練習(xí) 132
第5章 數(shù)據(jù)表示與預(yù)處理 134
5.1 數(shù)據(jù)統(tǒng)計描述與可視化 135
5.2 數(shù)據(jù)歸一化與標(biāo)準(zhǔn)化 136
5.2.1 數(shù)據(jù)歸一化 136
5.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化 138
5.3 數(shù)據(jù)清洗與處理 141
5.3.1 異常值檢測與處理 141
5.3.2 缺失值處理 144
5.3.3 數(shù)據(jù)變換與縮放 147
5.4 特征工程 150
5.4.1 特征構(gòu)造與轉(zhuǎn)換 150
5.4.2 特征選擇的統(tǒng)計方法 152
5.5 課后練習(xí) 156
第6章 特征提取與選擇 157
6.1 特征提取基礎(chǔ) 158
6.1.1 特征提取的定義與目的 158
6.1.2 特征提取的方法 158
6.2 統(tǒng)計方法在特征提取中的應(yīng)用 159
6.2.1 主成分分析(PCA) 159
6.2.2 獨立成分分析 163
6.2.3 線性判別分析 166
6.3 特征選擇 168
6.3.1 基于統(tǒng)計的特征選擇方法 169
6.3.2 基于模型的特征選擇方法 171
6.3.3 嵌入式特征選擇方法 173
6.4 課后練習(xí) 176
第7章 網(wǎng)絡(luò)模型架構(gòu):從理論到實踐 177
7.1 網(wǎng)絡(luò)模型解析 178
7.1.1 模型演進之路:從傳統(tǒng)機器學(xué)習(xí)到深度學(xué)習(xí) 178
7.1.2 模型架構(gòu)基礎(chǔ):定義標(biāo)準(zhǔn)與分類圖譜 179
7.2 機器學(xué)習(xí)模型的構(gòu)建與應(yīng)用 182
7.2.1 線性回歸模型:數(shù)據(jù)預(yù)測的基石 182
7.2.2 邏輯回歸模型:二分類問題的解決之道 186
7.2.3 支持向量機(SVM):尋找最優(yōu)分類超平面 190
7.2.4 決策樹:基于特征分裂的決策模型 193
7.2.5 隨機森林:集成學(xué)習(xí)方法提升模型泛化能力 195
7.2.6 K- 最近鄰算法模型:基于實例的學(xué)習(xí)方法 198
7.3 深度學(xué)習(xí)模型的構(gòu)建與創(chuàng)新 202
7.3.1 前饋神經(jīng)網(wǎng)絡(luò)(FNN):神經(jīng)網(wǎng)絡(luò)的基本形態(tài) 202
7.3.2 卷積神經(jīng)網(wǎng)絡(luò):圖像識別的強大工具 205
7.3.3 循環(huán)神經(jīng)網(wǎng)絡(luò):處理序列數(shù)據(jù) 210
7.3.4 長短期記憶人工神經(jīng)網(wǎng)絡(luò):解決梯度
消失與爆炸問題 213
7.3.5 生成對抗網(wǎng)絡(luò):生成模型的創(chuàng)新突破 217
7.4 課后練習(xí) 220
第8章 模型優(yōu)化:從理論到實踐 221
8.1 模型優(yōu)化技術(shù)解析 222
8.2 基礎(chǔ)優(yōu)化算法:梯度下降與自適應(yīng)學(xué)習(xí)率 222
8.2.1 梯度下降的原理與應(yīng)用 222
8.2.2 自適應(yīng)學(xué)習(xí)率算法的基礎(chǔ)理論和實際應(yīng)用 226
8.3 二階優(yōu)化算法的原理與應(yīng)用 229
8.3.1 牛頓法與擬牛頓法 230
8.3.2 RMSprop:適應(yīng)性二階近似 233
8.3.3 二階優(yōu)化深度探索 236
8.4 正則化技術(shù)與模型泛化 239
8.4.1 正則化技術(shù)概述 239
8.4.2 L1 正則化:稀疏性約束 240
8.4.3 L2 正則化:權(quán)重衰減 242
8.4.4 Dropout:使神經(jīng)元“失活” 244
8.5 超參數(shù)優(yōu)化策略 247
8.5.1 超參數(shù)基礎(chǔ)概念 247
8.5.2 貝葉斯優(yōu)化:高效優(yōu)化策略 247
8.6 課后練習(xí) 250
第9章 模型評估與解釋:從度量到洞察 251
9.1 模型評估介紹 252
9.1.1 常用的模型評估指標(biāo) 252
9.1.2 評估指標(biāo)的數(shù)學(xué)基礎(chǔ):概率與統(tǒng)計原理 252
9.2 性能指標(biāo)與損失函數(shù)對照 255
9.2.1 損失函數(shù)與性能指標(biāo)的關(guān)聯(lián) 255
9.2.2 性能指標(biāo)中概率與統(tǒng)計的應(yīng)用 256
9.3 模型解釋性技術(shù)解析 260
9.3.1 模型解釋性技術(shù)的核心理念 260
9.3.2 概率與統(tǒng)計在模型解釋性技術(shù)中的應(yīng)用 260
9.4 重要評估參數(shù):靈敏度分析與梯度檢查 264
9.4.1 概率與統(tǒng)計在靈敏度分析中的應(yīng)用 264
9.4.2 梯度檢查:驗證反向傳播的正確性 266
9.5 誤差分析與模型診斷 270
9.5.1 誤差分析:誤差類型與來源識別 270
9.5.2 模型診斷流程:從可視化到改進策略 273
9.6 課后練習(xí) 278
第10章 計算機語言處理的數(shù)學(xué)基石:NLP 中的概率與統(tǒng)計實戰(zhàn) 279
10.1 初識 NLP 280
10.1.1 NLP 的基本概念與多元應(yīng)用 280
10.1.2 概率與統(tǒng)計在 NLP 中的關(guān)鍵作用 280
10.2 詞嵌入的概念與應(yīng)用 281
10.2.1 概率與統(tǒng)計在詞嵌入中的作用 281
10.2.2 主流詞嵌入模型介紹 281
10.3 表示學(xué)習(xí)的概念與應(yīng)用 284
10.3.1 表示學(xué)習(xí)的核心思想與流程 284
10.3.2 概率與統(tǒng)計在表示學(xué)習(xí)中的作用 285
10.4 語言模型與序列建模的簡介與應(yīng)用 287
10.4.1 語言模型的應(yīng)用 288
10.4.2 概率與統(tǒng)計在語言模型中的應(yīng)用 288
10.5 注意力機制與 Transformer 的創(chuàng)新應(yīng)用 291
10.6 課后練習(xí) 295
第11章 計算機視覺中的概率與統(tǒng)計應(yīng)用 296
11.1 計算機視覺技術(shù)基礎(chǔ) 297
11.1.1 計算機視覺的應(yīng)用 297
11.1.2 概率與統(tǒng)計在視覺識別中的作用 297
11.2 圖像處理與變換技術(shù) 298
11.2.1 常用的圖像處理技術(shù) 298
11.2.2 圖像處理:梯度計算與邊緣檢測 299
11.2.3 圖像增強:畫質(zhì)提升關(guān)鍵技術(shù) 301
11.2.4 幾何變換和圖像變換技術(shù)的原理與應(yīng)用 304
11.2.5 圖像分割技術(shù)的原理與應(yīng)用 307
11.3 特征提取與描述的原理與應(yīng)用 310
11.3.1 特征提取的核心方法 310
11.3.2 概率和統(tǒng)計在特征提取中的應(yīng)用 310
11.4 概率與統(tǒng)計在計算機視覺中的應(yīng)用 313
11.4.1 卷積神經(jīng)網(wǎng)絡(luò)的原理與實踐 313
11.4.2 分類利器:支持向量機(SVM) 316
11.4.3 圖像生成與變換 319
11.5 目標(biāo)檢測與定位的原理與應(yīng)用 323
11.5.1 傳統(tǒng)方法回顧:早期目標(biāo)檢測技術(shù)盤點 323
11.5.2 基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù) 325
11.6 課后練習(xí) 327
第 12 章 推薦系統(tǒng)介紹及概率和統(tǒng)計的作用 328
12.1 推薦系統(tǒng)概述 329
12.1.1 推薦系統(tǒng)的分類與特點 329
12.1.2 推薦系統(tǒng)的應(yīng)用領(lǐng)域 329
12.1.3 概率與統(tǒng)計在推薦系統(tǒng)中的作用 330
12.2 推薦算法的原理與應(yīng)用 331
12.2.1 精確匹配:基于內(nèi)容的推薦 331
12.2.2 “眾人之選”:基于協(xié)同過濾的推薦 333
12.3 基于標(biāo)簽的推薦 336
12.3.1 獲取用戶標(biāo)簽 336
12.3.2 基于用戶興趣標(biāo)簽的推薦算法介紹 337
12.3.3 基于物品標(biāo)簽的推薦算法介紹 340
12.4 基于深度學(xué)習(xí)的推薦模型 343
12.4.1 深度學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用 343
12.4.2 基于 MLP 的推薦模型在推薦系統(tǒng)中的應(yīng)用 343
12.4.3 基于卷積神經(jīng)網(wǎng)絡(luò)的推薦模型 348
12.5 課后練習(xí) 354
第 13 章 強化學(xué)習(xí)介紹及概率與統(tǒng)計的應(yīng)用 356
13.1 強化學(xué)習(xí)概述 357
13.1.1 強化學(xué)習(xí)的核心機制 357
13.1.2 強化學(xué)習(xí)與其他機器學(xué)習(xí)方法的綜合對比 357
13.1.3 概率與統(tǒng)計在強化學(xué)習(xí)中的作用 358
13.2 狀態(tài)表示與動作表示的基本概念與應(yīng)用 359
13.2.1 狀態(tài)表示和動作表示的基本概念 359
13.2.2 概率與統(tǒng)計在狀態(tài)表示和動作表示中的作用 359
13.3 價值函數(shù)的基本概念與應(yīng)用 362
13.3.1 價值函數(shù)的基本概念 362
13.3.2 概率與統(tǒng)計在價值函數(shù)中的應(yīng)用 363
13.4 策略表示的基本概念與應(yīng)用 364
13.4.1 策略表示的基本概念 364
13.4.2 概率與統(tǒng)計在策略表示中的應(yīng)用 365
13.5 馬爾可夫決策過程的基本概念與應(yīng)用 369
13.5.1 馬爾可夫決策過程的核心要素 369
13.5.2 概率與統(tǒng)計在馬爾可夫決策過程中的應(yīng)用 370
13.5.3 貝爾曼方程的形式及概率與統(tǒng)計的作用 373
13.6 蒙特卡洛方法的基本概念與應(yīng)用 380
13.6.1 蒙特卡洛方法的核心思想及概率與統(tǒng)計的作用 381
13.6.2 蒙特卡洛方法的改進 384
13.7 Q-Learning 算法 387
13.7.1 Q-Learning 的動作值函數(shù) 387
13.7.2 概率與統(tǒng)計在 Q-Learning 中的作用 388
13.8 課后練習(xí) 392