定 價:158 元
叢書名:大數(shù)據(jù)與數(shù)據(jù)科學(xué)專著系列
- 作者:陳志平,劉嘉,徐宗本
- 出版時間:2025/10/1
- ISBN:9787508867519
- 出 版 社:科學(xué)出版社
- 中圖法分類:TP181
- 頁碼:410
- 紙張:
- 版次:1
- 開本:B5
本書旨在介紹近年來作者在強化學(xué)習(xí)和隨機優(yōu)化交叉領(lǐng)域的研究成果,主要內(nèi)容包括隨機優(yōu)化的定量穩(wěn)定性分析,求解多階段隨機優(yōu)化的新型情景樹生成、約減方法,機會約束規(guī)劃問題的模型轉(zhuǎn)換、凸逼近與求解,非平穩(wěn)強化學(xué)習(xí)的樣本復(fù)雜度與泛化能力分析,隨機優(yōu)化和強化學(xué)習(xí)的統(tǒng)一模型及其基本性質(zhì),風(fēng)險厭惡馬氏決策過程與強化學(xué)習(xí),分布魯棒機會約束馬氏決策過程及其轉(zhuǎn)換與求解算法設(shè)計,連續(xù)狀態(tài)集合、連續(xù)動作集合下無限智能體的連續(xù)時間平均場強化學(xué)習(xí)問題的性質(zhì)與Actor-Critic型求解算法,以及強化學(xué)習(xí)在多期投資組合選擇中的應(yīng)用。本書的目的是幫助讀者掌握如何應(yīng)用強化學(xué)習(xí)或隨機優(yōu)化來處理不確定環(huán)境下的復(fù)雜動態(tài)決策問題、如何開展強化學(xué)習(xí)和隨機優(yōu)化的交叉研究,以便他們能夠盡快進入相應(yīng)研究領(lǐng)域的前沿。
更多科學(xué)出版社服務(wù),請掃碼獲取。
1982年9月—1986年7月,西安交大數(shù)學(xué)系,本科生,獲理學(xué)學(xué)士學(xué)位
1986年9月—1989年6月,西安交大數(shù)學(xué)系,碩士研究生,獲理學(xué)碩士學(xué)位
1989年9月—1992年6月,西安交大數(shù)學(xué)系,博士研究生,獲理學(xué)博士學(xué)位1992.07 — 1994.10 西安交大數(shù)學(xué)系任講師
1994.11 — 1995.06 荷蘭 Eindhoven 工業(yè)大學(xué)作訪問研究員
1995.07 — 1996.04 西安交大理學(xué)院科學(xué)計算與應(yīng)用軟件系任講師
1996.05 — 1997.12 英國 Cambridge 大學(xué)作博士后研究員
1998.03 — 1998.06 香港中文大學(xué)作博士后研究員
1998.07 至今 西安交大理學(xué)院科學(xué)計算與應(yīng)用軟件系任副教授、教授數(shù)學(xué)、運籌學(xué)、人工智能長期從事隨機規(guī)劃理論及其應(yīng)用、分布式魯棒優(yōu)化、強化學(xué)習(xí)、金融風(fēng)險度量與投資分析等領(lǐng)域的研究,取得了一系列較好的成果!禣R Spectrum》編委,《Big Data and Information Analytics》編委、《工程數(shù)學(xué)學(xué)報》編委、編輯部主任;現(xiàn)任中國運籌學(xué)會常務(wù)理事,中國運籌學(xué)會金融工程與金融風(fēng)險管理分會副理事長,中國管理科學(xué)與工程學(xué)會金融計量與風(fēng)險管理研究會常務(wù)理事,F(xiàn)任西安交通大學(xué)西安數(shù)學(xué)與數(shù)學(xué)技術(shù)研究院常務(wù)副院長、國家天元數(shù)學(xué)西北中心副主任。
目錄:
《大數(shù)據(jù)與數(shù)據(jù)科學(xué)專著系列》序
前言
主要符號表
第1章 隨機優(yōu)化與強化學(xué)習(xí)簡介 1
1.1 隨機優(yōu)化 1
1.1.1 兩階段有補償優(yōu)化問題 1
1.1.2 兩階段混合整數(shù)隨機優(yōu)化 5
1.1.3 多階段隨機優(yōu)化 7
1.1.4 機會約束規(guī)劃 10
1.1.5 分布魯棒隨機優(yōu)化 13
1.2 馬氏決策過程 16
1.2.1 馬氏決策過程的基本概念 17
1.2.2 決策規(guī)則與策略分類 18
1.2.3 性能準(zhǔn)則與最優(yōu)策略 19
1.2.4 最優(yōu)性方程與算法 22
1.3 強化學(xué)習(xí) 28
1.3.1 強化學(xué)習(xí)的基本要素 28
1.3.2 TD類方法 32
1.3.3 策略梯度方法 36
1.3.4 Dyna-Q方法 38
1.4 小結(jié) 40
第2章 隨機優(yōu)化的定量穩(wěn)定性 41
2.1 預(yù)備知識 41
2.2 全隨機兩階段隨機優(yōu)化問題的定量穩(wěn)定性 46
2.2.1 模型基本性質(zhì) 46
2.2.2 定量穩(wěn)定性結(jié)果 50
2.3 風(fēng)險厭惡全隨機兩階段隨機優(yōu)化問題的定量穩(wěn)定性 53
2.3.1 模型基本性質(zhì) 54
2.3.2 定量穩(wěn)定性結(jié)果 57
2.4 兩階段混合整數(shù)隨機優(yōu)化問題的定量穩(wěn)定性 61
2.4.1 固定補償情形 62
2.4.2 隨機補償情形 67
2.5 連續(xù)二次全隨機補償?shù)膬呻A段隨機優(yōu)化問題的定量穩(wěn)定性 69
2.5.1 模型基本性質(zhì) 70
2.5.2 定量穩(wěn)定性結(jié)果 72
2.6 混合整數(shù)二次補償?shù)膬呻A段隨機優(yōu)化問題的定量穩(wěn)定性 79
2.6.1 模型基本性質(zhì) 80
2.6.2 定量穩(wěn)定性結(jié)果 82
2.7 多階段隨機優(yōu)化問題的定量穩(wěn)定性 86
2.7.1 多階段隨機線性優(yōu)化模型的基本性質(zhì) 86
2.7.2 多階段隨機線性優(yōu)化問題的定量穩(wěn)定性 88
2.7.3 風(fēng)險厭惡多階段隨機優(yōu)化問題的基本性質(zhì) 91
2.7.4 風(fēng)險厭惡多階段隨機優(yōu)化問題的定量穩(wěn)定性 93
2.8 小結(jié) 96
第3章 求解多階段隨機優(yōu)化的情景樹方法 97
3.1 隨機優(yōu)化求解算法概述 97
3.1.1 分解類方法 97
3.1.2 抽樣型方法 99
3.1.3 情景樹方法 101
3.2 情景樹方法發(fā)展概述 102
3.2.1 情景樹的基本概念 102
3.2.2 情景樹方法研究現(xiàn)狀 103
3.3 情景樹生成方法 107
3.3.1 基于VAR-MGARCH模型和矩匹配的情景樹生成方法 107
3.3.2 基于動態(tài)混合Copula函數(shù)的情景樹生成方法 113
3.4 情景樹約減方法 118
3.4.1 基于合并節(jié)點的情景樹約減方法 118
3.4.2 基于隨機優(yōu)化定量穩(wěn)定性的情景樹約減方法 130
3.5 數(shù)值實驗 137
3.5.1 情景樹生成方法的數(shù)值分析 138
3.5.2 情景樹約減方法的數(shù)值分析 141
3.6 小結(jié) 144
第4章 機會約束規(guī)劃 145
4.1 機會約束幾何規(guī)劃問題 145
4.2 正態(tài)分布下的機會約束 149
4.2.1 凸幾何逼近 150
4.2.2 序列凸逼近 152
4.3 基于矩信息的分布魯棒機會約束 154
4.3.1 基于前兩階矩的IRGP 154
4.3.2 基于前兩階矩的JRGP 160
4.4 基于K-L散度的分布魯棒機會約束 165
4.4.1 基于K-L散度的IRGP 165
4.4.2 基于K-L散度的JRGP 168
4.5 基于Wasserstein距離的分布魯棒機會約束 171
4.5.1 基于Wasserstein距離的IRGP 171
4.5.2 基于Wasserstein距離的JRGP 179
4.6 數(shù)值實驗 183
4.6.1 分片線性逼近 185
4.6.2 獨立和聯(lián)合機會約束的比較 186
4.6.3 正負相關(guān)的影響 187
4.6.4 機會約束的滿足情況 187
4.6.5 數(shù)據(jù)驅(qū)動問題 190
4.7 小結(jié) 191
第5章 非平穩(wěn)強化學(xué)習(xí)的樣本復(fù)雜度與泛化能力 192
5.1 樣本復(fù)雜度與泛化能力 192
5.2 強化學(xué)習(xí)的蒙特卡羅抽樣方法 194
5.2.1 有限期強化學(xué)習(xí) 194
5.2.2 無限期強化學(xué)習(xí) 202
5.3 主動強化學(xué)習(xí)的樣本平均近似方法 204
5.3.1 有限期強化學(xué)習(xí) 205
5.3.2 無限期強化學(xué)習(xí) 210
5.4 小結(jié) 211
第6章 隨機優(yōu)化和強化學(xué)習(xí)的統(tǒng)一模型 212
6.1 引言 212
6.2 統(tǒng)一模型導(dǎo)出 214
6.2.1 內(nèi)生隨機性及外生隨機性 215
6.2.2 統(tǒng)一模型 217
6.2.3 統(tǒng)一模型與現(xiàn)有模型的關(guān)系 218
6.3 統(tǒng)一模型的基本性質(zhì) 220
6.4 定量穩(wěn)定性分析 235
6.4.1 關(guān)于內(nèi)生隨機性的定量穩(wěn)定性 236
6.4.2 關(guān)于外生隨機性的定量穩(wěn)定性 244
6.5 小結(jié) 267
第7章 風(fēng)險厭惡馬氏決策過程與強化學(xué)習(xí) 268
7.1 預(yù)備知識 268
7.1.1 幾類新近提出的MDP模型 268
7.1.2 貝葉斯復(fù)合風(fēng)險度量 269
7.2 貝葉斯復(fù)合風(fēng)險MDP 271
7.3 有限期BCR-MDP問題 275
7.4 無限期BCR-MDP問題 279
7.4.1 貝爾曼方程與最優(yōu)性條件 279
7.4.2 收斂性分析 283
7.5 基于BCR-MDP的價值迭代算法和策略迭代算法 292
7.5.1 價值迭代 292
7.5.2 策略迭代 295
7.6 針對BCR-MDP的樣本平均近似算法 297
7.7 數(shù)值實驗 301
7.7.1 有限期賭博問題 301
7.7.2 無限庫存控制問題 305
7.8 小結(jié) 305
第8章 機會約束馬氏決策過程與強化學(xué)習(xí) 306
8.1 機會約束馬氏決策過程 306
8.1.1 通常機會約束馬氏決策過程 309
8.1.2 分布魯棒機會約束馬氏決策過程 309
8.2 基于矩信息的分布魯棒機會約束馬氏決策過程 310
8.2.1 J-DRCCMDP問題的等價轉(zhuǎn)化形式 310
8.2.2 J-DRCCMDP問題的求解算法 312
8.3 基于K-L散度的分布魯棒機會約束馬氏決策過程 314
8.3.1 獨立K-L DRCCMDP 317
8.3.2 聯(lián)合K-L DRCCMDP 320
8.4 分布魯棒機會約束優(yōu)化的強化學(xué)習(xí)方法 323
8.4.1 數(shù)值實驗 328
8.5 小結(jié) 328
第9章 平均場強化學(xué)習(xí) 329
9.1 多智能體系統(tǒng) 329
9.2 有限智能體系統(tǒng)的離散平均場強化學(xué)習(xí) 330
9.2.1 有限多智能體的隨機博弈 330
9.2.2 納什Q學(xué)習(xí) 332
9.2.3 平均場強化學(xué)習(xí) 332
9.2.4 平均場近似 334
9.2.5 算法實現(xiàn) 334
9.2.6 數(shù)值實驗 336
9.3 無限智能體系統(tǒng)的連續(xù)平均場強化學(xué)習(xí) 339
9.3.1 無限智能體平均場博弈的策略梯度 339
9.3.2 連續(xù)平均場博弈的策略評估 350
9.3.3 連續(xù)平均場博弈的Actor-Critic算法 350
9.3.4 數(shù)值實驗 359
9.4 小結(jié) 362
第10章 強化學(xué)習(xí)在多期投資組合選擇中的應(yīng)用 364
10.1 多期投資組合投資概述 364
10.2 強化學(xué)習(xí)魯棒投資組合選擇模型 366
10.3 強化學(xué)習(xí)魯棒投資組合選擇模型的求解 368
10.3.1 基于漸近相對效率的雙層分解算法 368
10.3.2 增廣拉格朗日乘子法 369
10.3.3 參考分布更新 370
10.4 實證研究 371
10.5 小結(jié) 376
參考文獻 377
《大數(shù)據(jù)與數(shù)據(jù)科學(xué)專著系列》已出版書目 411