數(shù)據(jù)挖掘技術(shù)是量化投資的基礎(chǔ),大部分量化投資策略都是基于數(shù)據(jù)挖掘技術(shù)而得到的,所以本書的中心是介紹在量化投資領(lǐng)域常用的數(shù)據(jù)挖掘技術(shù)及如何運(yùn)用這些技術(shù)去進(jìn)行量化選股、量化擇時(shí)等量化投資實(shí)踐行為。本書將要介紹的數(shù)據(jù)挖掘技術(shù)包括數(shù)據(jù)的預(yù)處理、關(guān)聯(lián)、分類、回歸、聚類、預(yù)測、異常檢測等具體的數(shù)據(jù)挖掘技術(shù),在每個(gè)技術(shù)環(huán)節(jié),都有實(shí)際的應(yīng)用案例和實(shí)現(xiàn)程序,這樣便于讀者快速入手。本書最后將給出至少一個(gè)這些技術(shù)的綜合應(yīng)用案例,以加深這些技術(shù)在實(shí)際量化投資實(shí)踐中的應(yīng)用體會。
卓金武,MathWorks中國科學(xué)計(jì)算業(yè)務(wù)總監(jiān),主要職責(zé)是向中國區(qū)MATLAB正版用戶提供數(shù)據(jù)挖掘和量化投資解決方案。曾2次獲全國大學(xué)生數(shù)學(xué)建模競賽一等獎(jiǎng) (2003, 2004),1次獲全國研究生數(shù)學(xué)建模競賽一等獎(jiǎng) (2007);主編三著兩部:《MATLAB在數(shù)學(xué)建模中的應(yīng)用》(第一版和第二版),《量化投資:數(shù)據(jù)挖掘技術(shù)與實(shí)踐(MATLAB版)》。周英,中科數(shù)據(jù)首席數(shù)據(jù)科學(xué)家,曾就職于知名搜索引擎公司6年,主要從事互聯(lián)網(wǎng)文本挖掘工作的研發(fā)工作,目前專注的領(lǐng)域?yàn)榇髷?shù)據(jù)挖掘技術(shù)的工業(yè)應(yīng)用研究和工程應(yīng)用,曾獲美國大學(xué)生數(shù)學(xué)建模競賽二等獎(jiǎng)一項(xiàng),全國研究生數(shù)學(xué)建模競賽二等獎(jiǎng)一項(xiàng),著有《大數(shù)據(jù)挖掘:系統(tǒng)方法與實(shí)例分析》
第一篇 基礎(chǔ)篇
第1章 緒論 2
1.1 量化投資與數(shù)據(jù)挖掘的關(guān)系 2
1.1.1 什么是量化投資 2
1.1.2 量化投資的特點(diǎn) 3
1.1.3 量化投資的核心――量化模型 5
1.1.4 量化模型的主要產(chǎn)生方法――
數(shù)據(jù)挖掘 7
1.2 數(shù)據(jù)挖掘的概念和原理 8
1.2.1 什么是數(shù)據(jù)挖掘 8
1.2.2 數(shù)據(jù)挖掘的原理 10
1.3 數(shù)據(jù)挖掘在量化投資中的應(yīng)用 11
1.3.1 宏觀經(jīng)濟(jì)分析 11
1.3.2 估價(jià) 13
1.3.3 量化選股 14
1.3.4 量化擇時(shí) 14
1.3.5 算法交易 14
1.4 本章小結(jié) 15
參考文獻(xiàn) 16
第2章 數(shù)據(jù)挖掘的內(nèi)容、過程及
工具 17
2.1 數(shù)據(jù)挖掘的內(nèi)容 17
2.1.1 關(guān)聯(lián) 17
2.1.2 回歸 19
2.1.3 分類 20
2.1.4 聚類 21
2.1.5 預(yù)測 22
2.1.6 診斷 23
2.2 數(shù)據(jù)挖掘過程 24
2.2.1 數(shù)據(jù)挖掘過程概述 24
2.2.2 挖掘目標(biāo)的定義 25
2.2.3 數(shù)據(jù)的準(zhǔn)備 26
2.2.4 數(shù)據(jù)的探索 28
2.2.5 模型的建立 29
2.2.6 模型的評估 33
2.2.7 模型的部署 35
2.3 數(shù)據(jù)挖掘工具 36
2.3.1 MATLAB 36
2.3.2 SAS 37
2.3.3 SPSS 38
2.3.4 WEKA 39
2.3.5 R 41
2.3.6 工具的比較與選擇 42
2.4 本章小結(jié) 43
參考文獻(xiàn) 43
第3章 MATLAB快速入門 44
3.1 MATLAB快速入門 44
3.1.1 MATLAB概要 44
3.1.2 MATLAB的功能 45
3.1.3 快速入門案例 46
3.1.4 入門后的提高 55
3.2 MATLAB常用技巧 55
3.2.1 常用標(biāo)點(diǎn)的功能 55
3.2.2 常用操作指令 56
3.2.3 指令編輯操作鍵 56
3.2.4 MATLAB數(shù)據(jù)類型 56
3.3 MATLAB開發(fā)模式 58
3.3.1 命令行模式 58
3.3.2 腳本模式 58
3.3.3 面向?qū)ο竽J?58
3.3.4 三種模式的配合 58
3.4 小結(jié) 59
第二篇 技術(shù)篇
第4章 數(shù)據(jù)的準(zhǔn)備 63
4.1 數(shù)據(jù)的收集 63
4.1.1 認(rèn)識數(shù)據(jù) 63
4.1.2 數(shù)據(jù)挖掘的數(shù)據(jù)源 64
4.1.3 數(shù)據(jù)抽樣 65
4.1.4 量化投資的數(shù)據(jù)源 67
4.1.5 從雅虎獲取交易數(shù)據(jù) 69
4.1.6 從大智慧獲取財(cái)務(wù)數(shù)據(jù) 71
4.1.7 從Wind中獲取高質(zhì)量數(shù)據(jù) 73
4.2 數(shù)據(jù)質(zhì)量分析 75
4.2.1 數(shù)據(jù)質(zhì)量分析的必要性 75
4.2.2 數(shù)據(jù)質(zhì)量分析的目的 75
4.2.3 數(shù)據(jù)質(zhì)量分析的內(nèi)容 76
4.2.4 數(shù)據(jù)質(zhì)量分析的方法 76
4.2.5 數(shù)據(jù)質(zhì)量分析的結(jié)果及應(yīng)用 82
4.3 數(shù)據(jù)預(yù)處理 82
4.3.1 為什么需要數(shù)據(jù)預(yù)處理 82
4.3.2 數(shù)據(jù)預(yù)處理的主要任務(wù) 83
4.3.3 數(shù)據(jù)清洗 84
4.3.4 數(shù)據(jù)集成 88
4.3.5 數(shù)據(jù)歸約 89
4.3.6 數(shù)據(jù)變換 90
4.4 本章小結(jié) 92
參考文獻(xiàn) 93
第5章 數(shù)據(jù)的探索 94
5.1 衍生變量 95
5.1.1 衍生變量的定義 95
5.1.2 變量衍生的原則和方法 96
5.1.3 常用的股票衍生變量 96
5.1.4 評價(jià)型衍生變量 101
5.1.5 衍生變量數(shù)據(jù)收集與集成 103
5.2 數(shù)據(jù)的統(tǒng)計(jì) 104
5.2.1 基本描述性統(tǒng)計(jì) 105
5.2.2 分布描述性統(tǒng)計(jì) 106
5.3 數(shù)據(jù)可視化 106
5.3.1 基本可視化方法 107
5.3.2 數(shù)據(jù)分布形狀可視化 108
5.3.3 數(shù)據(jù)關(guān)聯(lián)情況可視化 110
5.3.4 數(shù)據(jù)分組可視化 111
5.4 樣本選擇 113
5.4.1 樣本選擇的方法 113
5.4.2 樣本選擇應(yīng)用實(shí)例 113
5.5 數(shù)據(jù)降維 116
5.5.1 主成分分析(PCA)基本
原理 116
5.5.2 PCA應(yīng)用案例:企業(yè)綜合
實(shí)力排序 118
5.5.3 相關(guān)系數(shù)降維 122
5.6 本章小結(jié) 123
參考文獻(xiàn) 123
第6章 關(guān)聯(lián)規(guī)則方法 124
6.1 關(guān)聯(lián)規(guī)則概要 124
6.1.1 關(guān)聯(lián)規(guī)則的提出背景 124
6.1.2 關(guān)聯(lián)規(guī)則的基本概念 125
6.1.3 關(guān)聯(lián)規(guī)則的分類 127
6.1.4 關(guān)聯(lián)規(guī)則挖掘常用算法 128
6.2 Apriori算法 128
6.2.1 Apriori算法的基本思想 128
6.2.2 Apriori算法的步驟 129
6.2.3 Apriori算法的實(shí)例 129
6.2.4 Apriori算法的程序?qū)崿F(xiàn) 132
6.2.5 Apriori算法的優(yōu)缺點(diǎn) 135
6.3 FP-Growth算法 136
6.3.1 FP-Growth算法步驟 136
6.3.2 FP-Growth算法實(shí)例 137
6.3.3 FP-Growth算法的優(yōu)缺點(diǎn) 139
6.4 應(yīng)用實(shí)例:行業(yè)關(guān)聯(lián)選股法 139
6.5 本章小結(jié) 141
參考文獻(xiàn) 142
第7章 數(shù)據(jù)回歸方法 143
7.1 一元回歸 144
7.1.1 一元線性回歸 144
7.1.2 一元非線性回歸 148
7.1.3 一元多項(xiàng)式回歸 153
7.2 多元回歸 153
7.2.1 多元線性回歸 153
7.2.2 多元多項(xiàng)式回歸 157
7.3 逐步歸回 160
7.3.1 逐步回歸的基本思想 160
7.3.2 逐步回歸步驟 161
7.3.3 逐步回歸的MATLAB方法 162
7.4 Logistic回歸 164
7.4.1 Logistic模型 164
7.4.2 Logistic回歸實(shí)例 165
7.5 應(yīng)用實(shí)例:多因子選股模型
的實(shí)現(xiàn) 168
7.5.1 多因子模型的基本思想 168
7.5.2 多因子模型的實(shí)現(xiàn) 169
7.6 本章小結(jié) 172
參考文獻(xiàn) 172
第8章 分類方法 173
8.1 分類方法概要 173
8.1.1 分類的概念 173
8.1.2 分類的原理 174
8.1.3 常用的分類方法 175
8.2 K-近鄰(KNN) 176
8.2.1 K-近鄰原理 176
8.2.2 K-近鄰實(shí)例 177
8.2.3 K-近鄰特點(diǎn) 180
8.3 貝葉斯分類 181
8.3.1 貝葉斯分類原理 181
8.3.2 樸素貝葉斯分類原理 182
8.3.3 樸素貝葉斯分類實(shí)例 184
8.3.4 樸素貝葉斯特點(diǎn) 185
8.4 神經(jīng)網(wǎng)絡(luò) 185
8.4.1 神經(jīng)網(wǎng)絡(luò)的原理 185
8.4.2 神經(jīng)網(wǎng)絡(luò)的實(shí)例 188
8.4.3 神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 188
8.5 邏輯斯蒂(Logistic) 189
8.5.1 邏輯斯蒂的原理 189
8.5.2 邏輯斯蒂的實(shí)例 189
8.5.3 邏輯斯蒂的特點(diǎn) 189
8.6 判別分析 190
8.6.1 判別分析的原理 190
8.6.2 判別分析的實(shí)例 191
8.6.3 判別分析的特點(diǎn) 191
8.7 支持向量機(jī)(SVM) 192
8.7.1 SVM的基本思想 192
8.7.2 理論基礎(chǔ) 193
8.7.3 支持向量機(jī)的實(shí)例 196
8.7.4 支持向量機(jī)的特點(diǎn) 196
8.8 決策樹 197
8.8.1 決策樹的基本概念 197
8.8.2 決策樹的建構(gòu)的步驟 198
8.8.3 決策樹的實(shí)例 201
8.8.4 決策樹的特點(diǎn) 202
8.9 分類的評判 202
8.9.1 正確率 202
8.9.2 ROC曲線 204
8.10 應(yīng)用實(shí)例:分類選股法 206
8.10.1 案例背景 206
8.10.2 實(shí)現(xiàn)方法 208
8.11 延伸閱讀:其他分類方法 210
8.12 本章小結(jié) 211
參考文獻(xiàn) 211
第9章 聚類方法 212
9.1 聚類方法概要 212
9.1.1 聚類的概念 212
9.1.2 類的度量方法 214
9.1.3 聚類方法的應(yīng)用場景 216
9.1.4 聚類方法的分類 217
9.2 K-means方法 217
9.2.1 K-means的原理和步驟 218
9.2.2 K-means實(shí)例1:自主編程 219
9.2.3 K-means實(shí)例2:集成函數(shù) 221
9.2.4 K-means的特點(diǎn) 224
9.3 層次聚類 225
9.3.1 層次聚類的原理和步驟 225
9.3.2 層次聚類的實(shí)例 227
9.3.3 層次聚類的特點(diǎn) 229
9.4 神經(jīng)網(wǎng)絡(luò)聚類 229
9.4.1 神經(jīng)網(wǎng)絡(luò)聚類的原理和步驟 229
9.4.2 神經(jīng)網(wǎng)絡(luò)聚類的實(shí)例 229
9.4.3 神經(jīng)網(wǎng)絡(luò)聚類的特點(diǎn) 230
9.5 模糊C-均值(FCM)方法 230
9.5.1 FCM的原理和步驟 230
9.5.2 FCM的應(yīng)用實(shí)例 232
9.5.3 FCM算法的特點(diǎn) 233
9.6 高斯混合聚類方法 233
9.6.1 高斯混合聚類的原理和步驟 233
9.6.2 高斯聚類的實(shí)例 236
9.6.3 高斯聚類的特點(diǎn) 236
9.7 類別數(shù)的確定方法 237
9.7.1 類別的原理 237
9.7.2 類別的實(shí)例 238
9.8 應(yīng)用實(shí)例:股票聚類分池 240
9.8.1 聚類目標(biāo)和數(shù)據(jù)描述 240
9.8.2 實(shí)現(xiàn)過程 240
9.8.3 結(jié)果及分析 242
9.9 延伸閱讀 244
9.9.1 目前聚類分析研究的主要
內(nèi)容 244
9.9.2 SOM智能聚類算法 245
9.10 本章小結(jié) 246
參考文獻(xiàn) 246
第10章 預(yù)測方法 247
10.1 預(yù)測方法概要 247
10.1.1 預(yù)測的概念 247
10.1.2 預(yù)測的基本原理 248
10.1.3 量化投資中預(yù)測的主要
內(nèi)容 249
10.1.4 預(yù)測的準(zhǔn)確度評價(jià)及影響
因素 250
10.1.5 常用的預(yù)測方法 251
10.2 灰色預(yù)測 252
10.2.1 灰色預(yù)測原理 252
10.2.2 灰色預(yù)測的實(shí)例 254
10.3 馬爾科夫預(yù)測 256
10.3.1 馬爾科夫預(yù)測的原理 256
10.3.2 馬爾科夫過程的特性 257
10.3.3 馬爾科夫預(yù)測的實(shí)例 258
10.4 應(yīng)用實(shí)例:大盤走勢預(yù)測 262
10.4.1 數(shù)據(jù)的選取及模型的建立 263
10.4.2 預(yù)測過程 264
10.4.3 預(yù)測結(jié)果與分析 265
10.5 本章小結(jié) 265
參考文獻(xiàn) 267
第11章 診斷方法 268
11.1 離群點(diǎn)診斷概要 268
11.1.1 離群點(diǎn)診斷的定義 268
11.1.2 離群點(diǎn)診斷的作用 269
11.1.3 離群點(diǎn)診斷方法分類 271
11.2 基于統(tǒng)計(jì)的離群點(diǎn)診斷 271
11.2.1 理論基礎(chǔ) 271
11.2.2 應(yīng)用實(shí)例 273
11.2.3 優(yōu)點(diǎn)與缺點(diǎn) 275
11.3 基于距離的離群點(diǎn)診斷 275
11.3.1 理論基礎(chǔ) 275
11.3.2 應(yīng)用實(shí)例 276
11.3.3 優(yōu)點(diǎn)與缺點(diǎn) 278
11.4 基于密度的離群點(diǎn)挖掘 278
11.4.1 理論基礎(chǔ) 278
11.4.2 應(yīng)用實(shí)例 279
11.4.3 優(yōu)點(diǎn)與缺點(diǎn) 281
11.5 基于聚類的離群點(diǎn)挖掘 281
11.5.1 理論基礎(chǔ) 281
11.5.2 應(yīng)用實(shí)例 282
11.5.3 優(yōu)點(diǎn)與缺點(diǎn) 284
11.6 應(yīng)用實(shí)例:離群點(diǎn)診斷量化
擇時(shí) 284
11.7 延伸閱讀:新興的離群點(diǎn)
挖掘方法 286
11.7.1 基于關(guān)聯(lián)的離群點(diǎn)挖掘 286
11.7.2 基于粗糙集的離群點(diǎn)挖掘 286
11.7.3 基于人工神經(jīng)網(wǎng)絡(luò)的離群點(diǎn)
挖掘 287
11.8 本章小結(jié) 287
參考文獻(xiàn) 288
第12章 時(shí)間序列方法 289
12.1 時(shí)間序列的基本概念 289
12.1.1 時(shí)間序列的定義 289
12.1.2 時(shí)間序列的組成因素 290
12.1.3 時(shí)間序列的分類 291
12.1.4 時(shí)間序列分析方法 292
12.2 平穩(wěn)時(shí)間序列分析方法 292
12.2.1 移動平均法 293
12.2.2 指數(shù)平滑法 294
12.3 季節(jié)指數(shù)預(yù)測法 295
12.3.1 季節(jié)性水平模型 295
12.3.2 季節(jié)性趨勢模型 296
12.4 時(shí)間序列模型 296
12.4.1 ARMA模型 296
12.4.2 ARIMA模型 297
12.4.3 ARCH模型 298
12.4.4 GARCH模型 298
12.5 應(yīng)用實(shí)例:基于時(shí)間序列的
股票預(yù)測 299
12.6 本章小結(jié) 303
參考文獻(xiàn) 303
第13章 智能優(yōu)化方法 304
13.1 智能優(yōu)化方法概要 305
13.1.1 智能優(yōu)化方法的概念 305
13.1.2 在量化投資中的作用 305
13.1.3 常用的智能優(yōu)化方法 305
13.2 遺傳算法 307
13.2.1 遺傳算法的原理 307
13.2.2 遺傳算法的步驟 308
13.2.3 遺傳算法實(shí)例 316
13.2.4 遺傳算法的特點(diǎn) 317
13.3 模擬退火算法 318
13.3.1 模擬退火算法的原理 318
13.3.2 模擬退火算法步驟 320
13.3.3 模擬退火算法實(shí)例 323
13.3.4 模擬退火算法的特點(diǎn) 329
13.4 應(yīng)用實(shí)例:組合投資優(yōu)化 330
13.4.1 問題描述 330
13.4.2 求解過程 330
13.5 延伸閱讀:其他智能方法 331
13.5.1 粒子群算法 331
13.5.2 蟻群算法 333
13.6 本章小結(jié) 334
參考文獻(xiàn) 335
第三篇 實(shí)踐篇
第14章 統(tǒng)計(jì)套利策略的挖掘與
優(yōu)化 338
14.1 統(tǒng)計(jì)套利策略概述 338
14.1.1 統(tǒng)計(jì)套利的定義 338
14.1.2 統(tǒng)計(jì)套利策略的基本思想 338
14.1.3 統(tǒng)計(jì)套利策略挖掘的方法 339
14.2 基本策略的挖掘 340
14.2.1 準(zhǔn)備數(shù)據(jù) 340
14.2.2 探索交易策略 340
14.2.3 驗(yàn)證交易策略 341
14.2.4 選擇最佳的參數(shù) 342
14.2.5 參數(shù)掃描法 345
14.2.6 考慮交易費(fèi) 346
14.3 高頻交易策略及優(yōu)化 348
14.3.1 高頻交易的基本思想 348
14.3.2 高頻交易的實(shí)現(xiàn) 350
14.4 多交易信號策略的組合及
優(yōu)化 352
14.4.1 多交易信號策略 352
14.4.2 交易信號的組合優(yōu)化機(jī)理 354
14.4.3 交易信號的組合優(yōu)化實(shí)現(xiàn) 355
14.5 本章小結(jié) 358
參考文獻(xiàn) 358
第15章 配對交易策略的挖掘與
實(shí)現(xiàn) 360
15.1 配對交易概述 360
15.1.1 配對交易的定義 360
15.1.2 配對交易的特點(diǎn) 361
15.1.3 配對選取步驟 362
15.2 協(xié)整檢驗(yàn)的理論基礎(chǔ) 363
15.2.1 協(xié)整關(guān)系的定義 363
15.2.2 EG兩步協(xié)整檢驗(yàn)法 363
15.2.3 Johansen協(xié)整檢驗(yàn)法 364
15.3 配對交易的實(shí)現(xiàn) 365
15.3.1 協(xié)整檢驗(yàn)的實(shí)現(xiàn) 365
15.3.2 配對交易函數(shù) 367
15.3.3 協(xié)整配對中的參數(shù)優(yōu)化 369
15.4 延伸閱讀:配對交易的
三要素 370
15.4.1 配對交易的前提 370
15.4.2 配對交易的關(guān)鍵 371
15.4.3 配對交易的假設(shè) 371
15.5 本章小結(jié) 371
參考文獻(xiàn) 372
第16章 基于Wind數(shù)據(jù)的程序化
交易 373
16.1 程序化交易概述 373
16.1.1 程序化交易的定義 373
16.1.2 程序化交易的實(shí)現(xiàn)過程 374
16.1.3 程序化交易的分類 376
16.2 數(shù)據(jù)的處理及探索 377
16.2.1 獲取股票日交易數(shù)據(jù) 377
16.2.2 計(jì)算指標(biāo) 381
16.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化 388
16.2.4 變量篩選 389
16.3 模型的建立及評估 391
16.3.1 股票預(yù)測的基本思想 391
16.3.2 模型的訓(xùn)練及評價(jià) 392
16.4 組合投資的優(yōu)化 394
16.4.1 組合投資的理論基礎(chǔ) 394
16.4.2 組合投資的實(shí)現(xiàn) 398
16.5 程序化交易的實(shí)施 402
16.6 本章小結(jié) 403
參考文獻(xiàn) 404
第17章 基于Quantrader平臺的
量化投資 405
17.1 量化平臺概述 405
17.1.1 量化平臺現(xiàn)狀 405
17.1.2 Quantrader量化平臺的構(gòu)成 406
17.1.3 Quantrader的工作流程 407
17.2 基于Quantrader平臺的量化
實(shí)現(xiàn)過程 407
17.2.1 獲取交易數(shù)據(jù) 408
17.2.2 計(jì)算衍生變量 410
17.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化 410
17.2.4 變量優(yōu)選 410
17.2.5 訓(xùn)練模型 411
17.2.6 策略回測 411
17.3 延伸閱讀:Quantrader平臺
的拓展 412
第18章 基于數(shù)據(jù)挖掘技術(shù)的量化
交易系統(tǒng) 415
18.1 交易系統(tǒng)概述 416
18.1.1 交易系統(tǒng)的定義 416
18.1.2 交易系統(tǒng)的作用 416
18.2 DM交易系統(tǒng)總體設(shè)計(jì) 417
18.2.1 系統(tǒng)目標(biāo) 417
18.2.2 相關(guān)約定 418
18.2.3 系統(tǒng)結(jié)構(gòu) 418
18.3 短期交易子系統(tǒng) 419
18.3.1 子系統(tǒng)功能描述 419
18.3.2 數(shù)據(jù)預(yù)處理模塊 419
18.3.3 量化選股模塊 419
18.3.4 策略回測模塊 420
18.4 中長期交易子系統(tǒng) 420
18.4.1 子系統(tǒng)功能描述 420
18.4.2 導(dǎo)入數(shù)據(jù)模塊 421
18.4.3 投資組合優(yōu)化模塊 421
18.5 系統(tǒng)的拓展與展望 423
18.6 本章小結(jié) 423
參考文獻(xiàn) 424