本書的主要內(nèi)容有:確保數(shù)據(jù)科學(xué)工作流程創(chuàng)造價值。設(shè)計可操作的、及時的和相關(guān)的指標(biāo)。提供引人矚目的敘述以獲得利益相關(guān)者的支持。使用模擬確保你的機器學(xué)習(xí)算法是解決該問題的正確工具。識別、糾正和預(yù)防數(shù)據(jù)泄露。通過估計因果效應(yīng)理解增量性。
編輯推薦
本書提供了一系列在傳統(tǒng)數(shù)據(jù)工程和數(shù)據(jù)科學(xué)教育中被忽視的技術(shù)和最佳實踐。一個普遍的誤解是,優(yōu)秀的數(shù)據(jù)科學(xué)家是該領(lǐng)域“重大主題”的專家,即機器學(xué)習(xí)和編程。然而,大多數(shù)情況下,這些工具只能幫助我們到達(dá)某個程度。實際上,真正區(qū)分頂級數(shù)據(jù)科學(xué)家與普通數(shù)據(jù)科學(xué)家的是這些重大主題中的細(xì)微差別,以及對業(yè)務(wù)產(chǎn)生影響的能力。
總體而言,本書使一名普通數(shù)據(jù)科學(xué)家候選人與在行業(yè)中表現(xiàn)卓越的數(shù)據(jù)科學(xué)家之間產(chǎn)生了差異。本書作者將這些技能匯集、擴展并應(yīng)用于為來自不同公司和行業(yè)的數(shù)據(jù)科學(xué)家創(chuàng)造價值和培訓(xùn)。
專家推薦
“Daniel又寫了一部杰作,作為數(shù)據(jù)科學(xué)家與商業(yè)高管之間價值創(chuàng)造的連接紐帶。這本書是實現(xiàn)數(shù)據(jù)科學(xué)商業(yè)成功所缺失的手冊!
——Adri Purkayastha
Global Head of AI Technology Risk, BNP Paribas
“涵蓋了從經(jīng)濟學(xué)到廣告,再到流行病學(xué)的所有內(nèi)容,以及如何在實踐中應(yīng)用數(shù)據(jù)科學(xué)技術(shù)。它從大多數(shù)書籍結(jié)束的地方開始,即基于數(shù)據(jù)洞察的實際決策過程。這是任何數(shù)據(jù)科學(xué)家書架上早該添加的作品!
——Brett Holleman
Freelance data scientist
Daniel Vaughan曾領(lǐng)導(dǎo)不同公司和行業(yè)的數(shù)據(jù)團隊,目前正在為幾家金融科技公司提供咨詢,幫助確保其數(shù)據(jù)、機器學(xué)習(xí)和人工智能計劃的成功。他擁有超過 15年的機器學(xué)習(xí)開發(fā)經(jīng)驗和超過 8年的數(shù)據(jù)科學(xué)團隊領(lǐng)導(dǎo)經(jīng)驗。Daniel 獲得了紐約大學(xué)經(jīng)濟學(xué)的博士學(xué)位。
目錄
前言 1
第一部分 數(shù)據(jù)分析技術(shù)
第1 章 那又怎樣?利用數(shù)據(jù)科學(xué)創(chuàng)造價值 . 11
1.1 價值是什么 11
1.2 是什么:了解業(yè)務(wù) 12
1.3 所以呢:在DS 中創(chuàng)造價值的要點 .14
1.4 現(xiàn)在怎么辦:成為一個積極進(jìn)取的人 15
1.5 衡量價值16
1.6 關(guān)鍵要點18
1.7 擴展閱讀19
第2 章 指標(biāo)設(shè)計 21
2.1 指標(biāo)應(yīng)具備的理想屬性 .21
2.1.1 可衡量 21
2.1.2 可操作性 .22
2.1.3 相關(guān)性 22
2.1.4 及時性 22
2.2 指標(biāo)分解23
2.2.1 漏斗分析 .23
2.2.2 存量流量分解 24
2.2.3 P×Q 型分解 .25
2.3 例子:另一種收入分解 .25
2.4 例子:市場 26
2.5 關(guān)鍵要點27
2.6 擴展閱讀28
第3 章 增長分解:理解順境與逆境 29
3.1 為什么要進(jìn)行增長分解 .29
3.2 加法分解30
3.2.1 例子 30
3.2.2 解釋和用例 31
3.3 乘法分解32
3.3.1 例子 33
3.3.2 解釋 34
3.4 混合比率分解 .34
3.4.1 例子 35
3.4.2 解釋 36
3.5 數(shù)學(xué)推導(dǎo)37
3.5.1 加法分解 .37
3.5.2 乘法分解 .37
3.5.3 混合比率分解 38
3.6 關(guān)鍵要點39
3.7 擴展閱讀39
第4 章 2×2 設(shè)計 .41
4.1 簡化的案例 41
4.2 什么是2×2 設(shè)計 .42
4.3 示例:測試模型和新功能 44
4.4 示例:了解用戶行為 46
4.5 例子:信貸發(fā)放和接收 .48
4.6 示例:確定工作流程的優(yōu)先級 49
4.7 關(guān)鍵要點50
4.8 擴展閱讀51
第5 章 構(gòu)建商業(yè)案例 53
5.1 構(gòu)建商業(yè)案例的一些原則 53
5.2 示例:主動留存策略 54
5.3 欺詐罪預(yù)防 56
5.4 購買外部數(shù)據(jù)集 57
5.5 從事一個數(shù)據(jù)科學(xué)項目 .58
5.6 關(guān)鍵要點58
5.7 擴展閱讀59
第6 章 提升度是什么 61
6.1 定義提升度 61
6.2 示例:分類器模型 62
6.3 自選擇偏差和幸存者偏差 63
6.4 提升度的其他用途 65
6.5 關(guān)鍵要點65
6.6 擴展閱讀66
第7 章 敘述 67
7.1 什么是敘述:用你的數(shù)據(jù)來講故事.67
7.1.1 清晰明了的 68
7.1.2 可信的 70
7.1.3 難忘的 71
7.1.4 可操作的 .72
7.2 構(gòu)建一個故事 .72
7.2.1 科學(xué)講述 .72
7.2.2 什么,那又怎樣,現(xiàn)在怎么辦 .74
7.3 最后的階段 75
7.3.1 寫TL;DR .75
7.3.2 如何撰寫令人難忘的TL;DR .76
7.3.3 示例:為本章節(jié)寫TL;DR 77
7.3.4 進(jìn)行有力的電梯演講.79
7.3.5 展現(xiàn)你的敘述 79
7.4 關(guān)鍵要點80
7.5 擴展閱讀81
第8 章 數(shù)據(jù)可視化:選擇正確的圖表來傳遞信息 83
8.1 一些有用的和不太常用的數(shù)據(jù)可視化 83
8.1.1 條形圖和折線圖 83
8.1.2 斜線圖 85
8.1.3 瀑布圖 86
8.1.4 平滑散點圖 87
8.1.5 繪制分布 .88
8.2 一般建議90
8.2.1 為你想傳達(dá)的信息找到正確的圖表 90
8.2.2 明智的選擇顏色 91
8.2.3 圖表中的不同維度 .92
8.2.4 爭取足夠大的數(shù)據(jù)墨水比率 .92
8.2.5 定制與半自動化相比.93
8.2.6 從一開始就確定正確的字體大小 93
8.2.7 交互的或者靜態(tài)的 .94
8.2.8 保持簡單 .94
8.2.9 從解釋圖表開始 95
8.3 關(guān)鍵要點95
8.4 擴展閱讀95
第二部分 機器學(xué)習(xí)
第9 章 模擬法和自助法 .99
9.1 基本的模擬 100
9.2 模擬線性模型和線性回歸 .103
9.3 什么是部分依賴圖 .105
9.4 遺漏變量偏差 110
9.5 模擬分類問題 113
9.5.1 潛在變量模型 .113
9.5.2 比較不同算法 .114
9.6 自助法 . 116
9.7 關(guān)鍵要點. 119
9.8 擴展閱讀.120
第10 章 線性回歸:回到基礎(chǔ) 121
10.1 什么是系數(shù) .121
10.2 Frisch-Waugh-Lovell 定理 125
10.3 為什么你應(yīng)該關(guān)心FWL 128
10.4 干擾因子 129
10.5 額外變量 131
10.6 在機器學(xué)習(xí)中變化是中心角色 .133
10.7 關(guān)鍵要點 137
10.8 擴展閱讀 138
第11 章 數(shù)據(jù)泄露 141
11.1 什么是數(shù)據(jù)泄露 141
11.1.1 結(jié)果也是一個特征 142
11.1.2 特征是結(jié)果的函數(shù) 142
11.1.3 不良控制變量 142
11.1.4 時間戳標(biāo)記錯誤 .143
11.1.5 具有不規(guī)則時間聚合的多個數(shù)據(jù)集 .143
11.1.6 其他信息的泄露 .144
11.2 檢測數(shù)據(jù)泄露 145
11.3 完全分離 147
11.4 窗口方法 149
11.4.1 選擇窗戶的長度 .151
11.4.2 訓(xùn)練階段與評分階段相對應(yīng) .152
11.4.3 實現(xiàn)窗口方法 153
11.5 有數(shù)據(jù)泄露了:現(xiàn)在怎么辦 154
11.6 關(guān)鍵要點 155
11.7 擴展閱讀 155
第12 章 生產(chǎn)化模型 . 157
12.1 “生產(chǎn)就緒”是什么意思157
12.1.1 批量評分(離線) 158
12.1.2 實時模型對象 160
12.2 數(shù)據(jù)和模型漂移 161
12.3 任何生產(chǎn)流程中的基本步驟 163
12.3.1 獲取和轉(zhuǎn)換數(shù)據(jù) .163
12.3.2 驗證數(shù)據(jù) 164
12.3.3 訓(xùn)練和評分階段 .166
12.3.4 驗證模型和評分 .166
12.3.5 部署模型和評分 .167
12.4 關(guān)鍵要點 167
12.5 擴展閱讀 168
第13 章 機器學(xué)習(xí)中的故事講述 171
13.1 機器學(xué)習(xí)故事講述的全過程 171
13.2 事前和期間講故事 172
13.2.1 提出假設(shè) 173
13.2.2 特征工程 176
13.3 事后講故事:打開黑盒子179
13.3.1 可解釋性和性能的權(quán)衡 179
13.3.2 線性回歸:設(shè)置一個基準(zhǔn) .181
13.3.3 特征重要性183
13.3.4 熱圖 185
13.3.5 部分依賴圖187
13.3.6 累積局部效應(yīng) 189
13.4 關(guān)鍵要點 191
13.5 擴展閱讀 192
第14 章 從預(yù)測到?jīng)Q策 . 195
14.1 剖析決策制定 196
14.2 明智的閾值產(chǎn)生簡單的決策規(guī)則 197
14.2.1 精確率和召回率 .198
14.2.2 例子:潛在客戶生成 200
14.3 混淆矩陣優(yōu)化 202
14.4 關(guān)鍵要點 204
14.5 擴展閱讀 204
第15 章 增量:數(shù)據(jù)科學(xué)的圣杯 205
15.1 定義增量 205
15.1.1 從因果推理到提升預(yù)測 206
15.1.2 因果推理作為差異化因素 .206
15.1.3 提升決策制定 207
15.2 干擾因子和對撞因子 .207
15.3 選擇偏差 211
15.4 無混淆假設(shè) .215
15.5 打破選擇偏差:隨機化 216
15.6 匹配 217
15.7 機器學(xué)習(xí)和因果推理 .220
15.7.1 打開源代碼庫 221
15.7.2 雙重機器學(xué)習(xí) 222
15.8 關(guān)鍵要點 224
15.9 擴展閱讀 225
第16 章 A/B 測試 229
16.1 什么是A/B 測試 229
16.2 決策標(biāo)準(zhǔn) 230
16.3 最小可檢測效應(yīng) 234
16.3.1 選擇統(tǒng)計功效、顯著性水平和P 值 .237
16.3.2 估計結(jié)果的方差 .238
16.3.3 模擬 239
16.3.4 例子:轉(zhuǎn)換費率 .240
16.3.5 設(shè)置MDE .241
16.4 假設(shè)列表 242
16.4.1 指標(biāo) 243
16.4.2 假設(shè) 243
16.4.3 排名 243
16.5 實驗治理 244
16.6 關(guān)鍵要點 245
16.7 擴展閱讀 246
第17 章 大型語言模型和數(shù)據(jù)科學(xué)實踐 . 249
17.1 當(dāng)前人工智能的狀態(tài) .249
17.2 數(shù)據(jù)科學(xué)家們做什么 .251
17.3 不斷演變的數(shù)據(jù)科學(xué)家職位描述 253
17.3.1 案例學(xué)習(xí):A/B 測試 255
17.3.2 案例學(xué)習(xí):數(shù)據(jù)清理 256
17.3.3 案例學(xué)習(xí):機器學(xué)習(xí) 256
17.4 LLM 和本書 257
17.5 關(guān)鍵要點 258
17.6 擴展閱讀 259