為促進中國城市軌道交通自動化水平及系統(tǒng)設備研發(fā)制造能力的提升,逐步形成全自動運行系統(tǒng)及其配套的產業(yè)鏈,并滿足城市軌道交通全自動運行的需求,中國城市軌道交通協會組織編寫了城市軌道交通全自動運行系統(tǒng)規(guī)范。本書的內容包括范圍、規(guī)范性引用文件、術語與縮略語、一般要求、測試環(huán)境及條件、測試需求等。
引導性:引領讀者進入大數據領域的基礎性讀物
前瞻性:介紹大數據新技術及其行業(yè)應用
經典性:關注大數據技術經典算法
全球范圍內,運用大數據推動經濟發(fā)展、完善社會治理、提升政府服務和監(jiān)管能 力正成為趨勢,國內外政府相繼制定實施大數據戰(zhàn)略性文件,大力推動大數據發(fā)展和 應用。與之相關的職業(yè)需求也呈爆發(fā)式增長,根據 IDC(國際數據公司)和 Gartner(高 德納咨詢公司)等發(fā)布的相關報告顯示,目前全球云計算、大數據市場規(guī)模已超過 3 000 億美元,而未來潛在市場價值將達到萬億美元規(guī)模,大數據與云計算專業(yè)將為全 球帶來 440 萬個 IT 新崗位和上千萬個非 IT 崗位。2019 年,我國互聯網、移動互聯網 用戶規(guī)模居全球第一,擁有豐富的數據資源和應用市場優(yōu)勢,大數據部分關鍵技術研 發(fā)取得突破,涌現出一批互聯網創(chuàng)新企業(yè)和創(chuàng)新應用,2015 年 11 月 3 日發(fā)布的《中 共中央關于制定國民經濟和社會發(fā)展第十三個五年規(guī)劃的建議》明確提出實施國家大 數據戰(zhàn)略。椐預測,2019 年我國大數據產業(yè)規(guī)模為 7 000 億元,2020 年將突破萬億元。
大數據成為了繼互聯網蓬勃發(fā)展以來的又一輪 IT 工業(yè)革命,被人們寄予厚望。大 數據技術包括數據的采集、存儲、處理、分析和可視化,本書對上述內容做了詳細介紹。 數據采集部分主要介紹了網絡數據采集技術和日志數據采集技術,同時討論了數據清 洗、數據集成、數據變換和數據規(guī)約等數據預處理技術;數據存儲部分主要介紹了大 數據分析中所用到的主流分布式文件存儲系統(tǒng),包括 HBase 分布式數據庫、MongoDB 分布式數據庫和 Hive 分布式數據倉庫,數據處理部分討論了數據處理平臺的架構設 計,并分別著重介紹了批處理、流處理和混合處理 3 種流行的大數據計算框架以及它們所對應的典型系統(tǒng):Hadoop、Storm、Spark;大數據分析部分重點討論了常用的統(tǒng) 計數據分析方法,包括描述統(tǒng)計、相關分析、回歸分析和主成分分析,同時主要介紹 了幾種經典的數據挖掘算法,包括 ID3 算法、C4.5 算法、CART 算法、K-Means 算法、 Apriori 算法和神經網絡的常用訓練算法;數據可視化部分主要介紹了文本可視化、網 絡可視化、時空數據可視化及多維數據可視化等常用可視化方法及相關工具。與此同 時,針對大數據隱私與安全,介紹了數據安全、數據隱私、數據信息共享與隱私信息 融合以及云環(huán)境下的大數據安全與隱私保護。針對大數據應用,相繼討論了大數據在 互聯網商業(yè)中的應用,包括用戶畫像、大數據精準營銷和互聯網金融;大數據在行業(yè) 中的應用,包括教育行業(yè)、電力行業(yè)、醫(yī)療行業(yè)和軍事領域;大數據在人工智能方面 的應用,包括語音識別和機器翻譯、共享經濟和智慧城市。zui后,在大數據思維部分, 討論了大數據時代面臨的挑戰(zhàn),探討了大數據時代的思維變革、大數據激發(fā)的創(chuàng)造力, 并對數據科學進行了展望。
本書的編寫得到了河南省高等學校計算機教育研究會,中國鐵道出版社有限公司 領導和編輯的大力支持。中國科學院計算技術研究所張廣軍研究員、鄭州輕工業(yè)大學 的吳懷廣博士和張偉偉博士對本書的編寫提出了許多寶貴的意見和建議,本書的編寫 得到了鄭州輕工業(yè)大學、鄭州工程技術學院等院校的大力支持,在此一并表示衷心的 感謝。
本書由甘勇和陶紅偉確定內容的選取和組織,由史雯雋、尚松濤、陳浩然、陶紅偉、 劉家磊和馬江濤具體執(zhí)筆。史文雋編寫第 1 章,尚松濤編寫第 2、3 章,陳浩然編寫第 4 章, 陶紅偉編寫第 5 章,劉家磊編寫第 6、7 章,馬江濤編寫第 8、9 章,zui后由甘勇和陶 紅偉定稿。
本書作者力圖將數據科學與大數據的原理、技術及其應用介紹清楚,但由于時間、 精力、知識結構有限,書中難免有疏漏之處,懇請讀者批評指正。
編 者 2019 年 6 月
甘勇:教授、鄭州工程技術學院副校長,長期工作在教學科研一線,主持的大學計算機和程序設計基礎課程被評為河南省精品課程、河南省精品資源共享課,擔任教育部計算機課程教學指導委員會委員、河南省計算機類專業(yè)和網絡空間安全專業(yè)教學指導委員會副主任,兼任中國計算機學會理事、河南省計算機學會副理事長、河南省計算機教育研究會副理事長。榮獲過優(yōu)秀教學成果二等獎、2項河南省優(yōu)秀教學成果特等獎、3項河南省優(yōu)秀教學成果二等獎。陶紅偉:鄭州輕工業(yè)大學計算機與通信工程學院副教授、博士,主要研究方向包括大數據分析、軟件可信度量與評估、信息安全。主持省部級以及橫向項目5項,作為主要成員參與國家863重點項目子課題、國家自然科學基金重大研究計劃集成項目子課題、國家863項目和國家自然科學基金項目等。
第1章 大數據與數據科學 / 1
1.1 大數據概述 / 1
1.1.1 大數據的概念 / 2
1.1.2 大數據的特征 / 2
1.1.3 大數據的結構類型 / 3
1.2 大數據的發(fā)展 / 4
1.3 大數據處理的挑戰(zhàn) / 5
1.4 數據科學的概念 / 6
1.5 數據科學的由來 / 7
1.6 數據科學的應用場景 / 9
1.6.1 行業(yè)數據 / 9
1.6.2 數據服務 / 10
小結 / 11
習題 / 11
第2章 數據采集與數據預處理 / 12
2.1 數據采集和數據預處理概述 / 12
2.1.1 數據采集概述 / 12
2.1.2 數據預處理概述 / 13
2.2 數據采集技術 / 15
2.2.1 網絡數據采集技術 / 15
2.2.2 日志數據采集技術 / 23
2.3 數據預處理技術 / 28
2.3.1 數據清洗 / 28
2.3.2 數據集成 / 30
2.3.3 數據變換 / 30
2.3.4 數據規(guī)約 / 32
小結 / 33
習題 / 33
第3章 數據存儲 / 34
3.1 數據存儲概述 34
3.1.1 數據存儲的發(fā)展歷程 / 34
3.1.2 數據存儲模型 / 36
3.2 大數據存儲 / 36
3.2.1 海量數據存儲關鍵技術 / 37
3.2.2 分布式文件系統(tǒng) / 37
3.3 分布式數據庫 / 41
3.3.1 HBase 分布式數據庫 / 42
3.3.2 MongoDB 分布式 數據庫 / 45
3.3.3 Hive 分布式數據 倉庫 / 47
小結 / 49
習題 / 49
第4章 大數據處理平臺 / 50
4.1 概述 / 50
4.2 大數據的處理平臺架構 / 51
4.2.1 技術架構 / 51
4.2.2 開源平臺 / 52
4.3 大數據的批量處理 / 54
4.3.1 批量計算的概念 / 54
4.3.2 批量計算的軟件系統(tǒng) / 55
4.4 大數據的流式計算 / 63
4.4.1 流式計算的概念 / 63
4.4.2 流式計算的軟件系統(tǒng) / 64
4.5 大數據的混合處理計算 / 68
4.5.1 混合處理計算的概念 / 68
4.5.2 混合處理計算的軟件系統(tǒng) / 69
小結 / 78
習題 / 79
第5章 數據分析 / 80
5.1 數據分析概述 / 80
5.1.1 數據分析的概念和作用 / 80
5.1.2 數據分析的類型 / 81
5.1.3 數據分析的流程 / 81
5.2 統(tǒng)計數據分析方法 / 83
5.2.1 描述統(tǒng)計 / 83
5.2.2 相關分析 / 84
5.2.3 回歸分析 / 88
5.2.4 主成分分析 / 92
5.3 數據挖掘算法 / 96
5.3.1 決策樹 / 96
5.3.2 K-Means 算法 / 101
5.3.3 Apriori 算法 / 106
5.3.4 神經網絡 / 111
5.4 數據分析工具 / 113
小結 / 114
習題 / 114
第6章 數據可視化 / 117
6.1 數據可視化概述 / 117
6.1.1 數據可視化的基本特征 / 119
6.1.2 數據可視化的作用 / 120
6.1.3 數據可視化的流程 / 123
6.2 數據可視化方法 / 126
6.2.1 文本可視化 / 126
6.2.2 網絡可視化 / 129
6.2.3 時空數據可視化 / 131
6.2.4 多維數據可視化 / 134
6.3 數據可視化軟件與工具 / 136
6.3.1 Excel / 137
6.3.2 NodeXL / 137
6.3.3 Processing / 138
6.3.4 R / 139
6.3.5 ECharts / 139
6.3.6 Wolfram Mathematica / 141
小結 / 141
習題 / 142
第7章 數據安全與隱私 / 143
7.1 大數據安全概述 / 143
7.1.1 大數據安全體系結構 / 148
7.1.2 大數據安全 / 150
7.2 數據安全協議 / 157
7.3 數據隱私 / 159
7.4 數據信息共享與隱私信息融合 / 160
7.5 云環(huán)境下的大數據安全與隱私保護 / 163
小結 / 165
習題 / 165
第8章 大數據應用 / 166
8.1 互聯網商業(yè)應用 / 166
8.1.1 用戶畫像 / 166
8.1.2 大數據精準營銷 / 169
8.1.3 互聯網金融 / 171
8.2 行業(yè)大數據 / 173
8.2.1 教育大數據 / 173
8.2.2 電力大數據 / 174
8.2.3 醫(yī)療大數據 / 177
8.3 人工智能應用 / 179
8.3.1 語音識別和機器翻譯 / 179
8.3.2 共享經濟 / 180
8.3.3 智慧城市 / 183
小結 / 187
習題 / 188
第9章 數據思維 / 189
9.1 大數據時代的挑戰(zhàn) / 189
9.2 大數據時代的思維變革 / 194
9.2.1 第四范式 / 194
9.2.2 數據的混雜性 / 195
9.2.3 樣本與總體 / 196
9.2.4 數據的相關關系與因果關系 / 197
9.2.5 大數據與幸存者偏差 / 198
9.3 大數據激發(fā)創(chuàng)造力 / 199
9.3.1 大數據預測電影票房 / 199
9.3.2 利用大數據治理紐約 / 200
9.3.3 大數據助力總統(tǒng)競選 / 202
9.4 數據科學展望 / 204
9.4.1 開放數據運動 / 204
9.4.2 數據科學家所需的專業(yè)技能 / 206
9.4.3 數據科學的發(fā)展前景 / 208
小結 210
習題 210
參考文獻 / 211