Hadoop大數(shù)據(jù)項目實戰(zhàn)(微課版)
定 價:48 元
- 作者:廖麗
- 出版時間:2025/9/1
- ISBN:9787121504570
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:232
- 紙張:
- 版次:01
- 開本:16開
本書以項目實戰(zhàn)為核心載體,采用任務驅動教學模式,系統(tǒng)且深入地解析Hadoop生態(tài)圈中主流的大數(shù)據(jù)開發(fā)技術。全書精心編排 7個項目,從Hadoop的基礎理論入門,逐步深入到Hadoop集群環(huán)境配置、Hadoop分布式文件系統(tǒng)、MapReduce分布式計算框架,再到 MapReduce離線數(shù)據(jù)處理、基于Hive的離線數(shù)據(jù)分析,最后以綜合項目實戰(zhàn),構建起完整的知識體系。書中提供了詳細且易操作的步驟指引,即便是零基礎的讀者,也能通過練習,順利搭建穩(wěn)定的Hadoop集群,并獨立完成復雜的項目開發(fā)。本書兼具通俗易懂的語言表達與豐富實用的技術細節(jié)的特點,不僅是大數(shù)據(jù)開發(fā)初學者夯實基礎的“入門寶典”,也是大數(shù)據(jù)運維人員優(yōu)化技能、大數(shù)據(jù)分析與挖掘從業(yè)者提升實戰(zhàn)能力的“進階指南”。此外,本書可作為培訓機構的專業(yè)培訓教材,以及高等院校大數(shù)據(jù)技術專業(yè)課程的優(yōu)質教學用書,可助力培養(yǎng)理論與實踐統(tǒng)一的大數(shù)據(jù)專業(yè)人才。
廖麗,女,副教授,畢業(yè)于重慶大學,現(xiàn)就職于重慶城市職業(yè)學院,兼任重慶城市職業(yè)學院科大訊飛大數(shù)據(jù)學院發(fā)展中心主任一職;主要從事大數(shù)據(jù)技術專業(yè)、計算機應用技術專業(yè)的教學、科研工作,曾以第一主編身份編寫教材《Java程序設計理實一體化教程》《Java Web程序設計項目實戰(zhàn)》;在2024“一帶一路”暨金磚國家技能發(fā)展與技術創(chuàng)新大賽Python程序開發(fā)賽項全國總決賽中指導學生獲一等獎,并榮獲“優(yōu)秀指導老師”。
目 錄
項目一 Hadoop 介紹 1
【思維導圖】 1
【項目導入】 1
任務 1.1 大數(shù)據(jù)概述 1
1.1.1 了解大數(shù)據(jù) 1
1.1.2 大數(shù)據(jù)的特征 2
1.1.3 大數(shù)據(jù)的應用領域 3
1.1.4 拓展提升 4
任務 1.2 Hadoop 生態(tài)圈 5
1.2.1 Hadoop 發(fā)展歷史 5
1.2.2 Hadoop 的優(yōu)勢 5
1.2.3 Hadoop 1.x 和 Hadoop 2.x 的區(qū)別 6
1.2.4 Hadoop 生態(tài)組件 7
1.2.5 拓展提升 8
【動手練習】 9
【課后習題】 9
項目二 Hadoop 集群環(huán)境配置 10
【思維導圖】 10
【項目導入】 10
任務 2.1 安裝和配置虛擬機 11
2.1.1 安裝 VMware虛擬機軟件 11
2.1.2 部署 CentOS 7 16
2.1.3 Linux 操作系統(tǒng)網(wǎng)絡配置 29
2.1.4 虛擬機克隆 36
2.1.5 主機名與 IP 地址映射配置 40
2.1.6 虛擬機遠程連接 42
2.1.7 關閉防火墻 45
2.1.8 拓展提升 45
任務 2.2 完全分布式集群搭建 48
2.2.1 JDK 安裝與測試 48
2.2.2 SSH 免密登錄配置 50
2.2.3 時間同步服務配置 53
2.2.4 Hadoop 安裝 55
2.2.5 Hadoop 集群配置 57
2.2.6 集群啟動與關閉 61
2.2.7 拓展提升 63
【動手練習】 66
【課后習題】 66
項目三 HDFS 分布式文件系統(tǒng) 68
【思維導圖】 68
【項目導入】 68
任務 3.1 HDFS 簡介 69
3.1.1 HDFS 定義 69
3.1.2 HDFS 體系結構 69
3.1.3 HDFS Shell 命令 70
3.1.4 拓展提升 79
任務 3.2 HDFS 的 Java API 操作 81
3.2.1 HDFS 常見類與接口 81
3.2.2 FileSystem 的常用方法 82
3.2.3 HDFS 創(chuàng)建目錄 82
3.2.4 HDFS 創(chuàng)建文件 88
3.2.5 HDFS 文件上傳 89
3.2.6 HDFS 文件下載 90
3.2.7 HDFS 文件刪除 90
3.2.8 HDFS 文件名更改 91
3.2.9 HDFS 文件詳情查看 92
3.2.10 HDFS 文件和目錄判斷 93
3.2.11 拓展提升 94
【動手練習】 95
【課后習題】 96
項目四 MapReduce 分布式計算框架 97
【思維導圖】 97
【項目導入】 97
任務 4.1 MapReduce 簡介 97
4.1.1 設計思路 98
4.1.2 任務流程 99
4.1.3 工作原理 100
4.1.4 拓展提升 102
任務 4.2 MapReduce 程序編寫 103
4.2.1 MapReduce 編程組件 103
4.2.2 MapReduce 程序編寫 104
4.2.3 拓展提升 108
【動手練習】 108
【課后習題】 109
項目五 MapReduce 離線數(shù)據(jù)處理 110
【思維導圖】 110
【項目導入】 111
任務 5.1 酒店數(shù)據(jù)清洗 111
5.1.1 任務需求 111
5.1.2 設計思路 111
5.1.3 基礎準備 111
5.1.4 程序編寫 114
5.1.5 程序運行 116
5.1.6 程序打包 117
5.1.7 集群運行 118
5.1.8 拓展提升 119
任務 5.2 MapReduce 計算平均成績 121
5.2.1 任務需求 121
5.2.2 設計思路 121
5.2.3 程序編寫 122
5.2.4 程序運行 124
5.2.5 拓展提升 125
任務 5.3 高考成績統(tǒng)計分析 125
5.3.1 任務需求 125
5.3.2 設計思路 126
5.3.3 程序編寫 126
5.3.4 程序運行 131
5.3.5 拓展提升 132
任務 5.4 MapReduce 在商品推薦中的應用 133
5.4.1 任務需求 133
5.4.2 設計思路 133
5.4.3 程序編寫 135
5.4.4 程序運行 147
5.4.5 拓展提升 148
【動手練習】 148
【課后習題】 148
項目六 基于 Hive 的離線數(shù)據(jù)分析 150
【思維導圖】 150
【項目導入】 151
任務 6.1 認識 Hive 數(shù)據(jù)倉庫 151
6.1.1 Hive 體系架構 151
6.1.2 Hive 的三種運行模式 153
6.1.3 Hive 數(shù)據(jù)類型 154
6.1.4 拓展提升 155
任務 6.2 Hive 部署 156
6.2.1 Hive 部署之內(nèi)嵌模式 156
6.2.2 Hive 部署之本地模式 160
6.2.3 Hive 部署之遠程模式 168
6.2.4 拓展提升 171
任務 6.3 Hive 數(shù)據(jù)庫操作 171
6.3.1 創(chuàng)建數(shù)據(jù)庫 171
6.3.2 顯示數(shù)據(jù)庫 172
6.3.3 查看數(shù)據(jù)庫信息 173
6.3.4 修改數(shù)據(jù)庫信息 173
6.3.5 選擇數(shù)據(jù)庫 174
6.3.6 刪除數(shù)據(jù)庫 174
6.3.7 拓展提升 174
6.4 Hive 表操作 174
6.4.1 創(chuàng)建 Hive 表的語法 174
6.4.2 內(nèi)部表操作 175
6.4.3 外部表操作 176
6.4.4 分區(qū)表的操作 177
6.4.5 分桶表的操作 181
6.4.6 拓展提升 183
任務 6.5 Hive 表的查詢 184
6.5.1 select查詢 184
6.5.2 join 連接查詢 192
6.5.3 拓展提升 194
【動手練習】 196
【課后習題】 197
項目七 綜合項目實踐 199
【思維導圖】 199
【項目導入】 199
任務 7.1 項目基礎知識 200
7.1.1 數(shù)據(jù)清洗簡介 200
7.1.2 數(shù)據(jù)分析簡介 202
7.1.3 數(shù)據(jù)可視化簡介 202
7.1.4 ECharts 可視化簡介 203
7.1.5 拓展提升 206
任務 7.2 電商數(shù)據(jù)分析與可視化 206
7.2.1 任務需求 206
7.2.2 設計思路 206
7.2.3 程序編寫 207
7.2.4 程序運行 221
7.2.5 拓展提升 222
【動手練習】 222
【課后習題】 222