本書(shū)基于Python 3.13.0,以項(xiàng)目教學(xué)的方式,循序漸進(jìn)地講解Python 數(shù)據(jù)分析的基本原理和具體應(yīng)用的方法與技巧。全書(shū)分為6個(gè)項(xiàng)目,具體內(nèi)容為Python數(shù)據(jù)分析基礎(chǔ)、NumPy數(shù)據(jù)探索和預(yù)處理、Pandas數(shù)據(jù)處理與分析、Matplotlib 數(shù)據(jù)可視化、SciPy統(tǒng)計(jì)推斷與探索性分析、Scikit-learn庫(kù)模型與數(shù)據(jù)預(yù)處理。本書(shū)實(shí)例豐富、內(nèi)容翔實(shí)、操作方法簡(jiǎn)單易學(xué),不僅適合作為職業(yè)院校計(jì)算機(jī)與軟件工程相關(guān)專(zhuān)業(yè)的教材,還可供從事數(shù)據(jù)分析相關(guān)工作的專(zhuān)業(yè)人士參考。
唐新宇,中共黨員,博士,教授,高級(jí)軟件開(kāi)發(fā)工程師,現(xiàn)任計(jì)算機(jī)學(xué)院院長(zhǎng),曾獲"全國(guó)優(yōu)秀教師”稱(chēng)號(hào),廣東省"南粵優(yōu)秀教師”稱(chēng)號(hào)。廣東省二類(lèi)品牌專(zhuān)業(yè)建設(shè)項(xiàng)目——計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè)專(zhuān)業(yè)帶頭人,主持 2019年廣東省教育教學(xué)成果獎(jiǎng),獲"二等獎(jiǎng)”。研究方向?yàn)檐浖夹g(shù)、信息系統(tǒng)開(kāi)發(fā)管理。主持省級(jí)教研項(xiàng)目4項(xiàng)、院級(jí)精品課程建設(shè)項(xiàng)目1項(xiàng)、院級(jí)教研教改項(xiàng)目5項(xiàng);發(fā)表教研論文18篇,主編/參編出版教材5本。近年來(lái)先后指導(dǎo)學(xué)生5人次分別在省級(jí)、國(guó)家級(jí)軟件設(shè)計(jì)大賽中獲獎(jiǎng),F(xiàn)兼任肇慶市計(jì)算機(jī)學(xué)會(huì)常務(wù)理事兼計(jì)算機(jī)高級(jí)專(zhuān)家評(píng)審委員會(huì)副主任,廣東東方亮培訓(xùn)學(xué)院特聘教授等職。
項(xiàng)目一 Python數(shù)據(jù)分析基礎(chǔ) 1
任務(wù)一 認(rèn)識(shí)Python數(shù)據(jù)分析工具 1
一、Python簡(jiǎn)介 2
二、Python 內(nèi)置函數(shù) 6
三、下載和安裝Python 7
四、安裝Python庫(kù) 11
任務(wù)二 PyCharm集成開(kāi)發(fā)環(huán)境 13
一、下載和安裝 PyCharm 13
二、新建PyCharm項(xiàng)目文件 17
三、新建PyCharm文件 19
四、PyCharm的編輯環(huán)境 19
五、PyCharm加載和導(dǎo)入模塊 22
任務(wù)三 Python 數(shù)據(jù)類(lèi)型 28
一、數(shù)據(jù)類(lèi)型 28
二、輸入 / 輸出函數(shù) 32
三、運(yùn)算符和基本數(shù)學(xué)函數(shù) 34
四、數(shù)據(jù)迭代輸出 37
五、數(shù)據(jù)類(lèi)型的轉(zhuǎn)換 37
六、函數(shù)定義 40
任務(wù)四 Python 流程控制 41
一、表達(dá)式語(yǔ)句 42
二、順序結(jié)構(gòu) 43
三、選擇結(jié)構(gòu) 44
四、循環(huán)結(jié)構(gòu) 47
五、條件表達(dá)式 48
六、流程控制命令 49
七、程序調(diào)試 50
項(xiàng)目思維導(dǎo)圖 52
項(xiàng)目實(shí)操 52
實(shí)操一 用戶(hù)輸入并計(jì)算兩數(shù)之和 52
實(shí)操二 打印正整數(shù)的階乘 53
項(xiàng)目二 NumPy數(shù)據(jù)探索和預(yù)處理 54
任務(wù)一 NumPy數(shù)組操作 55
一、數(shù)組的數(shù)據(jù)類(lèi)型 55
二、創(chuàng)建數(shù)組 58
三、數(shù)組的屬性 62
四、數(shù)組的索引 63
任務(wù)二 NumPy數(shù)組運(yùn)算 67
一、數(shù)值數(shù)組 67
二、數(shù)組的數(shù)學(xué)運(yùn)算 72
三、深拷貝和淺拷貝 75
任務(wù)三 數(shù)據(jù)加載、統(tǒng)計(jì)與預(yù)處理 76
一、數(shù)據(jù)加載 76
二、數(shù)據(jù)統(tǒng)計(jì) 79
三、數(shù)據(jù)歸一化和標(biāo)準(zhǔn)化 81
項(xiàng)目總結(jié) 85
項(xiàng)目實(shí)操 86
實(shí)操一 某市超市月度銷(xiāo)售數(shù)據(jù)統(tǒng)計(jì) 86
實(shí)操二 分析城市PM2.5監(jiān)測(cè)數(shù)據(jù) 88
項(xiàng)目三 Pandas數(shù)據(jù)處理與分析 91
任務(wù)一 Pandas數(shù)據(jù)采集 92
一、Series 對(duì)象 93
二、DataFrame 對(duì)象 97
三、電子表格文件 101
四、文本文件 106
五、數(shù)據(jù)集文件 108
任務(wù)二 Pandas 數(shù)據(jù)預(yù)處理與探索 112
一、數(shù)據(jù)清洗 112
二、數(shù)據(jù)轉(zhuǎn)換 121
三、數(shù)據(jù)合并 123
四、數(shù)據(jù)提取 125
五、數(shù)據(jù)分類(lèi) 128
六、數(shù)據(jù)排序 129
七、統(tǒng)計(jì)分組 133
任務(wù)三 Pandas 描述性統(tǒng)計(jì)分析 137
一、集中趨勢(shì)分析 138
二、離散程度分析 139
三、相關(guān)性分析 140
四、頻數(shù)分析 142
項(xiàng)目總結(jié) 143
項(xiàng)目實(shí)操 143
實(shí)操一 各城市房源數(shù)據(jù)分析 143
實(shí)操二 航班乘客數(shù)據(jù)分析 147
項(xiàng)目四 Matplotlib數(shù)據(jù)可視化 151
任務(wù)一 認(rèn)識(shí)圖表窗口 152
一、圖表的基本組成 152
二、創(chuàng)建圖形窗口 153
三、繪制折線圖 154
四、創(chuàng)建子圖 158
任務(wù)二 圖表通用屬性設(shè)置 160
一、圖表屬性參數(shù) 161
二、坐標(biāo)系設(shè)置 162
三、圖形標(biāo)注 165
任務(wù)三 核心繪圖函數(shù) 176
一、柱形圖 176
二、直方圖 179
三、餅圖 181
四、散點(diǎn)圖 183
五、面積圖 185
六、箱形圖 186
七、雷達(dá)圖 188
項(xiàng)目總結(jié) 189
項(xiàng)目實(shí)操 190
實(shí)操一 體檢數(shù)據(jù)可視化分析 190
實(shí)操二 人口統(tǒng)計(jì)數(shù)據(jù)可視化 192
項(xiàng)目五 SciPy統(tǒng)計(jì)推斷與探索性分析 194
任務(wù)一 相關(guān)性分析 195
一、正態(tài)分布的相關(guān)分析 196
二、非正態(tài)分布的相關(guān)分析 198
任務(wù)二 卡方檢驗(yàn) 200
一、正態(tài)性檢驗(yàn) 200
二、方差齊性檢驗(yàn) 205
三、擬合優(yōu)度卡方檢驗(yàn) 206
任務(wù)三 t檢驗(yàn) 207
一、單樣本t檢驗(yàn) 208
二、獨(dú)立樣本t檢驗(yàn) 209
三、配對(duì)樣本t檢驗(yàn) 211
任務(wù)四 方差分析 213
一、單因素方差分析 213
二、多因素方差分析 214
項(xiàng)目總結(jié) 216
項(xiàng)目實(shí)操 216
實(shí)操一 遺失的信件數(shù)據(jù)分析 216
實(shí)操二 血液黏稠度影響因素分析 218
項(xiàng)目六 Scikit-learn庫(kù)模型與數(shù)據(jù)預(yù)處理 221
任務(wù)一 Scikit-learn庫(kù)數(shù)據(jù)集 221
一、數(shù)據(jù)集加載 222
二、UCI機(jī)器學(xué)習(xí)庫(kù) 225
三、數(shù)據(jù)集劃分 227
任務(wù)二 數(shù)據(jù)預(yù)處理 228
一、處理異常值 228
二、特征離散化 233
三、特征選擇 236
四、特征編碼 241
五、特征縮放 245
任務(wù)三 分類(lèi)算法 248
一、生成分類(lèi)數(shù)據(jù)集 248
二、分類(lèi)算法模型 249
三、二進(jìn)制編碼 251
四、評(píng)估分類(lèi)模型的性能 253
任務(wù)四 回歸算法 256
一、生成回歸數(shù)據(jù)集 256
二、普通回歸模型 258
三、多項(xiàng)式回歸模型 262
項(xiàng)目總結(jié) 264
項(xiàng)目實(shí)操 264
實(shí)操一 葡萄酒數(shù)據(jù)集預(yù)處理分析 264