本書簡要闡述了數(shù)據治理的基本概念及相關理論,側重于數(shù)據質量管理和數(shù)據集成兩方面,介紹相關基本理論的同時,詳細描述了自主研發(fā)的數(shù)據質量管理系統(tǒng)和多源數(shù)據匯集處理系統(tǒng);谶@些數(shù)據治理軟件,結合具體的實際案例,詳細描述了數(shù)據質量管理與數(shù)據集成的典型功能。本書案例內容豐富,步驟翔實具體,有助于讀者在理解數(shù)據質量管理和數(shù)據集成的基本理論的同時,能較全面地掌握數(shù)據質量管理與數(shù)據集成軟件的常用功能及其操作方法。
本書既可以作為高等院校信息管理與信息系統(tǒng)、信息資源管理、大數(shù)據工程以及計算機信息管理等專業(yè)本科生的教材或輔助讀本,也可以作為企事業(yè)單位信息管理工作人員的培訓教材。
隨著信息量的劇增帶來巨大的數(shù)據價值,人們已經意識到挖掘數(shù)據價值的重要性,但如何實現(xiàn)數(shù)據價值的最大化,始終未得到完美解決。由于各企業(yè)和部門之間的相互獨立,容易造成信息系統(tǒng)之間的不兼容,數(shù)據結構存在較大差異,數(shù)據難以共享,形成信息的孤島效應。為解決在獲取數(shù)據價值過程中出現(xiàn)的這些典型難題,數(shù)據治理技術得到快速發(fā)展。數(shù)據治理從數(shù)據的全生命周期的各個環(huán)節(jié)做出專業(yè)的管理。
本書重點介紹了數(shù)據治理中的兩種常用的治理技術——數(shù)據質量管理和數(shù)據集成,并在自主研發(fā)的平臺上基于典型的案例實現(xiàn)數(shù)據質量的管理和數(shù)據的集成。數(shù)據質量管理能夠確保數(shù)據模式和數(shù)據實例的一致性、正確性、完整性和最小性。數(shù)據集成可將分散的若干個數(shù)據源中的數(shù)據邏輯地或物理地集成到一個統(tǒng)一的數(shù)據集合體中,以統(tǒng)一的視圖對外提供數(shù)據服務。因此,本書分為數(shù)據治理概述、數(shù)據質量管理、數(shù)據集成等三部分。
第1部分數(shù)據治理概述共1章(第1章),介紹了不同機構體系對數(shù)據治理概念的理解,并從四個方面提出對數(shù)據治理定義的理解。在進行數(shù)據治理時,不同的機構體系都遵循一定的基本原則,具體闡述了COBIT5提出的五項原則。針對不同領域或行業(yè),設計的數(shù)據治理模型會有所區(qū)別,IBM數(shù)據治理委員會提出了在業(yè)界認可度較高的數(shù)據治理模型。該模型從11個數(shù)據治理成熟度類別來度量數(shù)據治理能力。數(shù)據治理的步驟主要闡述了IBM數(shù)據治理委員會提出的統(tǒng)一流程。
第2部分數(shù)據質量管理共3章(第2~4章),介紹了數(shù)據質量常見的三種定義,具體闡述了數(shù)據質量的問題分類以及評價數(shù)據治理的標準。數(shù)據清洗主要研究如何檢測并消除數(shù)據中的錯誤和不一致等質量問題。根據常見的數(shù)據治理問題,如數(shù)據缺失、數(shù)據記錄相似或重復、數(shù)據異常、數(shù)據邏輯錯誤等,提供了相應的數(shù)據清洗方法,同時總結了提高數(shù)據清洗效率的典型流程。數(shù)據質量管理系統(tǒng)是一款通過對數(shù)據質量建立各個指標維度后進行質量評估最終實現(xiàn)數(shù)據清洗的軟件系統(tǒng),主要分為用于管理不同類型數(shù)據源的數(shù)據源管理、用于元數(shù)據查看預覽的數(shù)據剖析、用于指標體系建立與維護以及支撐整個評估流程的數(shù)據質量評估、用于對完成數(shù)據評估的數(shù)據進行清洗的數(shù)據清洗、用于系統(tǒng)基本功能設置以及用戶設置的系統(tǒng)設置等五大功能。基于數(shù)據質量管理系統(tǒng),以教師信息為依托,介紹了常用的數(shù)據質量管理的操作流程,以及檢查算子的開發(fā)方法。
第3部分數(shù)據集成共3章(第 5~7 章),介紹了數(shù)據集成的概念,虛擬視圖和物化及其混合的集成方法,以及數(shù)據集成的開發(fā)生命周期。多源數(shù)據匯集處理系統(tǒng)是一款基于 Kettle軟件改造的專用數(shù)據集成軟件,其核心功能和運行模式與Kettle基本一致。它能夠以普通人員、專業(yè)數(shù)據人員、開發(fā)者等不同身份操作軟件的功能。在該軟件上,詳細介紹了表屬性的計算匯總、表數(shù)據分組統(tǒng)計、表間數(shù)據關聯(lián)、腳本處理、多表數(shù)據合并、字段合并與數(shù)據分流、數(shù)據范圍標識等典型數(shù)據集成方法,并闡述了這些典型方法的綜合運用。
本書由陳剛負責全面籌劃、設計工作,其中第1、3、4章由陳剛負責編寫,第5、6、7章由郝建東負責編寫,第2章由張中輝負責編寫,胡琨和于坤參與了部分章節(jié)的編寫,郝建東負責統(tǒng)稿、校驗、修訂等工作。
本書既可以作為高等院校信息管理與信息系統(tǒng)、信息資源管理、大數(shù)據工程以及計算機信息管理等專業(yè)本科生的教材或輔助讀本,也可以作為企事業(yè)單位信息管理工作人員的培訓教材,在理解數(shù)據治理,特別是數(shù)據質量管理和數(shù)據集成的相關理論的同時,通過數(shù)據質量管理和數(shù)據集成的典型軟件,掌握數(shù)據治理的常用方法,提高實踐操作能力。
由于編者水平有限、編寫時間緊迫,加之數(shù)據工程理論與技術不斷發(fā)展,書中難免存有錯誤和不妥之處,敬請專家和廣大讀者不吝批評指正。編者將進一步完善和充實本書的內容。
編著者
2021年5月于南京
第1章 數(shù)據治理概述 1
1.1 數(shù)據治理的定義 1
1.2 數(shù)據治理的基本要求 2
1.3 數(shù)據治理模型 3
1.4 數(shù)據治理一般步驟 5
第2章 數(shù)據質量 8
2.1 數(shù)據質量概述 8
2.1.1 數(shù)據質量定義 8
2.1.2 數(shù)據質量問題 8
2.1.3 數(shù)據質量維度 10
2.2 數(shù)據清洗 10
2.2.1 數(shù)據清洗定義 10
2.2.2 數(shù)據清洗方法 11
2.2.3 數(shù)據清洗流程 21
第3章 數(shù)據質量管理系統(tǒng) 25
3.1 數(shù)據源管理 25
3.1.1 關系數(shù)據庫數(shù)據源管理 25
3.1.2 文件數(shù)據源管理 27
3.2 數(shù)據剖析 27
3.2.1 元數(shù)據 27
3.2.2 值預覽 28
3.2.3 值分布分析 28
3.3 數(shù)據質量評估 29
3.3.1 指標體系維護 29
3.3.2 評估算法庫 31
3.3.3 數(shù)據檢查算子庫 32
3.3.4 數(shù)據血緣關系維護 35
3.3.5 數(shù)據質量評估流程 37
3.3.6 評估任務庫 40
3.4 數(shù)據清洗 40
3.4.1 清洗算子庫 40
3.4.2 數(shù)據清洗流程 43
3.4.3 清洗任務庫 45
3.4.4 清洗案例庫 46
3.5 系統(tǒng)設置 46
3.5.1 用戶管理 46
3.5.2 角色管理 47
3.5.3 模塊管理 49
3.5.4 修改密碼 52
第4章 常用數(shù)據質量管理系統(tǒng)操作 53
4.1 規(guī)劃評估指標 53
4.2 導入數(shù)據源 54
4.3 建立基礎指標體系 56
4.4 創(chuàng)建數(shù)據質量評估任務 58
4.5 配置指標樹 59
4.6 配置評估算子 59
4.7 設置指標聚合方式 61
4.8 執(zhí)行評估方案 62
4.9 數(shù)據清洗 64
4.10 算子開發(fā) 66
4.10.1 算子開發(fā)與部署方法 66
4.10.2 算子開發(fā)實例 70
第5章 數(shù)據集成 74
5.1 數(shù)據集成的概念 74
5.2 數(shù)據集成的方法 75
5.2.1 虛擬視圖方法 76
5.2.2 物化方法 77
5.2.3 混合型集成方法 78
5.3 數(shù)據集成開發(fā)生命周期 79
第6章 多源數(shù)據匯集處理系統(tǒng) 80
6.1 管理部分 80
6.1.1 用戶管理 80
6.1.2 管理案例庫 82
6.2 普通人員視圖 84
6.2.1 歷史庫 85
6.2.2 案例模板庫 86
6.2.3 數(shù)據源創(chuàng)建 87
6.2.4 預設向導模板 89
6.3 開發(fā)者視圖 92
6.3.1 新建 92
6.3.2 打開 93
6.3.3 資源庫 93
6.3.4 統(tǒng)計 94
6.3.5 模型校驗 94
6.3.6 事前校驗 96
6.3.7 測試模型 96
6.3.8 逐步測試 96
6.3.9 插入斷點 97
6.3.10 插入監(jiān)控點 98
6.3.11 大數(shù)據支持 99
6.3.12 日志和統(tǒng)計升級 99
6.3.13 數(shù)據預覽 100
第7章 常用數(shù)據集成功能操作 101
7.1 數(shù)據集成準備 101
7.2 表屬性的計算匯總 103
7.3 表數(shù)據分組統(tǒng)計 113
7.4 表間數(shù)據關聯(lián) 124
7.5 腳本處理 133
7.6 多表數(shù)據合并 142
7.7 字段合并與數(shù)據分流 151
7.8 數(shù)值范圍標識 162
7.9 作業(yè)處理 170
7.10 綜合操作(1) 177
7.11 綜合操作(2) 197
參考文獻 209