![]() ![]() |
構(gòu)建數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái) ![]() 本書(shū)的主要內(nèi)容有:設(shè)計(jì)現(xiàn)代化和安全的云原生或混合式數(shù)據(jù)分析和機(jī)器學(xué)習(xí)平臺(tái)。整合數(shù)據(jù)到妥善治理、可擴(kuò)展和有彈性的數(shù)據(jù)平臺(tái),以數(shù)據(jù)加速創(chuàng)新。實(shí)現(xiàn)企業(yè)數(shù)據(jù)訪(fǎng)問(wèn)的民主化,治理業(yè)務(wù)團(tuán)隊(duì)抽取洞察力的方式,并構(gòu)建AI/ML能力。賦予業(yè)務(wù)團(tuán)隊(duì)用流處理流水線(xiàn)實(shí)時(shí)決策的能力。構(gòu)建MLOps平臺(tái),采用預(yù)測(cè)分析和規(guī)范性分析方法。 編輯推薦 前言數(shù)據(jù)平臺(tái)是什么?你為何需要它?構(gòu)建數(shù)據(jù)和機(jī)器學(xué)習(xí)(ML)平臺(tái)都涉及哪些內(nèi)容?你為何應(yīng)該在云端構(gòu)建平臺(tái)?做數(shù)據(jù)和機(jī)器學(xué)習(xí)項(xiàng)目,總會(huì)遇到這些常見(jiàn)問(wèn)題。本書(shū)從解答這些問(wèn)題入手,接著規(guī)劃平臺(tái)開(kāi)發(fā)的戰(zhàn)略旅程。我們建議你按該旅程在自己的業(yè)務(wù)中構(gòu)建數(shù)據(jù)和機(jī)器學(xué)習(xí)能力。我們將介紹如何執(zhí)行該戰(zhàn)略的每一步,并將所有概念都整合到一個(gè)典型的數(shù)據(jù)現(xiàn)代化案例之中。你為何需要云數(shù)據(jù)平臺(tái)?試想貴司首席技術(shù)官(CTO)正欲新建一移動(dòng)端友好的電商網(wǎng)站。我們失去業(yè)務(wù),他振振有詞道,還不是因?yàn)槲覀兙W(wǎng)站沒(méi)適配手機(jī),尤其是沒(méi)考慮到亞洲語(yǔ)言區(qū)的使用習(xí)慣。CTO 所講現(xiàn)有網(wǎng)站在移動(dòng)端用戶(hù)體驗(yàn)不佳這一點(diǎn),首席執(zhí)行官(CEO)非常認(rèn)同,但她想弄清楚平臺(tái)的移動(dòng)端客戶(hù)在總客戶(hù)群中是否形成一個(gè)能盈利的細(xì)分市場(chǎng)。于是,她給亞洲區(qū)運(yùn)營(yíng)負(fù)責(zé)人打電話(huà),詢(xún)問(wèn):我們電商網(wǎng)站手機(jī)客戶(hù)的收入和利潤(rùn)率各是多少?如增加用手機(jī)購(gòu)買(mǎi)的人數(shù),下一年的總收入會(huì)有怎樣的變化?亞洲區(qū)負(fù)責(zé)人該如何回答這個(gè)問(wèn)題?要回答這個(gè)問(wèn)題,需有能力關(guān)聯(lián)客戶(hù)訪(fǎng)問(wèn)(確定HTTP 請(qǐng)求的來(lái)源)、客戶(hù)購(gòu)買(mǎi)(了解他們所購(gòu)商品)和采購(gòu)信息(確定所購(gòu)商品的成本)。除此之外,還要有能力預(yù)測(cè)細(xì)分市場(chǎng)的增長(zhǎng)情況。地區(qū)負(fù)責(zé)人要找信息技術(shù)(IT)部,請(qǐng)他們從不同數(shù)據(jù)源拉取必要信息,并編寫(xiě)程序計(jì)算這些統(tǒng)計(jì)數(shù)據(jù)嗎? IT 部門(mén)具備回答這個(gè)問(wèn)題的帶寬和做預(yù)測(cè)分析的技能嗎?如該機(jī)構(gòu)擁有數(shù)據(jù)平臺(tái),情況會(huì)有多大改善?如有數(shù)據(jù)平臺(tái),所有數(shù)據(jù)均已采集和清洗到位,全機(jī)構(gòu)可直接拉數(shù)據(jù)做分析和合成所需數(shù)據(jù)。數(shù)據(jù)分析師團(tuán)隊(duì)只需運(yùn)行交互式即席查詢(xún)。他們還可利用平臺(tái)內(nèi)置的AI 能力,輕松預(yù)測(cè)收入和流量模式,或檢索其預(yù)測(cè)結(jié)果,并以數(shù)據(jù)驅(qū)動(dòng)決策,確定是否響應(yīng)CTO 的要求,投資建設(shè)移動(dòng)端友好的新站點(diǎn)。為解答CEO 的問(wèn)題, 可購(gòu)買(mǎi)和部署一套實(shí)時(shí)用戶(hù)監(jiān)控(real-time user monitoring,RUM)工具。這類(lèi)專(zhuān)用工具非常多,這種一次性決策都有一款合適的工具。但擁有一個(gè)數(shù)據(jù)平臺(tái),機(jī)構(gòu)就能解答很多這樣的一次性問(wèn)題,再無(wú)需采購(gòu)和安裝一堆專(zhuān)門(mén)解決方案。當(dāng)今機(jī)構(gòu)日益渴求以數(shù)據(jù)驅(qū)動(dòng)決策。我們所舉例子聚焦的是一次性決策。但在很多情況下,機(jī)構(gòu)期望針對(duì)每筆交易都能反復(fù)自動(dòng)決策。例如,機(jī)構(gòu)可能想判斷購(gòu)物車(chē)是否有棄車(chē)風(fēng)險(xiǎn),以立即向客戶(hù)推送低價(jià)商品,幫其跨過(guò)免運(yùn)費(fèi)門(mén)檻。這些商品必須能吸引具體的購(gòu)物者,因而需要扎實(shí)的分析和機(jī)器學(xué)習(xí)能力;跀(shù)據(jù)作決策,機(jī)構(gòu)需要一個(gè)能簡(jiǎn)化如下工作的數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái):? 獲取數(shù)據(jù)。? 運(yùn)行交互式即席查詢(xún)。? 創(chuàng)建報(bào)告。? 根據(jù)數(shù)據(jù)自動(dòng)決策。? 企業(yè)服務(wù)個(gè)性化。為獲得上述所有能力,需克服技術(shù)障礙。如本書(shū)所講,云平臺(tái)能減少這些障礙:有了它就能從任何地方訪(fǎng)問(wèn)數(shù)據(jù),執(zhí)行快速、大規(guī)模查詢(xún),甚至在邊緣設(shè)備上也可以,而且還能利用提供多種分析和AI 能力的服務(wù)。然而,要實(shí)現(xiàn)這樣一個(gè)平臺(tái),需多個(gè)構(gòu)建模塊,而將這些模塊開(kāi)發(fā)和安裝到位,有時(shí)是一個(gè)復(fù)雜的旅程。本書(shū)旨在幫讀者更好地理解這些主要概念、架構(gòu)模式和可用工具,以搭建現(xiàn)代云數(shù)據(jù)平臺(tái),洞察和控制公司數(shù)據(jù),作出更有意義和自動(dòng)化程度更高的業(yè)務(wù)決策。我們幾位作者都是擁有多年工作經(jīng)驗(yàn)的工程師,一直在幫不同地區(qū)、不同行業(yè)的企業(yè)構(gòu)建數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)。這些企業(yè)期望從數(shù)據(jù)獲取洞察力,但往往面臨很多挑戰(zhàn),難以拿到適合他們快速分析的所有必要數(shù)據(jù)。因而,他們發(fā)現(xiàn)自己必須構(gòu)建一個(gè)現(xiàn)代化數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)。目標(biāo)讀者本書(shū)是為那些期望在自己業(yè)務(wù)中通過(guò)利用公有云技術(shù)構(gòu)建數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)來(lái)支持?jǐn)?shù)據(jù)驅(qū)動(dòng)決策的架構(gòu)師而寫(xiě)。數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師,有可能在這些系統(tǒng)上從事開(kāi)發(fā)工作,閱讀本書(shū),有助于理解其概念設(shè)計(jì)。原本就從事數(shù)字業(yè)務(wù)的數(shù)字原生公司,數(shù)年以來(lái)持續(xù)構(gòu)建和開(kāi)發(fā)這類(lèi)平臺(tái),驅(qū)動(dòng)業(yè)務(wù)決策。早在2016 年,Twitter 公司就曾解釋?zhuān)╤ttps://oreil.ly/OwTy4)其數(shù)據(jù)平臺(tái)團(tuán)隊(duì)維護(hù)多個(gè)系統(tǒng),為實(shí)現(xiàn)多種業(yè)務(wù)目標(biāo)而支持并管理數(shù)據(jù)的生產(chǎn)和消費(fèi),其中包括公開(kāi)指標(biāo)、推薦、A/B 測(cè)試、廣告定向投放等。回到2016 年,其工作還包括維護(hù)當(dāng)時(shí)世界上最大的Hadoop 集群。到2019 年,這項(xiàng)工作職責(zé)改成將支持云原生數(shù)據(jù)倉(cāng)庫(kù)解決方案(https://oreil.ly/xeud3)也包括在內(nèi)。再舉一例,Etsy 公司表示(https://oreil.ly/4vckj)其機(jī)器學(xué)習(xí)平臺(tái)團(tuán)隊(duì)開(kāi)發(fā)和維護(hù)技術(shù)基礎(chǔ)設(shè)施,支持機(jī)器學(xué)習(xí)實(shí)驗(yàn),方便Etsy 機(jī)器學(xué)習(xí)實(shí)操者大規(guī)模構(gòu)建原型、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。Twitter 和Etsy 都已構(gòu)建現(xiàn)代化數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)。這兩家公司的平臺(tái)不同,支持的數(shù)據(jù)、員工和業(yè)務(wù)用例類(lèi)型也不同,但基本方法非常相似。本書(shū)將介紹如何構(gòu)建可賦予你們工程師如下能力的現(xiàn)代化數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái):? 從多種數(shù)據(jù)源采集數(shù)據(jù),如運(yùn)營(yíng)數(shù)據(jù)庫(kù)、客戶(hù)點(diǎn)擊流、物聯(lián)網(wǎng)(IoT)設(shè)備、軟件即服務(wù)(SaaS)應(yīng)用等。? 打破機(jī)構(gòu)不同部門(mén)之間的壁壘。? 攝取數(shù)據(jù)時(shí)或加載數(shù)據(jù)后處理數(shù)據(jù),同時(shí)確保處理得法,數(shù)據(jù)質(zhì)量高可用,且管理到位。? 例行或即席分析數(shù)據(jù)。? 用現(xiàn)有AI 模型豐富數(shù)據(jù)。? 構(gòu)建機(jī)器學(xué)習(xí)模型,執(zhí)行預(yù)測(cè)分析。? 數(shù)據(jù)操作不僅支持例行處理,還可響應(yīng)觸發(fā)事件和閾值。? 傳播洞察力,嵌入分析。若到企業(yè)從事數(shù)據(jù)和機(jī)器學(xué)習(xí)模型相關(guān)工作,企業(yè)將要求你在數(shù)據(jù)或機(jī)器學(xué)習(xí)平臺(tái)團(tuán)隊(duì)開(kāi)發(fā)的平臺(tái)上工作,而本書(shū)對(duì)平臺(tái)架構(gòu)方面的考量所作介紹有望帶你登堂入室。本書(shū)有助于數(shù)據(jù)工程師、數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)工程師獲得一種高層次的系統(tǒng)設(shè)計(jì)觀(guān)。我們的主要經(jīng)驗(yàn)雖來(lái)自谷歌云(Google Cloud)平臺(tái),但寫(xiě)作過(guò)程努力采用一種云無(wú)關(guān)的視角來(lái)介紹這些架構(gòu)背后的服務(wù)。為此,我們了引入三大云供應(yīng)商(即亞馬遜云服務(wù)AWS、微軟Azure 和谷歌云)的相關(guān)例子,但并不拘泥于這三家。內(nèi)容編排本書(shū)按第2 章將詳細(xì)介紹的用數(shù)據(jù)創(chuàng)新的戰(zhàn)略步驟編排,分12 章。本書(shū)以一個(gè)典型應(yīng)用場(chǎng)景收尾,展示機(jī)構(gòu)該如何走上自己的現(xiàn)代化之旅。第1 章討論機(jī)構(gòu)為何應(yīng)構(gòu)建數(shù)據(jù)平臺(tái)。該章還涵蓋數(shù)據(jù)平臺(tái)的構(gòu)建方法、技術(shù)趨勢(shì)和核心原則。第2、3 章深入規(guī)劃構(gòu)建旅程,確定創(chuàng)新的戰(zhàn)略步驟和實(shí)施方法。屆時(shí),我們將討論降低總擁有成本(TCO)、打破數(shù)據(jù)壁壘和利用AI 解鎖創(chuàng)新方法等概念。我們還將分析數(shù)據(jù)生命周期的構(gòu)建模塊,討論數(shù)據(jù)團(tuán)隊(duì)的設(shè)計(jì)方法,并推薦一種采用計(jì)劃。第4 章用遷移框架整合上述內(nèi)容。第5 ~ 7 章依次討論數(shù)據(jù)平臺(tái)的三種最常用的架構(gòu):數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)和湖倉(cāng)一體。我們展示從數(shù)據(jù)湖或數(shù)據(jù)倉(cāng)庫(kù)出發(fā)構(gòu)建湖倉(cāng)一體的兩種方式,并討論這兩種路徑該如何選。第8、9 章討論湖倉(cāng)一體基本模式的兩種常用擴(kuò)展方法。屆時(shí),我們將介紹如何通過(guò)引入流式模式提高在上下文的決策速度,實(shí)現(xiàn)實(shí)時(shí)決策,以及如何通過(guò)向邊緣擴(kuò)展來(lái)支持混合架構(gòu)。第10、11 章介紹如何在企業(yè)環(huán)境構(gòu)建和使用AI 和機(jī)器學(xué)習(xí),如何設(shè)計(jì)架構(gòu)來(lái)設(shè)計(jì)、構(gòu)建、部署和編排創(chuàng)新模型。這些章節(jié)涵蓋機(jī)器學(xué)習(xí)預(yù)測(cè)模型和生成模型。本書(shū)第12 章我們將給出一個(gè)典型的數(shù)據(jù)現(xiàn)代化樣板旅程,重點(diǎn)闡釋如何從遺留架構(gòu)遷移到新架構(gòu),并解釋機(jī)構(gòu)選擇某種特定解決方案的過(guò)程。你若是云架構(gòu)師,擔(dān)當(dāng)為你們業(yè)務(wù)構(gòu)建數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)的重任,那么請(qǐng)按順序閱讀本書(shū)所有章節(jié)。你若是數(shù)據(jù)分析師,負(fù)責(zé)創(chuàng)建報(bào)告、數(shù)據(jù)看板和作嵌入式分析,請(qǐng)閱讀第1 章、第4 ~ 7 章、第10 章。你若是數(shù)據(jù)工程師,負(fù)責(zé)構(gòu)建數(shù)據(jù)流水線(xiàn),請(qǐng)閱讀第5 ~ 9 章。其余章節(jié)可跳過(guò),后續(xù)若對(duì)一類(lèi)特定應(yīng)用有需求,再將其作為參考。你若是負(fù)責(zé)構(gòu)建機(jī)器學(xué)習(xí)模型的數(shù)據(jù)科學(xué)家,請(qǐng)閱讀第7、8、10 章和11 章。你若是對(duì)機(jī)器學(xué)習(xí)模型運(yùn)維感興趣的機(jī)器學(xué)習(xí)工程師,請(qǐng)?zhí)^(guò)第1 ~ 9 章,直接研讀第10、11 章。排版約定本書(shū)排版遵循以下約定:斜體(Italic)表示新術(shù)語(yǔ)、URL、郵件地址、文件名和文件擴(kuò)展名。等寬字體(Constant width)表示程序片段和段落中出現(xiàn)的編程元素,如變量、函數(shù)名、數(shù)據(jù)庫(kù)、數(shù)據(jù)類(lèi)型、環(huán)境變量、語(yǔ)句和關(guān)鍵字。使用代碼示例本書(shū)配套材料請(qǐng)從https://oreil.ly/architecting-data-ml-platforms-code 下載。本書(shū)技術(shù)問(wèn)題或代碼使用問(wèn)題,請(qǐng)發(fā)電子郵件至:support@oreilly.com。本書(shū)旨在幫你完成工作。一般來(lái)講,本書(shū)示例代碼,你將其用于自己項(xiàng)目和文檔,無(wú)需聯(lián)系我們征得許可,但大量復(fù)制代碼另議。例如,你寫(xiě)程序使用書(shū)中多處代碼,無(wú)需我們授權(quán),但出售或分發(fā)OReilly 圖書(shū)示例代碼,則需我們授權(quán)。引用本書(shū)內(nèi)容或示例代碼回答問(wèn)題,無(wú)需授權(quán)。但在你的產(chǎn)品文檔中大量使用本書(shū)示例代碼,則需經(jīng)我們授權(quán)。所用之處,如能添加內(nèi)容出處,我們將非常感激,當(dāng)然這并非必須。出處通常要標(biāo)明書(shū)名、作者、出版社和 ISBN 號(hào)。例如:Architecting Data and Machine Learning Platforms by Marco Tranquillin, Valliappa Lakshmanan,and Firat Tekiner (OReilly). Copyright 2024 Marco Tranquillin, Valliappa Lakshmanan, and Firat Tekiner, 978-1-098-15161-4.。如果你覺(jué)得示例代碼的使用方式可能不當(dāng)或超出上述許可范圍,請(qǐng)聯(lián)系我們,郵箱是 permissions@oreilly.com。OReilly 在線(xiàn)學(xué)習(xí)平臺(tái)(OReilly Online Learning)近40 年來(lái),OReilly Media 致力于提供技術(shù)和商業(yè)培訓(xùn)、知識(shí)和卓越見(jiàn)解,來(lái)幫助眾多公司取得成功。公司獨(dú)有的專(zhuān)家和改革創(chuàng)新者網(wǎng)絡(luò)通過(guò)OReilly 書(shū)籍、文章以及在線(xiàn)學(xué)習(xí)平臺(tái),分享他們的專(zhuān)業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn)。OReilly 在線(xiàn)學(xué)習(xí)平臺(tái)按照您的需要提供實(shí)時(shí)培訓(xùn)課程、深入學(xué)習(xí)渠道、交互式編程環(huán)境以及來(lái)自O(shè)Reilly 和其他200 多家出版商的大量書(shū)籍與視頻資料。更多信息,請(qǐng)?jiān)L問(wèn)網(wǎng)站:https://www.oreilly.com/。聯(lián)系我們?nèi)魏斡嘘P(guān)本書(shū)的意見(jiàn)或疑問(wèn),請(qǐng)按照以下地址聯(lián)系出版社。美國(guó):OReilly Media, Inc.1005 Gravenstein Highway NorthSebastopol, CA 95472中國(guó):北京市西城區(qū)西直門(mén)南大街2 號(hào)成銘大廈C 座807 室(100035)奧萊利技術(shù)咨詢(xún)(北京)有限公司我們?yōu)楸緯?shū)做了一個(gè)網(wǎng)頁(yè),將勘誤信息、示例代碼和其他附加信息列在上面。地址是https://oreil.ly/architecting-data-ml-platforms?闭`請(qǐng)發(fā)送給errata@oreilly.com.cn。如欲了解更多OReilly 圖書(shū)、課程、會(huì)議和新聞相關(guān)信息,請(qǐng)?jiān)L問(wèn)以下網(wǎng)站:http://www.oreilly.com。我們的LinkedIn:https://linkedin.com/company/oreilly-media。我們的Twitter:http://twitter.com/oreillymedia。我們的YouTube:http://youtube.com/oreillymedia。致謝編寫(xiě)這樣一本書(shū)意義深遠(yuǎn),因?yàn)槟惴窒淼牟粌H是自己的知識(shí),還是你經(jīng)驗(yàn)結(jié)出的碩果,而這些經(jīng)驗(yàn)是你與很多人并肩奮斗才得來(lái)的。寫(xiě)作過(guò)程,我們回想起有幸與其共事、向其學(xué)習(xí)和共同慶祝的朋友。在不違背保密協(xié)議的前提下,我們無(wú)法一一點(diǎn)名致謝,因此我們只能向包括他們?cè)趦?nèi)的廣大數(shù)據(jù)分析、數(shù)據(jù)工程和數(shù)學(xué)科學(xué)社區(qū)表示深深的感謝。我們由衷感激本書(shū)杰出的技術(shù)審稿人Sami Akbay、Mike Dahlin、Kevin George、Jonathan Gerhard、Noah Gift、Sanjay Ramchandani、Joseph Reis 和Vicki Reyzelman,他們審閱初稿并提出寶貴的反饋和建議。OReilly 是技術(shù)類(lèi)圖書(shū)的首選出版方,本書(shū)出版團(tuán)隊(duì)所表現(xiàn)出來(lái)的專(zhuān)業(yè)水準(zhǔn)便是最好的證明。Megan Laddusaw 指導(dǎo)我們編寫(xiě)引人入勝的大綱。Virginia Wilson 和Melissa Potter 不遺余力管理整個(gè)內(nèi)容開(kāi)發(fā)過(guò)程。Gregory Hyman 幫我們打磨出高質(zhì)量的終稿,甚至還幫我們?cè)O(shè)計(jì)所有插圖。感謝你們的大力幫助!Marco:感謝我的好妻子Lara Maria Gessica,她是指路明燈,寫(xiě)作期間,她給予無(wú)盡的幫助。感謝我可愛(ài)的兒子Walter 和Nicholas 讓我生命的每一天都無(wú)比精彩。Lak:感謝Abirami 長(zhǎng)達(dá)25 年的關(guān)愛(ài)和陪伴。此刻,抗議聲弱了下來(lái),但我不會(huì)因空巢而讓自己承擔(dān)更多寫(xiě)作任務(wù)!Firat:謹(jǐn)以此書(shū)獻(xiàn)給三位女士,她們持續(xù)塑造我的生命,并使這一切成為可能。獻(xiàn)給女兒Evre,感謝她的好奇和快樂(lè)。獻(xiàn)給妻子Yontem,感謝她的堅(jiān)持。獻(xiàn)給母親Emine Ayla,感謝她對(duì)我的信任始終如一。本書(shū)英文版版稅將全部捐給Girls Who Code(https://girlswhocode.com)機(jī)構(gòu)。其使命是構(gòu)建一條培養(yǎng)未來(lái)女性工程師的大型流水線(xiàn)。數(shù)據(jù)在各行各業(yè)所起作用越來(lái)越核心,從業(yè)人員的多元化和包容性也越發(fā)重要。 Marco Tranquillin是資深顧問(wèn),幫機(jī)構(gòu)用云計(jì)算實(shí)現(xiàn)技術(shù)轉(zhuǎn)型。Valliappa Lakshmanan是知名高管,與管理層其他同仁和數(shù)據(jù)科學(xué)團(tuán)隊(duì)一起用數(shù)據(jù)和AI創(chuàng)造價(jià)值。Firat Tekiner是創(chuàng)新型產(chǎn)品經(jīng)理,為全球大型機(jī)構(gòu)開(kāi)發(fā)并交付數(shù)據(jù)產(chǎn)品和AI系統(tǒng)。 目錄
你還可能感興趣
我要評(píng)論
|