本書分為7個(gè)章節(jié)。第一章介紹大數(shù)據(jù)歸約在數(shù)據(jù)預(yù)處理中的作用以及面臨的技術(shù)挑戰(zhàn);第二章介紹多維大數(shù)據(jù)歸約知識(shí)體系、業(yè)務(wù)領(lǐng)域本體和歸約任務(wù)本體;第三章介紹大數(shù)據(jù)特征選擇策略和評(píng)價(jià)準(zhǔn)則,以及兩階段混合特征選擇方法;第四章介紹大數(shù)據(jù)元組相似度度量和快速歸約方法;第五章介紹了大數(shù)據(jù)數(shù)值歸約基本方法和基于約束轉(zhuǎn)變的數(shù)據(jù)立方體計(jì)算技
本書是“格致方法·商科研究方法譯叢”中的一種,商科研究方法主要是幫助相關(guān)專業(yè)的研究生進(jìn)行理論研究的教學(xué)參考書。數(shù)字方法在商科方法研究中經(jīng)過(guò)許不斷發(fā)展,形成了完備的體系。本書主要教學(xué)的是使用數(shù)字方法收集定性數(shù)據(jù),即在定性研究中使用數(shù)字方法(包括跟蹤和追蹤),幫助相關(guān)專業(yè)的碩士研究生完成其畢業(yè)論文。全書分六章,手把手地幫助
本書采用案例式編寫模式,包括7個(gè)單元,其中,單元1介紹數(shù)據(jù)分析的基本概念、流程和常用工具包,單元2介紹數(shù)據(jù)標(biāo)注的分類、基本流程及工具的使用,單元3介紹ndarray數(shù)組及Python科學(xué)計(jì)算庫(kù)NumPy,單元4介紹數(shù)據(jù)分析處理庫(kù)pandas,單元5介紹數(shù)據(jù)可視化工具包Matplotlib和seaborn,單元6介紹分類
本書共有九章,從數(shù)據(jù)采集與預(yù)處理概述開(kāi)始,介紹了大數(shù)據(jù)環(huán)境的搭建,并對(duì)數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理的技術(shù)方法進(jìn)行了系統(tǒng)介紹。數(shù)據(jù)采集的內(nèi)容包括Flume日志數(shù)據(jù)采集、Kafka日志數(shù)據(jù)采集、Fluentd與Logstach等一系列數(shù)據(jù)采集技術(shù);數(shù)據(jù)預(yù)處理的內(nèi)容包括網(wǎng)絡(luò)爬蟲(chóng)采集Web數(shù)據(jù)、Python數(shù)據(jù)預(yù)處理技術(shù)、Kettle
本書以廣泛使用的Alluxio2.8.0版本為基礎(chǔ)編寫,深入介紹Alluxio相關(guān)技術(shù)原理與實(shí)踐案例。本書主要內(nèi)容包括Alluxio系統(tǒng)入門與使用、Alluxio系統(tǒng)內(nèi)核組件設(shè)計(jì)實(shí)現(xiàn)原理,同時(shí)詳細(xì)介紹了Alluxio在大型企業(yè)中的經(jīng)典應(yīng)用案例與生產(chǎn)實(shí)踐,并附有Alluxio的開(kāi)源社區(qū)開(kāi)發(fā)者指南。本書是工業(yè)界和學(xué)術(shù)界從事
本書為高等職業(yè)教育計(jì)算機(jī)類新形態(tài)——工作手冊(cè)式教材,內(nèi)容包括基礎(chǔ)環(huán)境的搭建與配置,Hadoop完全分布式集群的搭建與運(yùn)行,Hadoop核心組件的應(yīng)用案例,Hive組件的安裝、配置與應(yīng)用,ZooKeeper的安裝、配置與應(yīng)用,HBase的安裝、配置與應(yīng)用,Sqoop組件的安裝、配置與應(yīng)用,F(xiàn)lume組件的安裝、配置與應(yīng)用
本書是數(shù)據(jù)標(biāo)注領(lǐng)域領(lǐng)先的實(shí)訓(xùn)講義。本書著重對(duì)常見(jiàn)的文本、語(yǔ)音和圖像標(biāo)注任務(wù)類型進(jìn)行介紹,幫助從事標(biāo)注工作的學(xué)習(xí)者快速地完成系統(tǒng)化學(xué)習(xí),進(jìn)行標(biāo)注實(shí)戰(zhàn)。本書對(duì)文本、語(yǔ)音及圖像標(biāo)注的多種任務(wù)類型逐一進(jìn)行講解和分析,每種標(biāo)注類型均配有對(duì)應(yīng)的規(guī)范、舉例分析、習(xí)題及解析。同時(shí),本書還針對(duì)各類標(biāo)注配套多種子任務(wù)類型或多個(gè)領(lǐng)域的實(shí)操練
本書是一本專門面向數(shù)據(jù)標(biāo)注人才培養(yǎng)的實(shí)訓(xùn)教材,適用于有意從事人工智能訓(xùn)練師和數(shù)據(jù)標(biāo)注工作的人員。為了使學(xué)習(xí)更具有針對(duì)性,本書特別選擇了能代表行業(yè)普遍需求的標(biāo)注項(xiàng)目管理知識(shí)及典型文本、語(yǔ)音和圖像標(biāo)注任務(wù)進(jìn)行講解與訓(xùn)練,輔助學(xué)習(xí)者快速完成系統(tǒng)化學(xué)習(xí),進(jìn)行標(biāo)注實(shí)戰(zhàn)工作。本書對(duì)文本的事件標(biāo)注和關(guān)系標(biāo)注、語(yǔ)音的采集和質(zhì)檢、圖像的
隨著“十四五”規(guī)劃綱要中提出“協(xié)同發(fā)展云服務(wù)與邊緣計(jì)算服務(wù)”的觀點(diǎn),邊云智能已成為未來(lái)發(fā)展的重要趨勢(shì)。本書依托于政策大背景,旨在向讀者介紹邊云智能的基礎(chǔ)知識(shí)和應(yīng)用。書中分為四個(gè)篇章,第一篇章介紹了邊云架構(gòu)的骨架和基礎(chǔ)概念,第二篇章介紹了人工智能算法和深度學(xué)習(xí)模型,第三篇章介紹了云端決策算法和邊緣端輕量化算法,第四篇章介
本書系統(tǒng)講述ApacheSpark/PySpark大數(shù)據(jù)計(jì)算平臺(tái)的原理,以及如果將ApachePySpark應(yīng)用于大數(shù)據(jù)的實(shí)時(shí)流處理、批處理等各個(gè)場(chǎng)景。通過(guò)原理深入學(xué)習(xí)和實(shí)踐示例、案例的學(xué)習(xí)應(yīng)用,使讀者了解并掌握ApacheSpark/PySpark的基本原理和技能,接近理論與實(shí)踐的距離。全書共分為8章,主要內(nèi)容包括: