注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡家庭與辦公軟件Spark大數據處理:原理、算法與實例

Spark大數據處理:原理、算法與實例

Spark大數據處理:原理、算法與實例

定 價:¥49.00

作 者: 劉軍,林文輝,方澄 著
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302449959 出版時間: 2016-09-01 包裝: 平裝
開本: 16開 頁數: 199 字數:  

內容簡介

  本書以時下流行的Hadoop所存在的缺陷為出發(fā)點,深入淺出地介紹了下一代大數據處理核心技術Spark的優(yōu)勢和必要性,并以簡潔的指引步驟展示了如何在10分鐘內建立一個Spark大數據處理環(huán)境。在此基礎上,本書以圖文并茂和豐富的示例代碼講解的形式系統(tǒng)性地揭示了Spark的運行原理、算子使用、算法設計和優(yōu)化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和高級技巧的參考書籍。本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發(fā)展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD算子使用方法和示例、Spark算法設計實例、Spark程序優(yōu)化方法。本書適合需要使用Spark進行大數據處理的程序員、架構師和產品經理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。

作者簡介

  劉軍,男,1976年生人,博士,副教授,碩士生導師,北京郵電大學數據科學中心主任。2003年至2007年任職于IBM中國研究院,擔任高級研究員及部門經理,建立IBM中國研究院電信融合網絡管理研究方向,主持研發(fā)Websphere及Tivoli電信產品線中多項關鍵技術,期間發(fā)表多篇國際會議及刊物論文,并申請獲得多項美國專利。2007年至2012年創(chuàng)辦歡城(北京)科技有限公司,開創(chuàng)中國無端網絡游戲產業(yè),并擔任中國軟件協(xié)會網頁游戲專業(yè)委員會委員。公司產品多次榮獲國內互聯(lián)網業(yè)界獎項,2008年獲中國互聯(lián)網協(xié)會“十分具運營價值Webgame”獎項,2012年至今在北京郵電大學信息與通信工程學院任教,研究方向為電信及互聯(lián)網大數據分析、高速數據流挖掘算法,并牽頭組建北京郵電大學數據科學中心。開設研究生課程《海量數據處理中的云計算》,發(fā)表大數據分析相關SCI/EI檢索論文十余篇,并獨著《Hadoop大數據處理》一書,該書被哈工大、中南大學等多所高校的相關課程作為教材使用。

圖書目錄

第1章從Hadoop到Spark
1.1Hadoop——大數據時代的火種
1.1.1大數據的由來
1.1.2Google解決大數據計算問題的方法
1.1.3Hadoop的由來與發(fā)展
1.2Hadoop的局限性
1.2.1Hadoop運行機制
1.2.2Hadoop的性能問題
1.2.3針對Hadoop的改進
1.3大數據技術新星——Spark
1.3.1Spark的出現(xiàn)與發(fā)展
1.3.2Spark協(xié)議族
1.3.3Spark的應用及優(yōu)勢
第2章體驗Spark
2.1安裝和使用Spark
2.1.1安裝Spark
2.1.2了解Spark目錄結構
2.1.3使用Spark Shell
2.2編寫和運行Spark程序
2.2.1安裝Scala插件
2.2.2編寫Spark程序
2.2.3運行Spark程序
2.3Spark Web UI
2.3.1訪問實時Web UI
2.3.2從實時UI查看作業(yè)信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架構及運行機制
3.2.1Spark系統(tǒng)架構與節(jié)點角色
3.2.2Spark作業(yè)執(zhí)行過程
3.2.3應用初始化
3.2.4構建RDD有向無環(huán)圖
3.2.5RDD有向無環(huán)圖拆分
3.2.6Task調度
3.2.7Task執(zhí)行
第4章RDD算子
4.1創(chuàng)建算子
4.1.1基于集合類型數據創(chuàng)建RDD
4.1.2基于外部數據創(chuàng)建RDD
4.2變換算子
4.2.1對Value型RDD進行變換
4.2.2對Key/ Value型RDD進行變換
4.3行動算子
4.3.1數據運算類行動算子
4.3.2存儲型行動算子
4.4緩存算子
第5章Spark算法設計
5.1過濾
5.2去重計數
5.3相關計數
5.4相關系數
5.5數據聯(lián)結
5.6TopK
5.7Kmeans
5.8關聯(lián)規(guī)則挖掘
5.9kNN
5.10樸素貝葉斯分類
第6章善用Spark
6.1合理分配資源
6.2控制并行度
6.3利用持久化
6.4選擇恰當的算子
6.5利用共享變量
6.5.1累加器變量
6.5.2廣播變量
6.6利用序列化技術
6.7關注數據本地性
6.8內存優(yōu)化策略
6.9集成外部工具
參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號