注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫R與Hadoop大數據分析實戰(zhàn)

R與Hadoop大數據分析實戰(zhàn)

R與Hadoop大數據分析實戰(zhàn)

定 價:¥49.00

作 者: (?。¬ignesh Prajapati 著; 李明,王威揚,孫思棟,等 譯
出版社: 機械工業(yè)出版社
叢編項: 大數據技術叢書
標 簽: 計算機/網絡 數據倉庫與數據挖掘 數據庫

購買這本書可以去


ISBN: 9787111483526 出版時間: 2014-11-01 包裝: 平裝
開本: 16開 頁數: 219 字數:  

內容簡介

  本書講述R語言與Hadoop技術結合應用的權威書籍,由資深大數據分析師撰寫,不僅系統(tǒng)且深入地闡釋了R與Hadoop集成技術的工具、方法、原則和最佳實踐,而且對各種常見問題進行深入分析,包含大量實踐案例,可操作性強,能為用戶高效利用R語言與Hadoop技術提供有效指導。全書共7章,分為四部分:第一部分(基礎概念),包括第1~2章,主要講解R語言以及Hadoop的安裝過程、計算原理和基礎概念;第二部分(初級應用),包括第3~4章,主要講解RHIPE、RHadoop以及streaming三種實現方案;第三部分(高級實例),包括第5~6章,主要以RHadoop為技術背景,講解多個實際應用案例;第四部分(數據庫連接),包括第7章,主要講解在RHadoop下如何同各類數據庫進行連接。

作者簡介

  Vignesh Prajapati 資深大數據分析師,現為Pingax公司顧問、Enjay公司軟件工程師,精通R、Hadoop、Mahout、Pig、Hive等技術,在機器學習和大數據技術方面擁有豐富經驗。目前他專注于利用大數據和云技術為客戶提供有價值產品。譯者簡介李明畢業(yè)于沈陽理工大學信息工程學院電子科技與技術系,曾就職于凡客誠品、居然之家等大型電子商務公司,目前就職于優(yōu)酷土豆網。他的研究興趣是用R語言進行互聯網數據分析/挖掘,撰寫過大量有關R語言基礎和高級應用的文章,對互聯網數據統(tǒng)計系統(tǒng)的R語言實踐有較深研究,撰寫了《R語言與網站分析》一書。他的個人博客為www.bassary.com。王威揚2008年畢業(yè)于清華大學航天航空學院,同年獲得清華大學經濟學雙學位,2010年獲得芝加哥大學統(tǒng)計學碩士學位。畢業(yè)后曾先后任職于芝加哥大學計算機系、文思海輝技術有限公司、京東世紀貿易集團有限公司及互聯網初創(chuàng)企業(yè),在科研、證券、銀行、電商、O2O行業(yè)負責數據倉庫建設及數據分析、挖掘工作,同時對高性能計算與開源分布式技術架構有濃厚興趣。孫思棟中南財經政法大學經濟學、信息與計算科學雙學士,現為清華大學中國應急管理研究基地助理研究員,參與了國家清史編撰委員會文獻等3個省部級科研項目,對非結構化大數據處理有深入理解。

圖書目錄

譯者序
前言
審校者簡介
致謝
第1章 R和Hadoop入門 1
1.1 安裝R 2
1.2 安裝RStudio 3
1.3 R語言的功能特征 3
1.3.1 使用R程序包 3
1.3.2 執(zhí)行數據操作 3
1.3.3 日漸增多的社區(qū)支持 4
1.3.4 R語言數據建模 4
1.4 Hadoop的安裝 5
1.4.1 不同的Hadoop模式 6
1.4.2 Hadoop的安裝步驟 6
1.5 Hadoop的特點 12
1.5.1 HDFS簡介 13
1.5.2 MapReduce簡介 13
1.6 HDFS和MapReduce架構 14
1.6.1 HDFS架構 14
1.6.2 MapReduce架構 15
1.6.3 通過圖示了解HDFS和MapReduce架構 15
1.7 Hadoop的子項目 16
1.8 小結 19
第2章 編寫Hadoop MapReduce程序 20
2.1 MapReduce基礎概念 20
2.2 Hadoop MapReduce技術簡介 22
2.2.1 MapReduce中包含的實體 22
2.2.2 MapReduce中的主要執(zhí)行進程 23
2.2.3 MapReduce的局限 25
2.2.4 MapReduce 可以解決的問題 26
2.2.5 使用Hadoop編程時用到不同的Java概念 26
2.3 Hadoop MapReduce原理 27
2.3.1 MapReduce對象 27
2.3.2 MapReduce中實現Map階段的執(zhí)行單元數目 28
2.3.3 MapReduce中實現Reduce階段的執(zhí)行單元數目 28
2.3.4 MapReduce的數據流 28
2.3.5 深入理解HadoopMapReduce 30
2.4 編寫Hadoop MapReduce示例程序 32
2.4.1 MapReduce job運行的步驟 33
2.4.2 MapReduce可解決的商業(yè)問題 38
2.5 在R環(huán)境中編寫Hadoop MapReduce程序的方式 39
2.5.1 RHadoop 39
2.5.2 RHIPE 40
2.5.3 Hadoop streaming 40
2.6 小結 40
第3章 集成R和Hadoop 41
3.1 RHIPE 42
3.1.1 安裝RHIPE 42
3.1.2 RHIPE架構 44
3.1.3 RHIPE實例 45
3.1.4 RHIPE參考函數 48
3.2 RHadoop 51
3.2.1 RHadoop架構 51
3.2.2 安裝RHadoop 52
3.2.3 RHadoop案例 53
3.2.4 RHadoop參考函數 56
3.3 小結 58
第4章 Hadoop Streaming中使用R 59
4.1 Hadoop Streaming基礎概念 59
4.2 使用R運行Hadoop streaming 62
4.2.1 MapReduce應用程序基礎 63
4.2.2 如何編寫MapReduce應用程序 65
4.2.3 如何運行MapReduce應用程序 67
4.2.4 如何瀏覽MapRecuce應用程序的輸出 69
4.2.5 Hadoop MapReduce腳本的基礎R函數 70
4.2.6 管理Hadoop MapReduce任務 71
4.3 R語言擴展包HadoopStreaming介紹 72
4.3.1 hsTableReader函數 73
4.3.2 hsKeyValReader函數 75
4.3.3 hasLineReader函數 75
4.3.4 運行Hadoop streaming任務 78
4.3.5 執(zhí)行Hadoop Streaming任務 79
4.4 小結 79
第5章 利用R和Hadoop學習數據分析 80
5.1 數據分析項目生命周期 80
5.1.1 問題定義 81
5.1.2 設計數據需求 81
5.1.3 數據預處理 81
5.1.4 數據分析 82
5.1.5 數據可視化 82
5.2 數據分析問題 83
5.2.1 展示網頁分類 83
5.2.2 計算股市變動頻率 92
5.2.3 案例研究:預測推土機售價 98
5.3 小結 107
第6章 應用機器學習做大數據分析 108
6.1 機器學習介紹 108
6.2 有監(jiān)督機器學習算法 109
6.2.1 線性回歸 109
6.2.2 logistic回歸 115
6.3 無監(jiān)督機器學習算法 118
6.4 推薦算法 123
6.4.1 在R中產生推薦商品的步驟 125
6.4.2 使用R和Hadoop產生推薦商品 128
6.5 小結 131
第7章 從各種數據庫中導入與導出數據 132
7.1 文件型數據庫 134
7.1.1 不同類型的文件 134
7.1.2 安裝R包 134
7.1.3 將數據導入R 134
7.1.4 從R導出數據 135
7.2 MySQL 135
7.2.1 安裝MySQL 135
7.2.2 安裝RMySQL 136
7.2.3 列出數據表及其結構 136
7.2.4 導入數據進R 136
7.2.5 數據操縱 137
7.3 Excel 137
7.3.1 安裝Excel 138
7.3.2 導入數據進R 138
7.3.3 R和Excel的數據操縱 138
7.3.4 導出數據到Excel 138
7.4 MongoDB 138
7.4.1 安裝MongoDB 139
7.4.2 安裝rmongodb 141
7.4.3 導入數據進R 141
7.4.4 數據操縱 142
7.5 SQLite 143
7.5.1 SQLite的特性 143
7.5.2 安裝SQLite 144
7.5.3 安裝RSQLite 144
7.5.4 將數據導師入R 144
7.5.5 數據操縱 145
7.6 PostgreSQL 145
7.6.1 PostgreSQL的特性 145
7.6.2 安裝PostgreSQL 145
7.6.3 安裝RPostgreSQL 146
7.6.4 從R導出數據 146
7.7 Hive 147
7.7.1 Hive的特性 147
7.7.2 安裝Hive 147
7.7.3 安裝RHive 149
7.7.4 RHive操作 149
7.8 HBase 150
7.8.1 HBase的特性 150
7.8.2 安裝HBase 151
7.8.3 安裝Thrift 152
7.8.4 安裝RHBase 153
7.8.5 導入數據進R 153
7.8.6 數據操縱 153
7.9 小結 154
附錄 參考資源 155

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號