從大數據到人工智慧: 理論及Spark實作 (熱銷版)
作者 | 鄧立國/ 佟強 |
---|---|
出版社 | 佳魁資訊股份有限公司 |
商品描述 | 從大數據到人工智慧: 理論及Spark實作 (熱銷版):本書重點在大數據與雲端運算的融合,列出了大數據與雲端運算的一些基本概念的同時,以Spark為開發工具,全面說明雲環境下 |
作者 | 鄧立國/ 佟強 |
---|---|
出版社 | 佳魁資訊股份有限公司 |
商品描述 | 從大數據到人工智慧: 理論及Spark實作 (熱銷版):本書重點在大數據與雲端運算的融合,列出了大數據與雲端運算的一些基本概念的同時,以Spark為開發工具,全面說明雲環境下 |
內容簡介 本書重點在大數據與雲端運算的融合,列出了大數據與雲端運算的一些基本概念的同時,以Spark 為開發工具,全面說明雲環境下的大數據技術部署與典型案例演算法實現,最後介紹了經典Spark 大數據與雲端運算融合的架構與演算法。
產品目錄 01 大數據處理概述 ►1.1 大數據處理技術概述1.2 資料採擷及其相關領域應用1.3 大數據應用1.4 平行計算簡介1.5 Hadoop 介紹1.6 本章小結02 雲端運算時代 ►2.1 雲端運算概述2.2 雲端運算發展動力源泉2.3 雲端運算技術分析2.4 平行計算與雲端運算關係2.5 雲端運算發展優勢2.6 實雲端現遷移2.7 本章小結03 大數據與雲端運算關係 ►3.1 雲端運算與大數據關係3.2 大數據與雲端運算的融合是認識世界的新工具3.3 大數據隱私保護是大數據雲端快速發展和運用的重要前提3.4 大數據成就雲端運算價值3.5 資料向雲端運算移轉3.6 大數據清洗3.7 雲端運算時代的資料整合技術3.8 雲端推薦3.9 本章小結 04 Spark 大數據處理基礎 ►4.1 Spark 大數據處理技術4.2 Spark 2.0.0 安裝設定4.3 Spark 設定4.4 Spark 模式部署概述4.5 Spark Streaming 即時計算架構4.6 Spark SQL 查詢、DataFrames 分散式資料集和Datasets API4.7 Spark 起始點 4.8 Spark 資料來源4.9 Spark 效能最佳化4.10 分散式SQL 引擎4.11 本章小結05 Spark MLlib 機器學習演算法實現 ►5.1 Spark MLlib 基礎5.2 Spark MLlib 矩陣向量5.3 Spark MLlib 線性回歸演算法5.4 Spark MLlib 邏輯回歸演算法5.5 Spark MLlib 單純貝氏分類演算法5.6 Spark MLlib 決策樹演算法5.7 Spark MLlib KMeans 分群演算法5.8 Spark MLlib FPGrowth 連結規則演算法5.9 Spark MLlib 協作過濾推薦演算法5.10 Spark MLlib 神經網路演算法5.11 本章小結06 Spark 大數據架構系統部署 ►6.1 大數據架構介紹6.2 典型的商務使用場景6.3 Spark 三種分散式部署模式6.4 建立大數據架構6.5 Spark 單一機器叢集部署6.6 本章小結07 Spark 大數據處理案例分析7.1 Spark on Amazon EMR7.2 Spark 在AWSKrux 的應用7.3 Spark 在商業網站中的應用7.4 Spark 在Yahoo! 的應用7.5 Spark 在Amazon EC2 上執行 7.6 淘寶應用Spark on YARN 架構7.7 騰訊雲大數據解決方案7.8 雅虎開放原始碼TensorFlowOnSpark7.9 阿里雲E-MapReduce7.10 SequoiaDB+Spark 打造一體化大數據平台7.11 本章小結08 大數據發展展望 ►8.1 大數據未來發展趨勢8.2 大數據給人類帶來的認知衝擊8.3 未來大數據研究突破的技術問題8.4 本章小結A Spark MLlib 神經網路演算法B 參考文獻
書名 / | 從大數據到人工智慧: 理論及Spark實作 (熱銷版) |
---|---|
作者 / | 鄧立國 佟強 |
簡介 / | 從大數據到人工智慧: 理論及Spark實作 (熱銷版):本書重點在大數據與雲端運算的融合,列出了大數據與雲端運算的一些基本概念的同時,以Spark為開發工具,全面說明雲環境下 |
出版社 / | 佳魁資訊股份有限公司 |
ISBN13 / | 9789863797692 |
ISBN10 / | 9863797693 |
EAN / | 9789863797692 |
誠品26碼 / | 2681805196006 |
頁數 / | 384 |
開數 / | 18K |
注音版 / | 否 |
裝訂 / | P:平裝 |
語言 / | 1:中文 繁體 |
尺寸 / | 17X23X1.7CM |
級別 / | N:無 |
最佳賣點 : 本書重點在大數據與雲端運算的融合,以Spark 為開發工具,全面說明雲環境下的大數據技術部署與典型案例演算法實現,最後介紹經典Spark 大數據與雲端運算融合的架構與演算法。
適用:雲端運算環境下Spark大數據技術人員、Spark MLlib機器學習技術人員。
自序 : 前言
麥肯錫全球研究所列出的大數據定義是:一種規模大到在取得、儲存、管理、分析方面大幅超出了傳統資料庫軟體工具能力範圍的資料集合,具有巨量的資料規模、快速的資料流程、多樣的資料型態和價值密度低四大特徵。
大數據技術的戰略意義不在於獲得了龐大的資料,而在於對這些特定領域的資料進行處理分析。換而言之,關鍵是把這些極大的資料實現盈利式的加工,提供效率,具有加值的處理模式。
本書背景
大數據像颶風一樣席捲而來,改變著資訊時代的資料處理方式。產業經營方式經歷著革命性的變革,大數據與雲端運算的融合改變著資料處理流程和模式,對網際網路、資訊經濟發展提出了新的方向和擴充空間。應用驅動技術發展產生的資料越多,可供分析的資料越多,越能推動研發和出現更先進的用來分析資料的工具和方法。
本書內容
本書圍繞網際網路重大的技術革命:雲端運算、大數據(未來世界新一代資訊技術的關鍵和核心)進行說明。雲端運算環境下大數據處理建置是國民經濟發展的資訊基礎設施,發展自主的雲端運算核心技術,擁有自己的資訊基礎設施,目前正處於重要的發展機遇期。本書重點在大數據與雲端運算的融合,列出了大數據與雲端運算的一些基本概念的同時,以Spark 為開發工具,全面說明雲環境下的大數據技術部署與典型案例演算法實現,最後介紹了經典Spark 大數據與雲端運算融合的架構與演算法。
本書目的
3 年前就開始著手準備寫大數據和雲端運算融合的相關技術方面的書,由於書中的演算法需要模擬驗證,所以交稿拖延了很長時間。目前還沒有全面融合兩者技術的書出現,這也是筆者想寫本書的初衷。隨著歲月侵蝕,白髮雜生,大數據技術發展也日新月異。
得益於國內IT 企業的後發制人戰略,目前IT 公司在大數據應用方面已經迎頭趕上國際巨頭,在雲端大數據技術方面的研發和技術突破經歷了大幅的跨越發展。當今世界迎來大數據時代,工欲善其事,必先利其器,在大數據和雲端運算的規則制定和新技術研發上還需努力,這方面還需要加強研發與突破。
致謝
感謝家人給我的全身心的支援與關愛,沒有你們的寬容與支援即使是10 年也無法完成這本書。由於撰寫時間緊迫,夜晚孤燈,每晚多想陪著妻子月夜樹影婆娑,多想在女兒的校門口等待她背著書包顛顛地跑來。最後感謝公司給予的大力支持與幫助。
內文 : 11. 降低維度演算法
像分群演算法一樣,降低維度演算法試圖型分析資料的內在結構,不過降低維度演
算法是以非監督學習的方式,試圖利用較少的資訊來歸納或解釋資料。這種演算法
可以用於高維資料的視覺化或用來簡化資料以便監督式學習使用。常見的演算法包
含:主成分分析(Principle Component Analysis, PCA)、偏最小平方回歸(Partial
Least Square Regression,PLS)、 Sammon 對映、多維尺度(Multi-Dimensional
Scaling, MDS)、投影追蹤(Projection Pursuit)等。
12. 整合演算法
整合演算法用一些相對較弱的學習模型獨立地對同樣的樣本進行訓練,然後把結果
整合起來進行整體預測。整合演算法的主要困難在於究竟整合哪些獨立的、較弱
的學習模型以及如何把學習結果整合起來。這是一種非常強大的演算法,同時也
非常流行。常見的演算法包含:Boosting、Bootstrapped Aggregation(Bagging)、
AdaBoost、堆疊泛化(Stacked Generalization, Blending)、梯度推進機(Gradient
Boosting Machine, GBM)、隨機森林(Random Forest)等。
5.1.4 Spark MLlib 機器學習函數
MLlib 庫基於RDD, 可以與Spark SQL、GraphX、Spark Streaming 無縫整合, 以
RDD 為基礎,4 個子架構可建置大數據計算中心。
MLlib 是MLBase 的一部分, 其中MLBase 分為4 部分:MLlib、MLI、ML
Optimizer 和MLRuntime。
财 ML Optimizer 會選擇它認為最適合的、已經在內部實現好了的機器學習演算法
和相關參數,來處理使用者輸入的資料,並傳回模型或別的幫助分析的結果。
财 MLI 是一個進行特徵取出和進階ML 程式設計抽象的演算法實現的API 或平
台。
财 MLlib 是Spark 實現一些常見的機器學習演算法和應用程式,包含分類、回歸、
分群、協作過濾、降維以及底層最佳化,該演算法可以進行可擴充。
财 MLRuntime 基於Spark 計算架構,將Spark 的分散式運算應用到機器學習領域。
1. Spark MLlib 架構解析
圖5-2 列出了Spark MLlib 架構解析,從架構圖可以看出MLlib 主要包含三個組成
部分: