目 錄
譯者序
前言
致謝
作者簡介
第一部分 大數(shù)據
第1章 大數(shù)據簡介2
1.1 引言2
1.2 大數(shù)據2
1.3 大數(shù)據的定義4
1.4 為什么需要大數(shù)據?為什么是現(xiàn)在4
1.5 大數(shù)據示例5
1.5.1 社交媒體的文章5
1.5.2 調查數(shù)據分析6
1.5.3 調查數(shù)據7
1.5.4 氣象數(shù)據8
1.5.5 Twitter數(shù)據8
1.5.6 集成和分析8
1.5.7 附加數(shù)據的類型10
1.6 總結11
延伸閱讀11
第2章 使用大數(shù)據12
2.1 引言12
2.2 數(shù)據爆炸12
2.3 數(shù)據體量13
2.3.1 機器數(shù)據14
2.3.2 應用日志14
2.3.3 點擊流日志14
2.3.4 外部或第三方數(shù)據15
2.3.5 電子郵件15
2.3.6 合同15
2.3.7 地理信息系統(tǒng)和地理空間數(shù)據16
2.3.8 示例:Funshots公司17
2.4 數(shù)據速度19
2.4.1 Amazon、Facebook、Yahoo和Google19
2.4.2 傳感器數(shù)據19
2.4.3 移動網絡20
2.4.4 社交媒體20
2.5 數(shù)據多樣性21
2.6 總結22
第3章 大數(shù)據處理架構23
3.1 引言23
3.2 再論數(shù)據處理23
3.3 數(shù)據處理技術24
3.4 數(shù)據處理基礎設施的挑戰(zhàn)25
3.4.1 存儲25
3.4.2 傳輸25
3.4.3 處理26
3.4.4 速度或吞吐量26
3.5 全共享架構與無共享架構的比較26
3.5.1 全共享架構27
3.5.2 無共享架構27
3.5.3 OLTP與數(shù)據倉庫28
3.6 大數(shù)據處理28
3.6.1 基礎設施方面31
3.6.2 數(shù)據處理方面32
3.7 電信大數(shù)據研究32
3.7.1 基礎設施34
3.7.2 數(shù)據處理34
第4章 大數(shù)據技術簡介35
4.1 引言35
4.2 分布式數(shù)據處理36
4.3 大數(shù)據處理需求38
4.4 大數(shù)據處理技術39
4.5 Hadoop42
4.5.1 Hadoop核心組件43
4.5.2 Hadoop總結69
4.6 NoSQL69
4.6.1 CAP定理69
4.6.2 鍵-值對:Voldemort70
4.6.3 列簇存儲:Cassandra70
4.6.4 文檔數(shù)據庫:Riak76
4.6.5 圖數(shù)據庫77
4.6.6 NoSQL小結78
4.7 文本ETL處理78
延伸閱讀79
第5章 大數(shù)據驅動的商業(yè)價值80
5.1 引言80
5.2 案例研究1:傳感器數(shù)據81
5.2.1 摘要81
5.2.2 Vestas81
5.2.3 概述81
5.2.4 利用風力發(fā)電81
5.2.5 把氣候變成資本82
5.2.6 跟蹤大數(shù)據的挑戰(zhàn)83
5.2.7 維持數(shù)據中心的能源效率83
5.3 案例研究2:流數(shù)據84
5.3.1 摘要84
5.3.2 監(jiān)控和安全:TerraEchos84
5.3.3 需求84
5.3.4 解決方案84
5.3.5 效益84
5.3.6 先進的光纖網結合實時流數(shù)據85
5.3.7 解決方案組件85
5.3.8 擴展安全邊界創(chuàng)建戰(zhàn)略優(yōu)勢85
5.3.9 關聯(lián)傳感器數(shù)據使得假陽性率為零86
5.4 案例研究3:通過大數(shù)據分析改善患者預后86
5.4.1 摘要86
5.4.2 業(yè)務目標87
5.4.3 挑戰(zhàn)87
5.4.4 概述:給從業(yè)人員新的洞察以指導患者護理87
5.4.5 挑戰(zhàn):將傳統(tǒng)數(shù)據倉庫生態(tài)系統(tǒng)與大數(shù)據融合87
5.4.6 解決方案:為大數(shù)據分析做好準備88
5.4.7 結果:消除“數(shù)據陷阱”88
5.4.8 為什么是aster88
5.4.9 關于Aurora89
5.5 案例研究4:安大略大學技術學院—利用關鍵數(shù)據,提供積極的患者護理89
5.5.1 摘要89
5.5.2 概述89
5.5.3 商業(yè)上的收益90
5.5.4 更好地利用數(shù)據資源90
5.5.5 智慧醫(yī)療保健91
5.5.6 解決方案組件91
5.5.7 融合人類知識與技術92
5.5.8 擴大Artemis的影響92
5.6 案例研究5:微軟SQL Server客戶解決方案93
5.6.1 客戶畫像93
5.6.2 解決方案的亮點93
5.6.3 業(yè)務需求93
5.6.4 解決方案94
5.6.5 好處94
5.7 案例研究6:以客戶為中心的數(shù)據集成95
5.7.1 概述95
5.7.2 解決方案設計98
5.7.3 促成更好的交叉銷售和追加銷售的機會99
5.8 總結100
第二部分 數(shù)據倉庫
第6章 再論數(shù)據倉庫102
6.1 引言102
6.2 傳統(tǒng)的數(shù)據倉庫或DW 1.0103
6.2.1 數(shù)據架構103
6.2.2 基礎設施104
6.2.3 數(shù)據倉庫的陷阱106
6.2.4 建立數(shù)據倉庫的架構方法111
6.3 DW 2.0113
6.3.1 Inmon的DW 2.0概述114
6.3.2 DSS 2.0概述115
6.4 總結116
延伸閱讀116
第7章 數(shù)據倉庫的再造118
7.1 引言118
7.2 企業(yè)數(shù)據倉庫平臺118
7.2.1 事務型系統(tǒng)119
7.2.2 運營數(shù)據存儲區(qū)119
7.2.3 分段區(qū)120
7.2.4 數(shù)據倉庫120
7.2.5 數(shù)據集市120
7.2.6 分析型數(shù)據庫121
7.2.7 數(shù)據倉庫的問題121
7.3 再造數(shù)據倉庫的選擇122
7.3.1 平臺再造122
7.3.2 平臺工程123
7.3.3 數(shù)據工程124
7.4 使數(shù)據倉庫現(xiàn)代化125
7.5 使數(shù)據倉庫現(xiàn)代化的案例研究127
7.5.1 當前狀態(tài)分析127
7.5.2 推薦127
7.5.3 現(xiàn)代化的業(yè)務收益128
7.5.4 一體機的選擇過程128
7.6 總結132
第8章 數(shù)據倉庫中的工作負載管理133
8.1 引言133
8.2 當前狀態(tài)133
8.3 工作負載的定義134
8.4 了解工作負載135
8.4.1 數(shù)據倉庫輸出136
8.4.2 數(shù)據倉庫輸入137
8.5 查詢分類138
8.5.1 寬/寬138
8.5.2 寬/窄139
8.5.3 窄/寬139
8.5.4 窄/窄139
8.5.5 非結構化/半結構化數(shù)據140
8.6 ETL和CDC的工作負載140
8.7 度量141
8.8 當前系統(tǒng)設計的局限142
8.9 新工作負載和大數(shù)據143
8.10 技術選擇144
8.11 總結144
第9章 應用到數(shù)據倉庫的新技術145
9.1 引言145
9.2