注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡人工智能SQL機器學習庫MADlib技術解析

SQL機器學習庫MADlib技術解析

SQL機器學習庫MADlib技術解析

定 價:¥79.00

作 者: 王雪迎
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302518945 出版時間: 2019-01-01 包裝: 平裝
開本: 16開 頁數: 342 字數:  

內容簡介

  MADlib是一套SQL中的大數據機器學習庫。通常SQL查詢能發(fā)現數據1明顯的模式和趨勢,但要想獲取數據中1為有用的信息,需要的則是一套牢固扎根于數學和應用數學的技能,這就是機器學習。如果將SQL的簡單易用與MADlib機器學習的復雜算法結合起來,就能實現簡單的機器學習功能。本書分為11章,從MADlib的基本概念、MADlib的架構、支持的模型類型與功能入手,詳細解析MADlib各種模型的具體用法,包括數據類型、矩陣分解、數據轉換、數據探索、主成分分析、回歸、時間序列分析、分類、聚類、關聯(lián)規(guī)則、圖算法、模型評估等。每種模型將從背景知識、函數語法、應用示例三方面進行 說明。本書適合MADlib機器學習的初學者、想學習MADlib機器學習的DBA以及從事數據分析與挖掘的高級技術人員閱讀,也適合高等院校與培訓學校相關專業(yè)的師生教學參考。

作者簡介

  王雪迎 ,畢業(yè)于中國地質大學計算機專業(yè),高級工程師,20年數據庫、數據倉庫相關技術工作;先后供職于北京現代商業(yè)信息技術有限公司、北京在線九州信息技術服務有限公司、華北計算技術研究所、北京優(yōu)貝在線網絡科技有限公司,擔任DBA、數據架構師等職位;著有圖書《Hadoop構建數據倉庫實踐》和《HAWQ數據倉庫與數據挖掘實戰(zhàn)》。

圖書目錄

目  錄
 
第1章  MADlib基礎    1
1.1  基本概念    1
1.1.1  MADlib是什么    1
1.1.2  MADlib的設計思想    2
1.1.3  MADlib的工作原理    3
1.1.4  MADlib的執(zhí)行流程    4
1.1.5  MADlib架構    5
1.2  MADlib的功能    6
1.2.1  MADlib支持的模型類型    6
1.2.2  MADlib的主要功能模塊    7
1.3  MADlib的安裝與卸載    9
1.3.1  確定安裝平臺    9
1.3.2  下載MADlib二進制壓縮包    10
1.3.3  安裝MADlib    10
1.3.4  卸載MADlib    12
1.4  小結    13
第2章  數據類型    14
2.1  向量    14
2.1.1  MADlib中的向量操作函數    15
2.1.2  稀疏向量    23
2.2  矩陣    30
2.2.1  矩陣定義    31
2.2.2  MADlib中的矩陣表示    31
2.2.3  MADlib中的矩陣運算函數    32
2.3  小結    49
第3章  數據轉換    50
3.1  鄰近度    50
3.1.1  MADlib的鄰近度相關函數    50
3.1.2  距離度量的中心化和標準化    57
3.1.3  選取正確的鄰近度度量    58
3.2  矩陣分解    59
3.2.1  低秩矩陣分解    59
3.2.2  奇異值分解    70
3.3  透視表    87
3.4  分類變量編碼    97
3.5  小結    110
第4章  數據探索    111
4.1  描述性統(tǒng)計    111
4.1.1  皮爾森相關    111
4.1.2  匯總統(tǒng)計    117
4.2  概率統(tǒng)計    125
4.2.1  概率    125
4.2.2  統(tǒng)計推論    133
4.3  主成分分析    147
4.3.1  背景知識    147
4.3.2  MADlib的PCA相關函數    149
4.3.3  MADlib的PCA應用示例    155
4.4  小結    160
第5章  回歸    161
5.1  線性回歸    161
5.1.1  背景知識    161
5.1.2  MADlib的線性回歸相關函數    164
5.1.3  線性回歸示例    166
5.2  非線性回歸    171
5.2.1  背景知識    171
5.2.2  MADlib的非線性回歸相關
      函數    172
5.2.3  非線性回歸示例    175
5.3  邏輯回歸    179
5.3.1  背景知識    179
5.3.2  MADlib的邏輯回歸相關函數    180
5.3.3  邏輯回歸示例    182
5.4  多類回歸    187
5.4.1  背景知識    187
5.4.2  MADlib的多類回歸相關函數    190
5.4.3  多類回歸示例    192
5.5  序數回歸    196
5.5.1  背景知識    196
5.5.2  MADlib的序數回歸相關函數    197
5.5.3  序數回歸示例    200
5.6  彈性網絡回歸    202
5.6.1  背景知識    202
5.6.2  MADlib的彈性網絡回歸相關
      函數    204
5.6.3  彈性網絡回歸示例    209
5.7  小結    221
第6章  時間序列分析    222
6.1  背景知識    222
6.1.1  時間序列分析方法    222
6.1.2  ARIMA模型    223
6.2  MADlib中ARIMA相關函數    225
6.3  時間序列分析示例    228
6.4  小結    232
第7章  分類    233
7.1  K近鄰    233
7.1.1  背景知識    233
7.1.2  MADlib中K近鄰函數    235
7.1.3  K近鄰示例    236
7.2  樸素貝葉斯    240
7.2.1  背景知識    240
7.2.2  MADlib中樸素貝葉斯分類
      相關函數    242
7.2.3  樸素貝葉斯分類示例    244
7.3  支持向量機    249
7.3.1  背景知識    249
7.3.2  MADlib的支持向量機相關
      函數    252
7.3.3  支持向量機示例    258
7.4  決策樹    264
7.4.1  背景知識    264
7.4.2  MADlib的決策樹相關函數    267
7.4.3  決策樹示例    272
7.5  隨機森林    281
7.5.1  背景知識    281
7.5.2  MADlib的隨機森林相關函數    282
7.5.3  隨機森林示例    287
7.6  小結    293
第8章  聚類    294
8.1  背景知識    294
8.1.1  聚類的概念    294
8.1.2  k-means方法    295
8.2  MADlib的k-means相關函數    297
8.2.1  訓練函數    298
8.2.2  簇分配函數    300
8.2.3  輪廓系數函數    301
8.3  k-means示例    301
8.4  小結    307
第9章  關聯(lián)規(guī)則    308
9.1  背景知識    308
9.1.1  基本概念    308
9.1.2  Apriori算法    311
9.2  MADlib的Apriori算法函數    312
9.3  Apriori應用示例    313
9.4  小結    319
第10章  圖算法    320
10.1  背景知識    320
10.1.1  基本概念    320
10.1.2  常見圖算法    321
10.1.3  單源最短路徑    323
10.2  MADlib的單源最短路徑相關函數    324
10.3  單源最短路徑示例    325
10.4  小結    327
第11章  模型評估    328
11.1  交叉驗證    328
11.1.1  背景知識    328
11.1.2  MADlib的交叉驗證相關
       函數    331
11.1.3  交叉驗證示例    333
11.2  預測度量    336
11.3  小結    342

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號