近年來,以Apache Spark為代表的大數據處理框架在學術界和工業(yè)界得到了廣泛的使用。本書以Apache Spark框架為核心,總結了大數據處理框架的基礎知識、核心理論、典型的Spark應用,以及相關的性能和可靠性問題。本書分9章,主要包含四部分內容。第一部分 大數據處理框架的基礎知識(第1~2章):介紹大數據處理框架的基本概念、系統(tǒng)架構、編程模型、相關的研究工作,并以一個典型的Spark應用為例概述Spark應用的執(zhí)行流程。第二部分 Spark大數據處理框架的核心理論(第3~4章):介紹Spark框架將應用程序轉化為邏輯處理流程,進而轉化為可并行執(zhí)行的物理執(zhí)行計劃的一般過程及方法。第三部分 典型的Spark應用(第5章):介紹迭代型的Spark機器學習應用和圖計算應用。第四部分 大數據處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數據緩存機制、錯誤容忍機制、內存管理機制等。