大數(shù)據(jù)時代的到來,使我們的生活在政治、經濟、社會、文化各個領域都產生了很大改變。“數(shù)據(jù)科學”一詞應運而生。如何更好地對海量數(shù)據(jù)進行分析、得出結論并做出智能決策是統(tǒng)計工作者面臨的機遇與挑戰(zhàn)。本書介紹數(shù)據(jù)挖掘與統(tǒng)計機器學習領域最常用的模型和算法,包括最基礎的線性回歸和線性分類方法,以及模型選擇和模型評價的概念和方法,進而介紹非線性的回歸和分類方法(包括決策樹與組合方法、支持向量機、神經網絡以及在此基礎上發(fā)展的深度學習方法)。最后介紹無監(jiān)督的學習中的聚類方法和業(yè)界廣泛使用的推薦系統(tǒng)方法。除了方法的理論講解之外,我們給出了每種方法的R語言實現(xiàn),以及應用Python語言實現(xiàn)深度學習和支持向量機兩種方法。本書的一個亮點是最后一章給出的兩個大數(shù)據(jù)案例,數(shù)據(jù)量均在10G左右。我們同時給出了單機版(Python、數(shù)據(jù)庫、R)和分布式(Hadoop、Hive、Spark)兩種實現(xiàn)方案。原始數(shù)據(jù)和程序代碼均可在出版社提供的網址下載。本書面向的主要讀者是應用統(tǒng)計專業(yè)碩士,希望能夠拓展到統(tǒng)計專業(yè)高年級的本科生以及其他各個領域有數(shù)據(jù)分析需求的學生和從業(yè)人員。