注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡操作系統(tǒng)多模態(tài)大模型:從理論到實踐

多模態(tài)大模型:從理論到實踐

多模態(tài)大模型:從理論到實踐

定 價:¥99.00

作 者: 韓曉晨
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302686927 出版時間: 2025-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  《多模態(tài)大模型:從理論到實踐》系統(tǒng)地介紹多模態(tài)大模型的理論基礎、關鍵技術與實際應用。全書分為兩部分12章,第1部分(第1~5章)圍繞基礎理論與技術解析展開論述,包括基本概念、Transformer架構、跨模態(tài)對齊、模態(tài)融合,以及多模態(tài)大模型的預訓練方法、模型微調與優(yōu)化等,為理解多模態(tài)大模型的構建邏輯奠定基礎。第2部分(第6~12章)聚集于多模態(tài)大模型的高級應用與場景實現(xiàn),包括主流視覺語言模型(如CLIP、BLIP-2等)的實現(xiàn)、跨模態(tài)推理與生成的技術應用、多模態(tài)大模型的推理與優(yōu)化方法、模型的安全與可信性問題,并通過多模態(tài)檢索與推薦系統(tǒng)、多模態(tài)語義理解系統(tǒng)和多模態(tài)問答系統(tǒng)的端到端開發(fā)實踐,展示了多模態(tài)大模型的實際落地路徑?!抖嗄B(tài)大模型:從理論到實踐》兼具理論深度與實際應用價值,適合大模型和AI研發(fā)人員、人工智能領域的從業(yè)者以及高校師生閱讀使用,也可作為培訓機構和高校人工智能及相關專業(yè)的教材或參考書。

作者簡介

  韓曉晨,博士,長期從事高性能計算與大模型訓練算力優(yōu)化研究。近十年來,專注于智能計算架構優(yōu)化及大規(guī)模數(shù)據(jù)處理,深耕控制算法、機器視覺等領域。近年來,重點研究大模型訓練加速、算力調度與異構計算優(yōu)化,致力于提升計算效率與資源利用率,推動大規(guī)模人工智能模型的高效部署與應用。

圖書目錄

第1部分  基礎理論與技術解析
第 1 章  緒論 3
1.1  多模態(tài)與大模型簡介 3
1.1.1  多模態(tài)數(shù)據(jù)的種類與特點 3
1.1.2  大模型的核心能力與應用領域 6
1.2  表征學習與遷移學習 7
1.2.1  表征學習 8
1.2.2  遷移學習 11
1.3  內容生成與模態(tài)對齊 12
1.3.1  模態(tài)對齊的實現(xiàn)方法與技術難點 12
1.3.2  多模態(tài)生成任務的典型案例 14
1.4  多模態(tài)大模型發(fā)展歷程 16
1.4.1  單模態(tài)到多模態(tài)的發(fā)展路徑 16
1.4.2  多模態(tài)大模型的技術里程碑匯總 18
1.5  本章小結 19
1.6  思考題 19
第 2 章  基礎知識 21
2.1  機器學習關鍵技術詳解 21
2.1.1  特征工程與模型選擇 21
2.1.2  集成學習在多模態(tài)中的應用 23
2.2  深度學習基本原理與常用技術點 26
2.2.1  卷積神經(jīng)網(wǎng)絡 26
2.2.2  循環(huán)神經(jīng)網(wǎng)絡 29
2.2.3  分類器與多層感知機 32
2.2.4  激活函數(shù) 34
2.3  梯度下降與反向傳播算法的原理與實現(xiàn) 37
2.3.1  梯度下降算法原理與實現(xiàn) 37
2.3.2  反向傳播算法原理與實現(xiàn) 41
2.4  大模型在文本與圖像處理中的應用 43
2.4.1  文本處理中的生成與理解任務 43
2.4.2  圖像處理中的分割與檢測 45
2.5  本章小結 48
2.6  思考題 49
第 3 章  多模態(tài)大模型核心架構 50
3.1  Transformer基本原理剖析 50
3.1.1  自注意力機制 50
3.1.2  編碼器-解碼器架構 53
3.2  跨模態(tài)對齊技術:注意力機制與嵌入對齊 58
3.2.1  嵌入空間的對齊方法與損失函數(shù)優(yōu)化 58
3.2.2  多頭注意力機制在對齊中的應用 62
3.3  模態(tài)融合數(shù)據(jù)級、特征級與目標級 64
3.3.1  數(shù)據(jù)級融合的實現(xiàn)與場景應用 64
3.3.2  特征級融合的建模方法與優(yōu)化 66
3.4  模態(tài)解耦與共享學習框架 70
3.4.1  模態(tài)解耦的多任務學習策略 70
3.4.2  參數(shù)共享框架的設計與優(yōu)化 74
3.5  本章小結 78
3.6  思考題 78
第 4 章  多模態(tài)大模型的預訓練方法 80
4.1  文本與視覺聯(lián)合預訓練任務設計 80
4.1.1  文本任務的掩碼建模與生成任務 80
4.1.2  視覺任務的特征提取與目標檢測 82
4.2  自監(jiān)督學習與多模態(tài)預訓練 85
4.2.1  對比學習在多模態(tài)中的實現(xiàn)方法 85
4.2.2  重建任務的自監(jiān)督學習實現(xiàn) 88
4.3  提示學習與指令微調 91
4.3.1  提示模板設計與輸入增強技術 91
4.3.2  指令微調的適配流程與效果分析 94
4.4  數(shù)據(jù)高效利用遷移學習與混合監(jiān)督 96
4.4.1  遷移學習的小樣本適配技術 96
4.4.2  半監(jiān)督學習的聯(lián)合訓練方法 98
4.5  本章小結 101
4.6  思考題 101
第 5 章  多模態(tài)大模型微調與優(yōu)化 103
5.1  基于LoRA的輕量化微調 103
5.1.1  LoRA:參數(shù)凍結與動態(tài)注入技術 103
5.1.2  輕量化微調 106
5.2  參數(shù)高效微調 109
5.2.1  PEFT的技術原理與實現(xiàn) 109
5.2.2  微調效果的對比與性能評價 115
5.3  RLHF原理及實現(xiàn) 118
5.3.1  RLHF與獎勵建模 118
5.3.2  RLHF在多模態(tài)任務中的實現(xiàn) 123
5.4  多任務學習與領域適配 125
5.4.1  多任務共享學習 125
5.4.2  領域適配與標注數(shù)據(jù)增強技術 128
5.5  本章小結 130
5.6  思考題 131
第 2 部分  高級應用與實踐探索
第 6 章  視覺語言模型的實現(xiàn) 135
6.1  CLIP模型的原理與實現(xiàn) 135
6.1.1  文本視覺聯(lián)合嵌入的實現(xiàn)技術 135
6.1.2  CLIP模型的預訓練目標與任務遷移 139
6.2  BLIP-2模型在多模態(tài)生成中的應用 142
6.2.1  圖像到文本生成的模型設計 142
6.2.2  多模態(tài)生成任務的優(yōu)化策略 145
6.3  SAM模型在視覺任務中的實現(xiàn) 148
6.3.1  SAM模型的特征提取與訓練方法 148
6.3.2  分割任務中的應用與性能分析 151
6.4  視頻與語言多模態(tài)模型融合 153
6.4.1  視頻嵌入與文本生成的聯(lián)合建模 154
6.4.2  多模態(tài)視頻任務的優(yōu)化實踐 157
6.5  本章小結 159
6.6  思考題 160
第 7 章  跨模態(tài)推理與生成 161
7.1  視覺問答與視覺常識推理 161
7.1.1  視覺問答模型的任務建模方法 161
7.1.2  常識推理中的視覺語義問題 164
7.2  跨模態(tài)文本生成:從圖像到描述 166
7.2.1  圖像描述生成模型訓練方法 167
7.2.2  跨模態(tài)文本生成的關鍵技術 170
7.3  復雜場景中的視頻生成與理解 172
7.3.1  視頻生成任務 173
7.3.2  復雜場景的視頻理解技術 176
7.4  跨模態(tài)對話與導航任務 179
7.4.1  對話系統(tǒng)中的多模態(tài)交互設計 179
7.4.2  導航任務的視覺與語義聯(lián)合優(yōu)化 182
7.5  本章小結 185
7.6  思考題 185
第 8 章  多模態(tài)大模型的推理優(yōu)化 187
8.1  ONNX與TensorRT在多模態(tài)推理中的應用 187
8.1.1  ONNX模型的優(yōu)化與轉換流程 187
8.1.2  TensorRT的推理加速與量化技術 192
8.2  動態(tài)批量與自定義算子優(yōu)化 196
8.2.1  動態(tài)批量推理的實現(xiàn)與性能分析 196
8.2.2  自定義算子的設計與任務適配 198
8.3  混合精度推理與內存優(yōu)化技術 201
8.3.1  混合精度訓練的實現(xiàn)與性能提升 201
8.3.2  內存優(yōu)化技術在推理中的應用 204
8.3.3  多GPU的分布式推理任務調度 206
8.4  本章小結 208
8.5  思考題 208
第 9 章  多模態(tài)大模型的安全問題與可信問題 210
9.1  模型的可解釋性與注意力可視化 210
9.1.1  注意力機制的可視化技術實現(xiàn) 210
9.1.2  模型行為的解釋性方法 214
9.2  多模態(tài)大模型中的魯棒性與偏見問題 216
9.2.1  模型魯棒性提升的優(yōu)化策略 216
9.2.2  偏見檢測與緩解技術的應用 219
9.3  隱私保護與數(shù)據(jù)安全技術 222
9.3.1  模態(tài)分離與隱私保護框架設計 223
9.3.2  數(shù)據(jù)加密與安全分發(fā)技術實現(xiàn) 226
9.4  本章小結 228
9.5  思考題 228
第 10 章  多模態(tài)檢索與推薦系統(tǒng) 230
10.1  跨模態(tài)檢索算法與實現(xiàn) 230
10.1.1  跨模態(tài)檢索中的嵌入空間設計 230
10.1.2  檢索任務的多模態(tài)優(yōu)化 232
10.2  圖像視頻與文本的聯(lián)合檢索 235
10.2.1  圖文聯(lián)合檢索的模型實現(xiàn) 235
10.2.2  視頻檢索中的特征聯(lián)合與優(yōu)化 237
10.3  基于多模態(tài)的推薦系統(tǒng) 243
10.3.1  多模態(tài)嵌入在推薦任務中的應用 243
10.3.2  推薦系統(tǒng)的動態(tài)適配與更新 249
10.4  本章小結 256
10.5  思考題 257
第 11 章  多模態(tài)語義理解系統(tǒng) 258
11.1  系統(tǒng)架構與功能規(guī)劃 258
11.1.1  系統(tǒng)核心模塊的架構設計 258
11.1.2  功能規(guī)劃與數(shù)據(jù)流轉流程 259
11.2  使用開源框架實現(xiàn)跨模態(tài)生成 260
11.2.1  跨模態(tài)開發(fā)框架簡介 261
11.2.2  模塊實現(xiàn) 262
11.2.3  模塊綜合測試 279
11.3  模型優(yōu)化與推理性能提升 282
11.3.1  生成任務中的模型優(yōu)化 282
11.3.2  推理性能的加速與內存優(yōu)化 284
11.3.3  系統(tǒng)部署 286
11.3.4  系統(tǒng)性能監(jiān)控 288
11.4  本章小結 291
11.5  思考題 292
第 12 章  多模態(tài)問答系統(tǒng) 293
12.1  數(shù)據(jù)集準備與預處理 293
12.1.1  問答數(shù)據(jù)集的構建與清洗方法 293
12.1.2  數(shù)據(jù)增強技術在問答任務中的應用 299
12.2  視覺與文本問答模型的訓練及API開發(fā) 305
12.2.1  跨模態(tài)問答模型的多任務訓練 305
12.2.2  API接口設計與服務化集成 313
12.2.3  模型輸出的解析與后處理實現(xiàn) 315
12.3  性能測試與部署實踐 317
12.3.1  系統(tǒng)測試的指標與性能分析 318
12.3.2  部署優(yōu)化與線上環(huán)境監(jiān)控技術 320
12.4  本章小結 322
12.5  思考題 323

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號