注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫面向大數據的高效能垃圾文本分類

面向大數據的高效能垃圾文本分類

面向大數據的高效能垃圾文本分類

定 價:¥28.00

作 者: 劉伍穎 編
出版社: 國防工業(yè)出版社
叢編項:
標 簽: 計算機/網絡 數據庫 數據庫理論

購買這本書可以去


ISBN: 9787118097597 出版時間: 2014-10-01 包裝: 平裝
開本: 32開 頁數: 160 字數:  

內容簡介

  《面向大數據的高效能垃圾文本分類》全面介紹了大數據時代垃圾信息的爆發(fā)態(tài)勢和文本特性,并根據信息文檔的多域結構特性和文本Token頻率分布的冪律特性,提出了多域學習的思想。研究了一整套面向大數據的高效能垃圾文本分類方法?!睹嫦虼髷祿母咝芾谋痉诸悺饭卜?章,第1章分析大數據時代垃圾信息態(tài)勢,第2章概述垃圾信息過濾方法,第3章研究電子郵件文檔和手機短信文檔的文本特性,第4章研究多域學習總體框架,第5章提出基于Token頻率索引的文本分類算法,第6章研究有監(jiān)督反饋代價問題,第7章設計面向大數據的高效能垃圾文本過濾系統(tǒng)。《面向大數據的高效能垃圾文本分類》可以作為普通高等院校、科研機構大數據計算技術相關專業(yè)高年級本科生或研究生的實驗教材,也可供網絡信息技術公司高級研究人員參考。

作者簡介

  劉伍穎(1980.01-),男,江西九江人,博士,講師。畢業(yè)于國防科學技術大學計算機學院,分別于2002年、2005年、2011年獲得計算機科學與技術專業(yè)學士、碩士、博士學位。已在SIGIR、AIRS、KnowledgeandInformationSystems等國內外學術會議和期刊上發(fā)表論文30余篇,其中被scI檢索4篇,被cPcI―s檢索4篇,被EI核心檢索12篇。獲得智能摘要軟件等計算機軟件著作權3項。主持科研項目2項。主要研究領域為自然語言處理(信息檢索、信息過濾、機器翻譯、自動文摘)和人工智能(機器學習、數據挖掘、文本分類)。

圖書目錄

第1章 大數據與垃圾信息
1.1 大數據時代的垃圾信息
1.1.1 大數據和垃圾信息爆發(fā)
1.1.2 垃圾信息過濾研究項目
1.1.3 垃圾信息過濾研究意義
1.2 垃圾信息范疇
1.2.1 垃圾電子郵件
1.2.2 垃圾手機短信
1.2.3 廣義垃圾信息
1.2.4 文本垃圾信息
1.3 文本垃圾信息態(tài)勢
1.3.1 國際垃圾郵件態(tài)勢
1.3.2 我國垃圾郵件態(tài)勢
1.3.3 我國垃圾手機短信態(tài)勢
1.4 研究動機與內容
1.4.1 科學問題與挑戰(zhàn)
1.4.2 研究內容與結構
1.4.3 研究成果
本章小結
第2章 垃圾信息過濾方法概述
2.1 基于協(xié)議的垃圾信息過濾
2.1.1 基于SMTP的方法
2.1.2 基于IP的方法
2.2 基于內容的垃圾信息過濾
2.2.1 基于規(guī)則的方法
2.2.2 基于統(tǒng)計的方法
2.2.3 神經網絡方法
2.2.4 集成學習方法
2.3 垃圾信息過濾性能評價方法
2.3.1 當前性能評價方法
2.3.2 ROC曲線評價方法
2.3.3 整體性能評價方法
本章小結
第3章 信息文檔的文本統(tǒng)計特性
3.1 信息文檔的正文特性
3.1.1 電子郵件和手機短信語料
3.1.2 正文文本長度特性
3.1.3 正文和TokeN重復特性
3.2 信息文檔的結構特性
3.2.1 信息文檔格式
3.2.2 域間文本特征
3.3 Token頻率分布的冪律特性
3.3.1 冪律
3.3.2 郵件文檔和郵件域文檔
3.3.3 短信文檔和短信域文檔
本章小結
第4章 面向垃圾信息過濾的多域學習文本分類
4.1 問題描述與框架
4.1.1 形式化描述
4.1.2 多域學習框架
4.2 分割策略
4.2.1 自然域文檔分割策略
4.2.2 特定屬性域文檔分割策略
4.3 組合策略
4.3.1 均權組合策略
4.3.2 支持向量模型權組合策略
4.3.3 域分類器歷史性能權組合策略I.
4.3.4 域文檔信息量權組合策略
4.3.5 復合權組合策略
4.4 實驗結果
4.4.1 TREC07P上的bogo實驗
4.4.2 TREC07P上的tftS3F實驗
4.4.3 CSMS-P上的bogo實驗
4.4.4 CSMS-P上的tftS3F實驗
本章小結
第5章 面向垃圾信息過濾的時空高效文本分類
5.1 基于Token頻率索引的文本分類算法
5.1.1 統(tǒng)計原理
5.1.2 Token頻率索引
5.1.3 算法描述
5.2 算法復雜度分析
5.2.1 時間復雜度
5.2.2 空間復雜度
5.3 基于多類別Token頻率索引的文本分類算法
5.3.1 Token頻率統(tǒng)計特性
5.3.2 多類別Token頻率索引
5.3.3 算法描述
5.4 實驗結果
5.4.1 TREC07P上的ffibtc實驗
5.4.2 CSMS-P上的ffibtc實驗
5.4.3 TanCorp-12上的mtfibtc實驗
本章小結
第6章 面向垃圾信息過濾的主動學習文本分類
6.1 問題描述與框架
6.1.1 形式化描述
6.1.2 主動多域學習框架
6.2 主動學習策略
6.2.1 時序優(yōu)先主動學習策略
6.2.2 先驗區(qū)間主動學習策略
6.2.3 基于方差的非確定采樣主動學習策略
6.3 實驗結果
6.3.1 TREC07P上的10000反饋tfibtc.cs5實驗
6.3.2 TREC07P上的1000反饋ffibtc.cs5實驗
6.3.3 CSMS-P上的10000反饋tfibtc.cs5實驗
6.3.4 CSMS-P上的1000反饋tfibtc.cs5實驗
本章小結
第7章 面向大數據的高效能垃圾文本過濾系統(tǒng)
7.1 研究結論
7.1.1 多域學習框架的有效性
7.1.2 NFD和ASFD分割策略的有效性
7.1.3 復合權組合策略的最優(yōu)性
7.1.4 基于TFI的文本分類算法的時空高效性
7.1.5 基于方差的非確定采樣主動學習策略的有效性
7.2 高效能垃圾文本過濾系統(tǒng)設計
7.2.1 多Cluster垃圾文本過濾系統(tǒng)
7.2.2 多語種大數據深度輿情系統(tǒng)
7.2.3 個性化垃圾郵件過濾系統(tǒng)
本章小結
參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號