本書對信息檢索領域的最新進展作了嚴謹、完整的剖析,內容涉及信息檢索的數學模型、評價、查詢語言與操作、文本語言與操作、多媒體語言及其特征、標引與檢索、并行與分布式檢索、用戶界面與可視化、多媒體信息檢索的模型與語言、多媒體信息檢索的標引和檢索、Web檢索、圖書館與書目系統(tǒng)和數字圖書館等。本書內容廣泛、細節(jié)豐富、深入淺出,可以作為高等院校信息管理與信息系統(tǒng)、計算機科學與技術、圖書館學、情報學、檔案學等專業(yè)本科生和研究生的教材或參考書,對從事信息檢索及其系統(tǒng)與網絡的分析、設計的實際工作者也有較高的參考價值。本書前言前言近年來,隨著互聯(lián)網的發(fā)展以及現(xiàn)代的、廉價的圖形用戶界面和大容量存儲設備的出現(xiàn),信息檢索(informationretrieval,IR)領域已經發(fā)生了巨大的變化,這使得傳統(tǒng)的信息檢索教材變得過時,所以很有必要引進新的信息檢索圖書。我們堅信,讀者非常需要一本從計算機科學的觀點(相對于用戶中心觀點)嚴謹完整地剖析該領域的書。本書正是致力于填補這一空白,并適合作為信息檢索的本科課程和研究生課程的教材。本書由兩個既相互補充又相互平衡的部分組成。前九章是核心部分,由本書的設計者編著或合著;第二部分共六章,與第一部分緊密相連,是由本領域的杰出研究者編寫的相關學科最新成果。所有章節(jié)都使用相同的注釋和術語。因此,盡管本書由多人合著,但實際上是一本很好的教材,而不是將各個作者所寫的章節(jié)簡單地編輯在一起。此外,我們還精心設計了本書的內容和結構,力求全面展示現(xiàn)代信息檢索各重要部分的觀點。從信息檢索模型到標引文本、從信息檢索可視化工具到Web界面、從信息檢索多媒體到數字圖書館,本書內容廣泛、細節(jié)豐富。鑒于信息檢索對現(xiàn)代社會的緊密相關性和重要性,我們希望本書為進一步在全球范圍內傳播信息科學、計算機科學和圖書館學的學科研究成果做出貢獻。譯者序RicardoBaeza-Yates和BerthierRibeiro-Neto是國際信息學界人士非常敬重的信息檢索方面的專家,他們的作品都是口碑極佳的上乘之作,為他們的作品寫譯者序,這個念頭本身就比較僭越。拜讀此書,沉思良久,深感此書確實討論了信息檢索中許多非常重要的問題,而它們又是非常實際的,有些也是我們在工作中經常遇到的。文中的討論和分析通俗易懂,又寓意深遠,讀后頗感收獲甚豐,不免由此萌生了將這本書介紹給國內同行的想法。幾經輾轉,了解到機械工業(yè)出版社有意出版此書,便自告奮勇地承擔起了翻譯的工作。信息檢索是信息管理領域中的核心部分。面對人類社會不斷發(fā)展而積累起來的海量知識,如何高效、準確地查找所需要的信息,是每一個人在學習、研究和生活中都無法回避的問題。信息檢索最早起源于圖書館的參考咨詢工作和書目工作,后來,隨著信息的急劇增加,人們對信息的利用也日趨廣泛,信息檢索也逐漸普及開來。計算機技術、網絡技術、通信技術和大容量存儲技術的發(fā)展和流行,使得信息檢索領域也發(fā)生了巨大的變化,現(xiàn)代信息檢索與計算機科學的聯(lián)系越來越密切,信息檢索進入了全新的發(fā)展階段。目前,環(huán)顧國內外,關于信息檢索的教材可謂琳瑯滿目,但大多數都是由圖書館學家、情報學家編寫的,側重于信息檢索的基本原理與基本方法,操作性較強。Baeza-Yates和Ribeiro-Neto兩人本身是計算機領域的專家,又熟諳信息檢索的理論;他們從計算機科學的觀點出發(fā),將計算機理論與信息檢索結合起來,重點闡述了信息檢索的數學模型和實現(xiàn)技術,不啻為一部開歷史之先河的佳作,本書的價值也在于此。我們相信,任何從事信息檢索領域工作的人們,任何希望能快速、便捷地檢索信息的人們,都會從本書的閱讀中受益匪淺,這也是我們愿意做這件事的原因所在。受益于此書有余,不揣冒昧地為本書的讀者們建議一條高效的閱讀途徑。本書分為兩大部分,第一部分由第1章至第9章組成,以數學理論為基礎,深入淺出地分析了信息檢索的模型、評價、查詢語言與操作、文本語言與操作、多媒體語言及其特征、標引與檢索、并行與分布式檢索等,內容嚴謹而又翔實,這部分構成了本書的核心。相比較而言,第4章“查詢語言”是讀者更合理的起點,第2章“建?!笔抢斫馊珪年P鍵所在,任何檢索都是在此基礎上推廣而來的。后一部分由第10章至第15章組成,這是計算機科學應用于信息檢索領域的最新成果,主要涉及用戶界面與可視化、多媒體信息檢索的模型與語言及其標引與檢索、Web檢索、圖書館與書目系統(tǒng)、數字圖書館等,這部分是前一部分的合乎邏輯的延伸和擴展。從事信息檢索研究的人們可以此為開端,了解新形勢下的信息檢索。此外,每一章都有“發(fā)展趨勢與研究課題”和“書目討論”兩節(jié),給讀者提供了廣闊、深入的進一步學習和研究的空間。本書的內容還有很多,在閱讀的過程中,你將會發(fā)現(xiàn)許多新鮮生動而又非常深刻的東西,會發(fā)現(xiàn)許多你本該知道而至今尚未知曉的東西,這也是我們在閱讀和翻譯這本書過程中的切身體會。一部英文論著在漢語中的旅行,永遠是無法捉摸的。對本書的譯者來說,全書討論的正是譯者們最為熟知的一個領域。這次翻譯的前提是對原文的徹底領會,因此,不會存在任何技術細節(jié)會因為譯者的生疏而發(fā)生扭曲。事實上,譯者們所面對的主要是“詞匯”方面。同一個詞或短語,在不同的領域有不同的理解,鑒于此,我們結合自己多年的信息檢索知識和經驗,遵從教科書的習慣用法,參考了《英漢計算機詞典》、《英漢數學詞典》等,并請教了一些該領域的專家,力求做到準確無誤。依循學術慣例,或許不無感激,我們要感謝對本書的翻譯有所襄助的學人們。本書由王知津、賈福新、鄭紅軍主譯,李明珍、孫鑫、蔣偉偉、翟婭、劉建準、王辰君、武麗輝、范志雯、路彩妹、馬愛萍、譚周明、張國華、孫美麗、孫立武也對本書部分內容的初譯作了很多的工作,在此予以衷心感謝。全書由鄭紅軍進行了一校和部分內容的重譯,王知津負責全書的二校和最后審定。譯文雖經多次修改和校正,并根據本書官方網站的最新勘誤表訂正了絕大部分錯誤,但由于譯者的水平有限,加之時間倉促,疏漏及缺點、錯誤在所難免,我們真誠地希望同行和讀者不吝賜教,不勝感激之至。致謝我們向在過去幾個月中給予我們無私幫助的那些人致以誠摯的謝意。如果沒有他們的大力支持,本書可能無法得以出版。首先,我們要感謝所有章節(jié)的作者以及他們所做的貢獻。ElisaBertino、EricBrown、BarbaraCatania、ChristosFaloutsos、ElenaFerrari、EdFox、MartiHearst、GonzaloNavarro、EdieRasmussen、OhmSornil、NivioZiviani,他們文章中的專業(yè)知識是我們所不具備的。在整個編輯和反復審核的過程中,他們表現(xiàn)出了極大的耐心,在此我們表示感謝。其次,我們要感謝對本書的出版有著很大興趣的所有人,尤其是ScottDelman和DougSery。再次,我們要感謝AddisonWesleyLongman出版公司在整個過程中所做的工作以及KeithMansfield、KarenSutherland、BridgetAllen、DavidHarison、SheilaChatten、HelenHodge和LisaTalbot的興趣和鼓勵。他們聯(lián)系的評論人閱讀了本書的一些早期方案,并給我們提供了好的反饋和非常寶貴的意見。“并行和分布式信息檢索”一章從“信息檢索應用”(在書中并不適用)部分移至“文本信息檢索”部分,這是因為一個不知姓名的推薦人對此進行了客觀的論證?!皺z索評價”這一章也是另一個熱情的推薦人強調了這一主題的重要性后才添加進去的。第四,我們要感謝與我們討論這個方案的所有的人。DougOard對草案做了初期的評論。GaryMarchionini是早期的支持者,并與我們保持著緊密的聯(lián)系。BruceCroft從一開始就鼓勵我們盡力地做好。AlbertoMendelzon提出了初始的建議,并在檢索了Web后匯編了各章的參考文獻。EdFox在百忙中抽出時間對“緒論”這一章做了非常有見解的評論(使得這章有很大的改善),并對“建模”這一章做了詳盡的評述。MartiHearst對我們早期的草案表現(xiàn)出了很大的興趣,并在整個編輯過程了給予了幫助,是一位熱情的支持者和參與者。第五,我們要感謝我們單位的支持,智利大學計算機科學系和FederalUniversityofMinasGerais對我們無私的支援。國家研究局(巴西研究委員會(CNPq)和智利國家科學技術研究委員會(CONICYT))、國際合作項目尤其是西班牙的美洲西班牙語區(qū)發(fā)展科學技術部(CYTED)項目ⅤⅡ.13AMYRI(萬維網中的信息管理和檢索環(huán)境)、Pronex計劃下的巴西科技部科研項目信貸局(Finep)項目SIAM(移動計算機信息系統(tǒng))給我們提供了資金支持。最為重要的是,感謝Helena、Rosa和孩子們,為了本書我們做了許多旅行調查、錯過了許多周末而且工作時間沒有規(guī)律,而她們默默忍受了這一切。