【摘要】:隨著Web信息在數(shù)量上呈幾何級增長,同時圖片、聲音、視頻等多媒體信息資源也逐漸成為用戶喜歡的資源,并呈上升趨勢。傳統(tǒng)搜索引擎需要提高搜索的準(zhǔn)確度,并通過新的方式來呈現(xiàn)巨大的搜索結(jié)果集,以便讓用戶能更快更好的瀏覽與利用這些結(jié)果。另外,搜索引擎需要用新的模式來處理多媒體資源。這些要求促使搜索引擎向多元化發(fā)展,智能化、個性化、自動分類、自動聚類等成為這一階段的基本特征。出現(xiàn)了一些相關(guān)技術(shù),如元搜索引擎、聚類搜索引擎、垂直搜索引擎等?梢暬椒ㄔ谟脩粽J(rèn)知過程中具有其天生的優(yōu)勢,能幫助用戶管理、分析、控制和理解大量信息。因此,搜索引擎的可視化,是搜索引擎多元化發(fā)展中的一個重要方面。 當(dāng)前對可視化搜索引擎的研究處于起步階段,相關(guān)的研究主要是可視化檢索技術(shù)的研究,包括檢索式的可視化、搜索結(jié)果集的可視化顯示等,只是涉及可視化搜索引擎相關(guān)的零散研究,沒有系統(tǒng)的可視化搜索引擎的模型、整體架構(gòu)的研究。本文研究了可視化搜索引擎的整體模型框架,并對一些重要、關(guān)鍵問題的實現(xiàn)方法和技術(shù)進(jìn)行了討論,并通過案例分析對這些方法和技術(shù)的應(yīng)用進(jìn)行了驗證。 本文共分6個主要部分: 第一章為可視化搜索引擎基礎(chǔ)理論與技術(shù),這些理論與技術(shù)是后面各部分內(nèi)容的基礎(chǔ),有的技術(shù)會頻繁使用。主要討論了搜索引擎基本理論和可視化理論。搜索引擎基本理論主要討論了基本搜索模型,包括布爾模型、向量空間模型、概率模型、推理網(wǎng)絡(luò)模型以及元搜索引擎模型等;搜索引擎排名算法,如PageRank算法和HITS算法;聚類算法以及改進(jìn)的增量聚類算法等。信息可視化方面的基礎(chǔ)理論主要介紹了相關(guān)概念、可視化的分類以及相關(guān)模型等。 第二章主要研究了可視化搜索引擎的模型框架,是后面各章節(jié)內(nèi)容的一個整體架構(gòu)。首先分析了傳統(tǒng)搜索引擎模型的不足之處,包括沒有充分解析頁面和Web資源的可視特征,巨大結(jié)果集的瀏覽增加了用戶負(fù)擔(dān),以及缺乏一個好的交互環(huán)境來提高效率等。然后建立了可視化搜索引擎的模型框架,包括建立的原則、基本功能模塊、工作流程、關(guān)鍵問題以及技術(shù)框架等?梢暬阉饕婺P涂蚣芙⒌幕驹瓌t是以用戶為中心、具有通用性、模塊化以及具有較好的可擴(kuò)展性?梢暬阉饕鎻墓δ苌蟻碚f包含了頁面抓取模塊、索引模塊、檢索模塊以及用戶接口模塊等。本模型框架還包含可視化搜索引擎工作流程、可視化應(yīng)用層次以及可視化對象分析等?梢暬阉饕娴年P(guān)鍵問題包括Web資源的可視信息提取、可視化檢索模型建立、可視化界面問題以及多種資源集成等問題?梢暬募夹g(shù)框架也是可視化搜索引擎模型框架的一個重要問題,主要包括可視化結(jié)構(gòu)的應(yīng)用和可視化實現(xiàn)技術(shù)等兩個方面。 第三章研究了可視化搜索引擎的資源索引。Web頁面通過HTML代碼進(jìn)行描述,搜索引擎對頁面的索引通常通過對代碼的文本內(nèi)容解析來實現(xiàn)。但事實上用戶真正看到的是經(jīng)過瀏覽器渲染后的可視頁面,頁面的可視內(nèi)容才能真正體現(xiàn)頁面創(chuàng)作者的意圖。因此,搜索引擎要從頁面的可視信息入手進(jìn)行內(nèi)容的索引,以獲得更好的索引效果。在分析網(wǎng)頁可視元素的基礎(chǔ)上,重點研究了網(wǎng)頁版面的可視特征,包括版面的結(jié)構(gòu)、版面劃分方法,特別是用可視化方法進(jìn)行版面的劃分,并計算其各個子版塊的權(quán)重,為版塊內(nèi)的資源內(nèi)容的提取提供一個重要影響因子。對版塊內(nèi)文本內(nèi)容的索引是通過自動分詞后,綜合顏色、字體、大小、加粗等文本可視特性,并與版塊權(quán)重因子結(jié)合,得到包含有可視特性的關(guān)鍵詞倒排文檔,從而實現(xiàn)可視化索引。對于圖片、聲音、視頻等多媒體資源,則要結(jié)合資源內(nèi)容,以視覺特征為基礎(chǔ)進(jìn)行索引。圖片資源中人像的識別和音頻資源中語音識別是最為關(guān)鍵的技術(shù)。 第四章討論了搜索引擎的可視化檢索方法。信息可視化檢索已經(jīng)較多研究,本文重點是將這些研究與搜索引擎結(jié)合,主要研究了搜索引擎檢索界面的可視化和搜索結(jié)果的可視化。檢索界面的可視化包括檢索式的可視化、基于示例的查詢等,后者對于多媒體的檢索是最為基本的功能。交互性是檢索界面可視化的最重要部分。對于目錄式搜索引擎來說,對層次目錄數(shù)據(jù)的可視化也是一個重要方面。檢索結(jié)果集的可視化由于具有了宏觀信息和微觀信息,能讓用戶發(fā)現(xiàn)更有價值的信息,其可視化的方法主要有基于聚類的方法、超鏈接法和語義內(nèi)容法等。本章最后對三種重要的結(jié)果集屬性的可視化進(jìn)行了研究,包括聚類的可視化、關(guān)系的可視化、時間序列的可視化等。 第五章研究了搜索引擎歷史數(shù)據(jù)的可視化。搜索引擎中的歷史數(shù)據(jù)主要包括兩個方面:網(wǎng)頁頁面快照和搜索日志。通過對這些歷史數(shù)據(jù)的挖掘,不但可以讓用戶獲取更多的信息,還可以讓搜索引擎改進(jìn)自己的搜索方法,特別是排名算法。通過對頁面快照的歷史進(jìn)行分析,可以讓用戶跟蹤某頁面的更新過程。本文用基于增量的方法實現(xiàn)了多個快照歷史版本的存儲,以及快照的全局可視化顯示和局部可視化顯示。搜索日志的挖掘主要研究了查詢詞頻分析、地理搜索日志分析、會話分析等,并研究了其可視化挖掘的模型。 第六章為案例分析。本文選取了Google和Wolfram|Alpha為研究案例,前者是最著名的搜索引擎,后者是2009年5月推出的一個較新的搜索引擎,二者具有不同的搜索模式,對二者的研究具有典型性。通過對Google的案例研究,得到的結(jié)論是在其搜索引擎中大量采用了各種可視化應(yīng)用,并且其可視化應(yīng)用研究正呈上升的趨勢。Wolfram|Alpha以知識庫和可視化模式庫為基礎(chǔ),以直接回答的方式呈現(xiàn)搜索結(jié)果,而不是由用戶自己去從結(jié)果集中搜索大量信息,雖然模式有很大變化,但也提供了很多的可視化模式對搜索結(jié)果進(jìn)行可視化顯示。 可視化方法在搜索引擎中使用正越來越多,相關(guān)的研究也越來越多?梢暬阉饕媸歉黝惣夹g(shù)與方法的集成,其功能與效果依賴于一些相關(guān)技術(shù)與方法,因此在對整體模型與框架研究的基礎(chǔ)上,還需要對相關(guān)技術(shù)與方法的更深入研究,這正是下一步的工作。
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2010
【分類號】:G354
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 雷鳴,王建勇,趙江華,單松巍,陳葆玨;第三代搜索引擎與天網(wǎng)二期[J];北京大學(xué)學(xué)報(自然科學(xué)版);2001年05期
2 呂鶴;史萍;;基于內(nèi)容的體育類視頻自動分類系統(tǒng)[J];中國傳媒大學(xué)學(xué)報(自然科學(xué)版);2006年03期
3 陶磊;莫倩;;基于CSS選擇器的深網(wǎng)結(jié)果頁抽取方法[J];北京工商大學(xué)學(xué)報(自然科學(xué)版);2009年02期
4 王麗;唐建雄;;基于DOM和網(wǎng)頁模板的Web信息抽取[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年18期
5 許偉佳;;基于向量空間模型的文檔聚類研究[J];電腦知識與技術(shù);2009年25期
6 余東良;劉金tD;;基于內(nèi)容的圖像檢索技術(shù)研究[J];電腦知識與技術(shù);2009年28期
7 徐鐵;耿佳寧;;網(wǎng)頁信息抽取方法的研究[J];信息技術(shù);2009年04期
8 邱兆文,張?zhí)镂?一種新的圖像顏色特征提取方法[J];哈爾濱工業(yè)大學(xué)學(xué)報;2004年12期
9 陳海龍;;基于多Agent的智能搜索引擎的設(shè)計與實現(xiàn)[J];哈爾濱商業(yè)大學(xué)學(xué)報(自然科學(xué)版);2009年02期
10 荊濤,左萬利;基于可視布局信息的網(wǎng)頁噪音去除算法[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期
相關(guān)博士學(xué)位論文 前1條
1 韋娜;基于內(nèi)容圖像檢索關(guān)鍵技術(shù)研究[D];西北大學(xué);2006年
相關(guān)碩士學(xué)位論文 前1條
1 劉緒崇;基于OLAM的可視化數(shù)據(jù)挖掘技術(shù)研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年
,
本文編號:
2708086
本文鏈接:http://sikaile.net/tushudanganlunwen/2708086.html