【摘要】: 近些年,隨著信息技術(shù)的發(fā)展,網(wǎng)絡資源數(shù)量呈爆炸式增長。然而,由于網(wǎng)頁之間的相互引用產(chǎn)生了大量重復信息;大多數(shù)信息是半結(jié)構(gòu)化和非結(jié)構(gòu)化的,導致索引困難;尤其隨著Web2.0時代的到來,每個人都可以在網(wǎng)絡上發(fā)布信息,在沒有任何約束的情況下,信息的質(zhì)量難以保證,內(nèi)容和格式也很難達到規(guī)范。網(wǎng)絡的開放在給人們帶來極大方便的同時,也造成了檢索困難。 盡管傳統(tǒng)信息檢索系統(tǒng)不斷改進,但是在復雜的網(wǎng)絡環(huán)境下也越來越難滿足用戶的檢索需求。筆者通過問卷調(diào)查、文獻調(diào)研和親自試驗,發(fā)現(xiàn)目前信息檢索系統(tǒng)還存在以下問題:搜索引擎返回結(jié)果太多,用戶根本沒有耐心逐頁查看,大多數(shù)用戶只看檢索結(jié)果的前三頁;搜索引擎的相關(guān)搜索和數(shù)據(jù)庫的檢索詞擴展功能很少被利用,經(jīng)筆者親自試驗也發(fā)現(xiàn)檢索系統(tǒng)的擴展結(jié)果確實難如人意,系統(tǒng)提供的推薦詞與檢索詞缺乏語義相關(guān)性;用戶通常沒有明確的檢索目標,即使有也很難準確、全面地表達出來,人類語言普遍存在一詞多義和一義多詞現(xiàn)象,普通用戶很難窮盡某個詞的所有含義和某個含義的所有詞匯,而目前的檢索系統(tǒng)并沒有為用戶提供良好的檢索詞擴展和推薦功能。 作為網(wǎng)絡信息資源與用戶之間的重要橋梁,檢索系統(tǒng)必須不斷完善,提高查全率和查準率。既節(jié)約用戶的時間與精力,又能提高信息資源的利用率。在整個信息檢索過程中,用戶輸入的檢索詞至關(guān)重要,它直接決定檢索結(jié)果,而普通用戶的檢索能力有限,所以智能化的檢索系統(tǒng)應該能夠?qū)τ脩糨斎氲臋z索詞進行擴展和規(guī)范,為用戶提供與檢索詞語義相關(guān)的推薦。 本體的出現(xiàn)為解決上述問題提供了契機,它是是共享的、概念化的、明確的、形式化的規(guī)范說明。它的目標是捕獲領(lǐng)域內(nèi)的共有知識,提供對該領(lǐng)域知識的共同理解,并從不同層次的形式化模型上給出這些概念及概念問相互關(guān)系的明確定義,實現(xiàn)領(lǐng)域知識推理,挖掘領(lǐng)域內(nèi)隱含的知識。本體在信息檢索領(lǐng)域已得到廣泛應用,尤其在檢索詞擴展、信息抽取、文本分類及語義推理方面已取得一些進展,成為信息檢索領(lǐng)域的研究熱點。著名本體Wordnet已成為檢索詞擴展領(lǐng)域最受歡迎的本體資源之一,其能夠產(chǎn)生更加全面和精確的檢索結(jié)果。 為解決因網(wǎng)絡信息資源自身特點、用戶檢索行為的局限性和檢索系統(tǒng)的不足造成的檢索困境,在借鑒和吸收國內(nèi)外先進研究成果的基礎上,本文提出了一個新的信息檢索系統(tǒng)框架。它由用戶接口模塊、本體推理模塊、本體管理模塊、貝葉斯網(wǎng)絡計算模塊、檢索匹配模塊、數(shù)據(jù)庫和索引文檔模塊組成。該系統(tǒng)利用本體強大的知識庫和確定性推理能力,準確找出用戶輸入的檢索詞在本體概念圖中的所有鄰節(jié)點,完成檢索詞向領(lǐng)域內(nèi)共享概念的轉(zhuǎn)換,實現(xiàn)檢索詞擴展。利用貝葉斯網(wǎng)絡的不確定性推理能力,計算檢索詞與所有鄰節(jié)點的語義距離,將排序后的節(jié)點集提交檢索匹配模塊進行匹配查詢,最終為用戶返回的檢索結(jié)果按照節(jié)點的排名順序和節(jié)點與文檔的相關(guān)程度進行排序,并將帶有排名因素的概念集作為推薦反饋給用戶。 傳統(tǒng)的本體創(chuàng)建和維護都是在領(lǐng)域?qū)<一蛑R工程師的指導下完成的,這就導致本體的創(chuàng)建和維護成本高昂、知識庫更新緩慢、用戶被完全隔離在本體進化過程之外,以致很難實現(xiàn)廣泛的用戶參與和知識共享。為此,本文發(fā)揚Web2.0思想,借鑒民俗分類的社區(qū)協(xié)作能力,利用Wiki技術(shù),提出用戶驅(qū)動的本體進化機制。該機制可以實現(xiàn)在動態(tài)開放的環(huán)境下讓普通用戶參與完善本體,每個參與者都能根據(jù)自己的需要組織知識、創(chuàng)建鏈接、自由編輯本體類、與社區(qū)內(nèi)其他用戶協(xié)商本體中概念的含義。這種開放的、協(xié)作式的本體進化方法能夠明顯改善本體維護過程,促進知識共享和流動。
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2010
【分類號】:G354
【參考文獻】
相關(guān)期刊論文 前10條
1 宗南蘇;何綺云;鄭業(yè)魯;錢平;;農(nóng)業(yè)生產(chǎn)技術(shù)本體構(gòu)建與語義檢索實現(xiàn)[J];廣東農(nóng)業(yè)科學;2009年03期
2 趙慶齡,錢平,蘇曉路,趙明;本體論在基于Web的土壤知識體系智能檢索系統(tǒng)中的應用[J];計算機工程與應用;2005年05期
3 鐘洪;夏利民;;基于本體的圖像檢索[J];計算機工程與應用;2007年17期
4 廖明宏;本體論與信息檢索[J];計算機工程;2000年02期
5 徐德智;Paul Bakaki;趙于前;;用于離散數(shù)學知識檢索的本體推理機的獲取[J];計算技術(shù)與自動化;2009年01期
6 金芝;基于本體的需求自動獲取[J];計算機學報;2000年05期
7 高軍 ,王騰蛟 ,楊冬青 ,唐世渭;基于Ontology的Web內(nèi)容二階段半自動提取方法[J];計算機學報;2004年03期
8 李曼,王大治,杜小勇,王珊;基于領(lǐng)域本體的Web服務動態(tài)組合[J];計算機學報;2005年04期
9 趙涓涓;陳俊杰;劉嘉琳;許偉忠;;以本體為核心的圖像情感語義檢索模型[J];計算機應用;2009年05期
10 王衛(wèi)東,王英林;基于本體的文檔自動分類系統(tǒng)的研究[J];計算機仿真;2005年04期
相關(guān)博士學位論文 前1條
1 李景;本體理論及在農(nóng)業(yè)文獻檢索系統(tǒng)中的應用研究——以花卉學本體建模為例[D];中國科學院研究生院(文獻情報中心);2004年
相關(guān)碩士學位論文 前7條
1 李永喜;基于本體的智能信息檢索研究[D];中國科學技術(shù)大學;2006年
2 郭嘉琦;領(lǐng)域本體的構(gòu)建及其在信息檢索中的應用研究[D];北京郵電大學;2007年
3 陳靜;基于本體的信息抽取研究[D];蘇州大學;2007年
4 李勤超;基于本體的地理信息檢索方法研究[D];解放軍信息工程大學;2007年
5 李麗;基于本體的網(wǎng)頁文本分類的研究[D];北京交通大學;2008年
6 陳志偉;本體的構(gòu)建及其在信息檢索系統(tǒng)中的應用[D];華中師范大學;2008年
7 孔德冉;基于領(lǐng)域Ontology的Web信息抽取研究[D];東北師范大學;2009年
,
本文編號:
2684965
本文鏈接:http://sikaile.net/tushudanganlunwen/2684965.html