基于維基百科的知識查找系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2020-02-10 08:03
【摘要】:近年來,隨著互聯(lián)網(wǎng)技術的快速發(fā)展,維基百科已經(jīng)成為全球最大的開放性內容知識平臺之一,而且其所包含的知識以及規(guī)模幾乎每時每刻都在更新和增加,使得維基百科在多個領域內的應用越來越廣泛,其中把維基百科當作一個自然的大規(guī)模語料資源進行自然語言處理方面的研究取得了不少成果。隨著維基百科規(guī)模和內容的不斷豐富,其用戶數(shù)量也是保持不斷增長,然而維基百科站點內部的搜索引擎卻仍然是傳統(tǒng)的全文匹配式搜索,且每個條目的解釋文檔中雖然含有指向其他條目的內部鏈接,但是有很多鏈接與這個條目并沒有語義上的關系。本文認為,良好的搜索應該是基于語義的,因此如何在維基百科內搜索信息時增添語義功能是一個研究重點。 搜索時添加語義相關功能可以在搜索時計算與搜索條目具有一定相關性的條目并呈現(xiàn)給用戶,但是由于維基百科數(shù)據(jù)量巨大,語義相關性計算復雜,整個過程將會耗費大量的時間,對檢索效率和用戶體驗都是大大不利的。因此本文提出一種利用維基百科語料資源構建語義知識庫來提高查詢效率的方法。 本文首先對維基百科的特性,包括其分類結構、頁面結構、頁面鏈接結構以及各種數(shù)據(jù)的存儲格式進行了詳細研究,然后制定了一套能夠有效抽取維基百科結構化信息的流程,從而得到本文研究賴以實現(xiàn)的基礎語料資源,并在該語料資源的基礎上,提出一種語義相關度的計算方法。接著本文根據(jù)預處理過程得到的語料資源,結合傳統(tǒng)語義知識庫的知識表示形式和語義特征,提出一種語義知識的表現(xiàn)形式,并據(jù)此構建了一個知識庫。最后本文在構建的知識庫的基礎上,實現(xiàn)了一個簡單的知識查找系統(tǒng),可以使用戶在查詢某個知識的時候,方便快捷的查看與當前知識有語義相關的其他知識。
【圖文】:
第一章 緒論第一章 緒論1.1 研究背景及意義維基百科(Wikipedia)[1]是一個基于 Wiki 技術的全球性多語言百科全書,同時也是一部在互聯(lián)網(wǎng)上呈現(xiàn)的網(wǎng)絡百科全書網(wǎng)站,同時也是一個動態(tài)的、號稱可自由訪問和編輯的全球知識體。維基百科全書,自 2001 年 1 月 13 日上線,2001 年 1 月 15 日正式成立,截至 2012年 3 月時,維基百科條目數(shù)第一的英語維基百科已有 390 萬條條目,而全球所有 285 中語言的獨立運作版本共突 2000 萬條條目。中文維基百科自 2002 年 10 月建立以來,至今已經(jīng)迅速成長。目前,中文維基百科的總條目數(shù)已達到 42 萬多條,并設計到人文、科學、歷史、地理、藝術、社會等近 170 個主題(圖 1-1)。
華南理工大學碩士學位論文網(wǎng)站之一。然而,在龐大如維基百科這樣的系統(tǒng)中,如何提高搜索精度,,幫助用戶精確定位知識點卻是一個不盡人意的地方。目前,包括維基百科在內,大多數(shù)的開放內容平臺的搜索都局限于傳統(tǒng)的全文匹配方法,即只提供基于關鍵字的精確匹配搜索。例如,在維基百科目前的查詢機制中,如果用戶只是輸入簡單的關鍵詞進行查詢,假如輸入是“華南理工大學”,搜索的部分結果如圖 1-2。
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1
本文編號:2578111
【圖文】:
第一章 緒論第一章 緒論1.1 研究背景及意義維基百科(Wikipedia)[1]是一個基于 Wiki 技術的全球性多語言百科全書,同時也是一部在互聯(lián)網(wǎng)上呈現(xiàn)的網(wǎng)絡百科全書網(wǎng)站,同時也是一個動態(tài)的、號稱可自由訪問和編輯的全球知識體。維基百科全書,自 2001 年 1 月 13 日上線,2001 年 1 月 15 日正式成立,截至 2012年 3 月時,維基百科條目數(shù)第一的英語維基百科已有 390 萬條條目,而全球所有 285 中語言的獨立運作版本共突 2000 萬條條目。中文維基百科自 2002 年 10 月建立以來,至今已經(jīng)迅速成長。目前,中文維基百科的總條目數(shù)已達到 42 萬多條,并設計到人文、科學、歷史、地理、藝術、社會等近 170 個主題(圖 1-1)。
華南理工大學碩士學位論文網(wǎng)站之一。然而,在龐大如維基百科這樣的系統(tǒng)中,如何提高搜索精度,,幫助用戶精確定位知識點卻是一個不盡人意的地方。目前,包括維基百科在內,大多數(shù)的開放內容平臺的搜索都局限于傳統(tǒng)的全文匹配方法,即只提供基于關鍵字的精確匹配搜索。例如,在維基百科目前的查詢機制中,如果用戶只是輸入簡單的關鍵詞進行查詢,假如輸入是“華南理工大學”,搜索的部分結果如圖 1-2。
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前5條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學學報(信息科學版);2010年06期
2 張濤,楊爾弘;基于上下文詞語同現(xiàn)向量的詞語相似度計算[J];電腦開發(fā)與應用;2005年03期
3 盛志超;陶曉鵬;;基于維基百科的語義相似度計算方法[J];計算機工程;2011年07期
4 羅志成;馬費成;吳曉東;宋倩倩;;從維基分類系統(tǒng)構建中文語義詞典研究[J];信息系統(tǒng)學報;2008年02期
5 董振東;語義關系的表達和知識系統(tǒng)的建造[J];語言文字應用;1998年03期
相關博士學位論文 前1條
1 李峗;基于中文維基百科的語義知識挖掘相關研究[D];北京郵電大學;2009年
相關碩士學位論文 前2條
1 蘇小康;基于維基百科構建語義知識庫及其在文本分類領域的應用研究[D];華中師范大學;2010年
2 劉巧玲;維基百科上的語義搜索[D];上海交通大學;2009年
本文編號:2578111
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2578111.html
最近更新
教材專著