基于維基百科的知識查找系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時間:2020-02-10 08:03
【摘要】:近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,維基百科已經(jīng)成為全球最大的開放性內(nèi)容知識平臺之一,而且其所包含的知識以及規(guī)模幾乎每時每刻都在更新和增加,使得維基百科在多個領(lǐng)域內(nèi)的應(yīng)用越來越廣泛,其中把維基百科當(dāng)作一個自然的大規(guī)模語料資源進(jìn)行自然語言處理方面的研究取得了不少成果。隨著維基百科規(guī)模和內(nèi)容的不斷豐富,其用戶數(shù)量也是保持不斷增長,然而維基百科站點(diǎn)內(nèi)部的搜索引擎卻仍然是傳統(tǒng)的全文匹配式搜索,且每個條目的解釋文檔中雖然含有指向其他條目的內(nèi)部鏈接,但是有很多鏈接與這個條目并沒有語義上的關(guān)系。本文認(rèn)為,良好的搜索應(yīng)該是基于語義的,因此如何在維基百科內(nèi)搜索信息時增添語義功能是一個研究重點(diǎn)。 搜索時添加語義相關(guān)功能可以在搜索時計算與搜索條目具有一定相關(guān)性的條目并呈現(xiàn)給用戶,但是由于維基百科數(shù)據(jù)量巨大,語義相關(guān)性計算復(fù)雜,整個過程將會耗費(fèi)大量的時間,對檢索效率和用戶體驗(yàn)都是大大不利的。因此本文提出一種利用維基百科語料資源構(gòu)建語義知識庫來提高查詢效率的方法。 本文首先對維基百科的特性,包括其分類結(jié)構(gòu)、頁面結(jié)構(gòu)、頁面鏈接結(jié)構(gòu)以及各種數(shù)據(jù)的存儲格式進(jìn)行了詳細(xì)研究,然后制定了一套能夠有效抽取維基百科結(jié)構(gòu)化信息的流程,從而得到本文研究賴以實(shí)現(xiàn)的基礎(chǔ)語料資源,并在該語料資源的基礎(chǔ)上,提出一種語義相關(guān)度的計算方法。接著本文根據(jù)預(yù)處理過程得到的語料資源,結(jié)合傳統(tǒng)語義知識庫的知識表示形式和語義特征,提出一種語義知識的表現(xiàn)形式,并據(jù)此構(gòu)建了一個知識庫。最后本文在構(gòu)建的知識庫的基礎(chǔ)上,實(shí)現(xiàn)了一個簡單的知識查找系統(tǒng),可以使用戶在查詢某個知識的時候,方便快捷的查看與當(dāng)前知識有語義相關(guān)的其他知識。
【圖文】:
第一章 緒論第一章 緒論1.1 研究背景及意義維基百科(Wikipedia)[1]是一個基于 Wiki 技術(shù)的全球性多語言百科全書,同時也是一部在互聯(lián)網(wǎng)上呈現(xiàn)的網(wǎng)絡(luò)百科全書網(wǎng)站,同時也是一個動態(tài)的、號稱可自由訪問和編輯的全球知識體。維基百科全書,自 2001 年 1 月 13 日上線,2001 年 1 月 15 日正式成立,截至 2012年 3 月時,維基百科條目數(shù)第一的英語維基百科已有 390 萬條條目,而全球所有 285 中語言的獨(dú)立運(yùn)作版本共突 2000 萬條條目。中文維基百科自 2002 年 10 月建立以來,至今已經(jīng)迅速成長。目前,中文維基百科的總條目數(shù)已達(dá)到 42 萬多條,并設(shè)計到人文、科學(xué)、歷史、地理、藝術(shù)、社會等近 170 個主題(圖 1-1)。
華南理工大學(xué)碩士學(xué)位論文網(wǎng)站之一。然而,在龐大如維基百科這樣的系統(tǒng)中,如何提高搜索精度,,幫助用戶精確定位知識點(diǎn)卻是一個不盡人意的地方。目前,包括維基百科在內(nèi),大多數(shù)的開放內(nèi)容平臺的搜索都局限于傳統(tǒng)的全文匹配方法,即只提供基于關(guān)鍵字的精確匹配搜索。例如,在維基百科目前的查詢機(jī)制中,如果用戶只是輸入簡單的關(guān)鍵詞進(jìn)行查詢,假如輸入是“華南理工大學(xué)”,搜索的部分結(jié)果如圖 1-2。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
本文編號:2578111
【圖文】:
第一章 緒論第一章 緒論1.1 研究背景及意義維基百科(Wikipedia)[1]是一個基于 Wiki 技術(shù)的全球性多語言百科全書,同時也是一部在互聯(lián)網(wǎng)上呈現(xiàn)的網(wǎng)絡(luò)百科全書網(wǎng)站,同時也是一個動態(tài)的、號稱可自由訪問和編輯的全球知識體。維基百科全書,自 2001 年 1 月 13 日上線,2001 年 1 月 15 日正式成立,截至 2012年 3 月時,維基百科條目數(shù)第一的英語維基百科已有 390 萬條條目,而全球所有 285 中語言的獨(dú)立運(yùn)作版本共突 2000 萬條條目。中文維基百科自 2002 年 10 月建立以來,至今已經(jīng)迅速成長。目前,中文維基百科的總條目數(shù)已達(dá)到 42 萬多條,并設(shè)計到人文、科學(xué)、歷史、地理、藝術(shù)、社會等近 170 個主題(圖 1-1)。
華南理工大學(xué)碩士學(xué)位論文網(wǎng)站之一。然而,在龐大如維基百科這樣的系統(tǒng)中,如何提高搜索精度,,幫助用戶精確定位知識點(diǎn)卻是一個不盡人意的地方。目前,包括維基百科在內(nèi),大多數(shù)的開放內(nèi)容平臺的搜索都局限于傳統(tǒng)的全文匹配方法,即只提供基于關(guān)鍵字的精確匹配搜索。例如,在維基百科目前的查詢機(jī)制中,如果用戶只是輸入簡單的關(guān)鍵詞進(jìn)行查詢,假如輸入是“華南理工大學(xué)”,搜索的部分結(jié)果如圖 1-2。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年06期
2 張濤,楊爾弘;基于上下文詞語同現(xiàn)向量的詞語相似度計算[J];電腦開發(fā)與應(yīng)用;2005年03期
3 盛志超;陶曉鵬;;基于維基百科的語義相似度計算方法[J];計算機(jī)工程;2011年07期
4 羅志成;馬費(fèi)成;吳曉東;宋倩倩;;從維基分類系統(tǒng)構(gòu)建中文語義詞典研究[J];信息系統(tǒng)學(xué)報;2008年02期
5 董振東;語義關(guān)系的表達(dá)和知識系統(tǒng)的建造[J];語言文字應(yīng)用;1998年03期
相關(guān)博士學(xué)位論文 前1條
1 李峗;基于中文維基百科的語義知識挖掘相關(guān)研究[D];北京郵電大學(xué);2009年
相關(guān)碩士學(xué)位論文 前2條
1 蘇小康;基于維基百科構(gòu)建語義知識庫及其在文本分類領(lǐng)域的應(yīng)用研究[D];華中師范大學(xué);2010年
2 劉巧玲;維基百科上的語義搜索[D];上海交通大學(xué);2009年
本文編號:2578111
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2578111.html
最近更新
教材專著