天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于維基百科的語義Web搜索技術(shù)研究

發(fā)布時間:2017-05-04 10:16

  本文關(guān)鍵詞:基于維基百科的語義Web搜索技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:目前的Web搜索技術(shù)是基于關(guān)鍵詞的搜索,信息的查全率和精確度仍然不能滿足用戶的需求,其效果常常不能使人滿意。這是由于在Web搜索過程中,缺乏搜索引擎可讀的語義信息,因而限制了計算機自動分析處理以及進一步的智能化處理的能力。因此,為了提高搜索引擎檢索信息的精準(zhǔn)度和智能性,傳統(tǒng)的基于關(guān)鍵字的搜索引擎要向更智能的語義檢索方向發(fā)展。語義搜索要有一個概念的語義空間網(wǎng)絡(luò)作為支撐,維基百科(Wikipedia)是一個開放式的在線百科全書,它是世界最大的包含了大量人類知識和語義關(guān)系的知識庫資源。如何充分利用維基百科的知識,為現(xiàn)有的搜索技術(shù)添加語義處理能力,優(yōu)化信息檢索過程,即成為本論文的研究課題。本文主要的工作如下:首先,針對維基百科中的信息組織及結(jié)構(gòu)特點,抽取出語義信息。對維基百科數(shù)據(jù)的處理,我們應(yīng)用了大數(shù)據(jù)處理的技術(shù),構(gòu)建了基于Hadoop的維基數(shù)據(jù)包處理云平臺。通過建立一套基于對象模型的應(yīng)用程序接口,得到了維基百科主題頁面中我們感興趣的語義信息,包括概念、類別、鏈接、摘要段(主題頁面的第一段),這為后續(xù)的語義相關(guān)度計算提供了必要的結(jié)構(gòu)性和內(nèi)涵性信息。本文的處理技術(shù)還能為以后的維基百科大數(shù)據(jù)處理提供借鑒。其次,提出了一種計算詞條語義相關(guān)度的新方法,稱為WLA算法(Wikipedia Link and Abstract)。在上述對維基百科抽取出相關(guān)信息的基礎(chǔ)上,我們重點研究了鏈接關(guān)系和摘要段的內(nèi)容。鏈接關(guān)系(包括入鏈和出鏈)與摘要段公共詞的特征能很好地反映出概念之間的聯(lián)系,通過對其分別賦以不同的權(quán)重,實驗結(jié)果顯示W(wǎng)LA的Spearman相關(guān)系數(shù)達到了0.68,取得了令人滿意的結(jié)果。最后,開發(fā)了語義搜索系統(tǒng)的原型。將我們提出的WLA算法集成到系統(tǒng)中,實現(xiàn)了能夠提供普通用戶和語義研究人員進行語義搜索的平臺。該搜索系統(tǒng)以維基百科對詞語的解釋為背景知識,包括語義計算,語義概念查詢和文本注釋三大功能。語義計算功能可計算出詞條語義相關(guān)性;語義概念查詢系統(tǒng)提供基于維基百科的語義詞典功能,對偏生詞,多義詞,歧義詞進行語義解釋,可以幫助用戶擴展知識,能夠增強搜索引擎處理查詢的能力;文本注釋功能對短文本中的專有名稱進行注解,只要文本中的詞條在維基百科有與之對應(yīng)的主題頁面,那么系統(tǒng)會對該詞條進行注解并加入鏈接功能。該原型可作為語義搜索相關(guān)研究的測試平臺。
【關(guān)鍵詞】:維基百科 語義計算 搜索引擎
【學(xué)位授予單位】:天津理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 緒論9-15
  • 1.1 研究背景及意義9-10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-12
  • 1.3 研究內(nèi)容和方案12-13
  • 1.4 本文組織結(jié)構(gòu)13-15
  • 第二章 相關(guān)技術(shù)研究15-27
  • 2.1 維基百科15-19
  • 2.2 Lucene技術(shù)19-22
  • 2.3 Nutch技術(shù)22-24
  • 2.4 Hadoop技術(shù)24-27
  • 第三章 語義相關(guān)度的研究27-37
  • 3.1 基于文本的語義相關(guān)度27-28
  • 3.2 基于鏈接的語義相關(guān)度28-29
  • 3.3 基于文本和鏈接的WLA語義相關(guān)度29-37
  • 3.3.1 數(shù)據(jù)處理30-31
  • 3.3.2 WLA語義計算算法31-33
  • 3.3.3 算法測試33-37
  • 第四章 基于維基百科的語義搜索系統(tǒng)設(shè)計37-48
  • 4.1 系統(tǒng)設(shè)計37-39
  • 4.1.1 系統(tǒng)總體設(shè)計37-38
  • 4.1.2 功能設(shè)計38
  • 4.1.3 中間處理模型設(shè)計38-39
  • 4.2 系統(tǒng)實施39-44
  • 4.2.1 系統(tǒng)運行平臺39
  • 4.2.2 系統(tǒng)開發(fā)及展現(xiàn)39-44
  • 4.3 系統(tǒng)測試44-48
  • 第五章 總結(jié)與展望48-50
  • 5.1 總結(jié)48
  • 5.2 展望48-50
  • 參考文獻50-53
  • 發(fā)表論文和科研情況說明53-54
  • 致謝54-55

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 趙飛;周濤;張良;馬鳴卉;劉金虎;余飛;查一龍;李睿琪;;維基百科研究綜述[J];電子科技大學(xué)學(xué)報;2010年03期

2 楊思洛;邱均平;;基于中英維基百科的網(wǎng)絡(luò)引文分布分析[J];國家圖書館學(xué)刊;2012年06期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 楊柳;何婷婷;涂新輝;;基于網(wǎng)絡(luò)百科全書的中文關(guān)聯(lián)語義知識獲取[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 李峗;基于中文維基百科的語義知識挖掘相關(guān)研究[D];北京郵電大學(xué);2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 崔琳;基于語義Web和Web挖掘的Blog智能檢索系統(tǒng)研究[D];合肥工業(yè)大學(xué);2008年

2 伍成志;基于維基百科的知識查找系統(tǒng)的研究與實現(xiàn)[D];華南理工大學(xué);2012年


  本文關(guān)鍵詞:基于維基百科的語義Web搜索技術(shù)研究,,由筆耕文化傳播整理發(fā)布。



本文編號:344897

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/344897.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8996e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com