天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于檢索詞擴展和文本表示的文庫搜索引擎

發(fā)布時間:2019-07-17 08:28
【摘要】:信息檢索是內(nèi)容驅(qū)動類應(yīng)用的基礎(chǔ),搜索結(jié)果的好壞直接影響到用戶是否迅速及時取所需信息。目前,針對特定領(lǐng)域的垂直類搜索引擎從一定程度上滿足了用戶獲取特定信息的需求,然而基于文本匹配的全文檢索引擎不能從語義的角度進行檢索,使得搜索結(jié)果過多依賴檢索詞的選取。針對以上問題,本文從知識本體之間的關(guān)系、文本的詞向量表示等方面進行分析,提出了基于檢索詞擴展的評分排序算法,主要完成的研究和工作如下:(一)基于本體關(guān)系的檢索詞查詢擴展方法研究。以中文維基百科為載體,從固定頁面結(jié)構(gòu)中抽取的數(shù)據(jù),按照一定的規(guī)則自動構(gòu)建為知識本體。將本體數(shù)據(jù)持久化至本體存儲引擎后,可提供查詢服務(wù),返回本體的描述數(shù)據(jù)和具有關(guān)聯(lián)關(guān)系的本體集合。本體的描述作為搜索結(jié)果的展示和補充,本體的上下位關(guān)系和關(guān)聯(lián)關(guān)系作為檢索詞的擴展依據(jù)。(二)基于詞嵌入的文本表示及相似度計算研究。使用Word2vec對中文語料數(shù)據(jù)進行訓練,通過訓練結(jié)果詞向量判斷文本之間的相似度,從而尋找檢索詞的相似詞集。同樣,將文庫文檔的標題向量化后按一定的原則設(shè)置權(quán)重。最后根據(jù)用戶行為,實現(xiàn)了基于詞向量線性運算的個性化文檔推薦。(三)基于Lucene檢索結(jié)果的Dscore排序算法。針對本文的應(yīng)用場景,結(jié)合基于關(guān)聯(lián)本體的檢索詞擴展和基于詞向量的語義相似度計算等研究內(nèi)容,提出檢索詞的擴展算法和檢索結(jié)果的Dscore排序算法。對本文研究的搜索引擎進行設(shè)計和實現(xiàn),同時完成了對該系統(tǒng)的測試和檢索結(jié)果評價。本文研究成果結(jié)合具體應(yīng)用場景進行轉(zhuǎn)化,最終形成“打印云在線打印”項目,搜索引擎承擔項目的共享文檔檢索任務(wù)。
文內(nèi)圖片:打印云平臺首頁打印云在線打印平臺(http://www.dayinyun.cn,以下簡稱“打印云”)是一個以校園
圖片說明: 第一章 緒 論目的及意義內(nèi)容服務(wù)提供類應(yīng)用的基礎(chǔ)工作,搜索結(jié)果的好壞決定著要的信息,直接影響用戶對整個系統(tǒng)的評價。相比通用搜更是承擔著系統(tǒng)數(shù)據(jù)的精確展示工作。垂直搜索引擎的特戶對個性化信息檢索的需求。因此,研究者投入了大量精中的檢索效果。由于基于關(guān)鍵詞的搜索引擎檢索結(jié)果對詞場景下的個性化搜索要求,,往往會出現(xiàn)高匹配、低精度,低的問題。下,本文結(jié)合知識本體與詞向量的相關(guān)研究成果,討論針,對垂直搜索引擎中的檢索詞提出了合理的擴展方法,對的優(yōu)化策略,實現(xiàn)更適合文庫類應(yīng)用的搜索引擎,并結(jié)合形成可實際應(yīng)用的打印云平臺。-
文內(nèi)圖片:語義網(wǎng)體系框架
圖片說明: 圖 1.1 語義網(wǎng)體系框架I和 Unicode。識符(URI)是語義網(wǎng)的根基。在 RFC 2396 里對 URI 的使URI 可按用戶需求而進行個性化的自定義。URI 的使用與照概念來說 URI 是包含 URL 的。Unicode 定義了一個字符素都使用兩個字節(jié)來描述,因此這個集合包含了162 個字符案,基本上覆蓋了世界上所有語言使用的字符,這樣就解的格式的問題。URI 和 Unicode 是整個語義網(wǎng)體系的基礎(chǔ),Unicode完成了資源的編碼。法層(XML、Namespace、XMLSchema 和 XMLQuery)。數(shù)據(jù)表示和數(shù)據(jù)交換的標準,它的語法格式自由,使得用己的標記集,利用這些標記就可以完成 XML 的編寫。根據(jù)標記的前面加入 URI 就可以解決同名標記的問題。隨著在
【學位授予單位】:長安大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前10條

1 母克東;萬琪;;關(guān)系抽取研究綜述[J];現(xiàn)代計算機(專業(yè)版);2015年03期

2 魏瑞斌;;國內(nèi)知識圖譜研究的可視化分析[J];圖書情報工作;2011年08期

3 鄧三鴻;顧婷婷;;我國圖情領(lǐng)域核心期刊論文作者同被引現(xiàn)象的可視化分析[J];情報科學;2010年11期

4 廖勝姣;;基于TDA的情報學研究前沿知識圖譜的繪制及分析[J];情報理論與實踐;2009年11期

5 陳蘭;金遠平;;基于本體的垂直搜索引擎研究[J];計算機應(yīng)用與軟件;2009年11期

6 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機科學;2009年08期

7 白崇遠;;《維基百科》的特性及影響[J];辭書研究;2009年02期

8 石川;李清勇;史忠植;;一種快速的基于占優(yōu)樹的多目標進化算法[J];軟件學報;2007年03期

9 Henk F.Moed;劉俊婉;金碧輝;;h指數(shù)構(gòu)建有創(chuàng)意 用于評價要慎重[J];科學觀察;2006年01期

10 杜小勇;馬文峰;;學科領(lǐng)域知識本體建設(shè)方法研究[J];圖書情報工作;2005年08期

相關(guān)碩士學位論文 前2條

1 屈天鵬;基于SCI的遼寧省高校自然科學學科分布與合作網(wǎng)絡(luò)知識圖譜[D];大連理工大學;2009年

2 侯劍華;工商管理學科主干理論的演進[D];大連理工大學;2008年



本文編號:2515371

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2515371.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2491c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com