天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向特殊主題的排序與檢索算法研究

發(fā)布時間:2019-08-05 16:10
【摘要】:在Internet高速發(fā)展的時代中,人們通過通用搜索引擎的幫助從浩瀚的信息海洋中尋找自己需要的信息,但通用搜索引擎因為本身涵蓋的信息過于廣泛而導致了人們往往不能迅速準確的搜索到需要的信息,針對這種情況主題搜索引擎誕生了。主題搜索引擎的專業(yè)性和抗干擾性使得檢索準確率大大提升。隨著網絡信息多樣化發(fā)展,常見的主題搜索有:科技文檔搜索、電影資料搜索、數碼時尚搜索、書籍期刊搜索、新聞搜索等。但沒有一種主題搜索引擎技術能適用于所有的主題領域,有些主題領域具有一些與上述主題領域不同的特點,例如藥物商品搜索、職位信息搜索等,這類主題領域的信息同時具有文檔結構固定、多詞同義現象嚴重、查詢詞在文檔中出現少等特點。對于這類特殊主題領域,普通檢索技術往往不能獲得良好的檢索效果。本文主要工作即針對這類特殊主題搜索引擎的排序、檢索與性能優(yōu)化算法展開深入研究,主要工作有: (1)提出了一種能更好的適應特殊主題領域的SPF-PR(Specifically Focused PageRank)網頁排序算法。PageRank算法是基于超鏈接分析技術的頁面排序算法,隨著網頁鏈接結構的復雜程度不斷增加,PageRank算法為了適應具體的不同應用需求還需要不斷改進和完善。本文在傳統(tǒng)PagerRank算法的基礎上提出了SPF-PR算法。SPF-PR算法采用了超鏈接錨文本與領域向量之間的相似度來控制傳統(tǒng)PageRank算法的主題漂移現象,比傳統(tǒng)PageRank算法具有更高的檢索性能。 (2)針對特殊主題領域的文檔特點設計了SEB-VSM(Seed Extension Based VSM)檢索模型。目前多數搜索引擎采用的VSM (Vector Space Model)檢索模型并不適用于某些特殊領域的檢索,本文在VSM檢索模型的基礎上設計了SEB-VSM檢索模型來提高特殊主題搜索的檢索性能,解決了VSM檢索模型不適用于特殊主題領域檢索的問題。 (3)設計了一種基于Lingo聚類算法的SEB-VSM檢索模型優(yōu)化方案,包括特征降維與相似度優(yōu)化;贚ingo聚類的特征降維技術降低了文檔向量的維度,提高了相似度計算的執(zhí)行效率,降低噪音數據對相似度計算的影響;基于Lingo聚類算法的相似度優(yōu)化,減小相似度計算的誤差。經實驗證明基于Lingo聚類的特征降維與相似度優(yōu)化能有效的提高SEB-VSM檢索模型的性能。 最后應用上述改進與優(yōu)化算法,設計了一個面向特殊主題的搜索引擎系統(tǒng),采集了大量網絡數據進行測試,實驗證明上述改進能在本文研究的特殊主題領域中有效的提高檢索性能,在實際應用中具有較高的實用價值。
【圖文】:

面向特殊主題的排序與檢索算法研究


[9],那么文檔集合的向量空間模型矩陣表示如圖2.2所示。圖 2.2 文檔集合的向量空間模型設文檔集合中有文檔 ( )1 2, , ,i i i i nD w w … w和文檔 ( )1 2, , ,j j j jnD w w … w,為了度量Di與Dj的相似程度,向量空間理論提出了“距離”的概念,距離是指兩個向量空間之間的數學差距,距離用( ,)i jsim d d 表示,兩個文檔越相似則相似度越高。問題的關鍵就在于如何計算兩個向量空間之間的相似度,常用的相似度計算公式有內積函數、Jaccard系數、余弦距離函數,其中文獻[10]的實驗編碼余弦距離公式是評測效果最好的相似度計算公式。設文檔di和dj向量為:1 2( , , , )i i i ind = t t … t,1 2( , , )j j j jnd = t t … t,余弦距離如公式(2.1)所示:12 21 1( , )mki kjki jm mki kjk kt tsim d dt t== == ∑∑ ∑公式(2.1)通過相似度的公式化計算

面向特殊主題的排序與檢索算法研究


15圖2.8 索引器工作原理首先,Lucene通過不同的解析器來解析不同類型的文檔,解析得到的結果為普通文本,再通過Lucene的分詞器把普通文本切割成能夠建立索引的詞項(Term),并計算詞的TD與DF信息,再把這些信息寫入索引文件中。Lucene索引的存儲結構是由多個段(Segment)構成,Segment再由多個文檔(Document)構成,,Document再由多個域(Field)構成,Field再由多個Term構成
【學位授予單位】:江西理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前7條

1 張嶺,馬范援;加速評估算法:一種提高Web結構挖掘質量的新方法[J];計算機研究與發(fā)展;2004年01期

2 王鐘斐;王彪;;基于錨文本相似度的PageRank改進算法[J];計算機工程;2010年24期

3 李紹華;高文宇;;搜索引擎頁面排序算法研究綜述[J];計算機應用研究;2007年06期

4 黃名選;嚴小衛(wèi);張師超;;查詢擴展技術進展與展望[J];計算機應用與軟件;2007年11期

5 丁國棟;白碩;王斌;;一種基于局部共現的查詢擴展方法[J];中文信息學報;2006年03期

6 宋聚平,王永成,尹中航,滕偉;對網頁PageRank算法的改進[J];上海交通大學學報;2003年03期

7 彭松行;;基于描述優(yōu)先算法的Web搜索結果聚類系統(tǒng)研究[J];心智與計算;2010年04期

相關碩士學位論文 前10條

1 梁萍;搜索引擎中網絡爬蟲及結果聚類的研究與實現[D];中國科學技術大學;2011年

2 翁金象;中文文本分類研究[D];山東大學;2007年

3 張建輝;K-means聚類算法研究及應用[D];武漢理工大學;2007年

4 吳虎子;中文網頁獲取及自動分類技術研究[D];武漢理工大學;2007年

5 尹輝;基于Nutch的搜索系統(tǒng)的研究[D];電子科技大學;2008年

6 胡長春;基于Lucene的中文自然語言搜索引擎[D];上海交通大學;2009年

7 邵晶晶;基于PageRank排序算法改進的若干研究[D];華中師范大學;2009年

8 余靜;基于Nutch的面向特定主題的爬蟲研究[D];遼寧工程技術大學;2008年

9 李新友;信息檢索中的查詢擴展技術研究[D];廣西師范大學;2010年

10 劉先明;基于鏈接分析的PageRank排序算法的改進研究[D];湖北工業(yè)大學;2010年



本文編號:2523218

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2523218.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶b7b1c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com