面向特殊主題的排序與檢索算法研究

發(fā)布時(shí)間：2019-08-05 16:10

【摘要】：在Internet高速發(fā)展的時(shí)代中，人們通過(guò)通用搜索引擎的幫助從浩瀚的信息海洋中尋找自己需要的信息，但通用搜索引擎因?yàn)楸旧砗w的信息過(guò)于廣泛而導(dǎo)致了人們往往不能迅速準(zhǔn)確的搜索到需要的信息，針對(duì)這種情況主題搜索引擎誕生了。主題搜索引擎的專業(yè)性和抗干擾性使得檢索準(zhǔn)確率大大提升。隨著網(wǎng)絡(luò)信息多樣化發(fā)展，常見(jiàn)的主題搜索有：科技文檔搜索、電影資料搜索、數(shù)碼時(shí)尚搜索、書(shū)籍期刊搜索、新聞搜索等。但沒(méi)有一種主題搜索引擎技術(shù)能適用于所有的主題領(lǐng)域，有些主題領(lǐng)域具有一些與上述主題領(lǐng)域不同的特點(diǎn)，例如藥物商品搜索、職位信息搜索等，這類主題領(lǐng)域的信息同時(shí)具有文檔結(jié)構(gòu)固定、多詞同義現(xiàn)象嚴(yán)重、查詢?cè)~在文檔中出現(xiàn)少等特點(diǎn)。對(duì)于這類特殊主題領(lǐng)域，普通檢索技術(shù)往往不能獲得良好的檢索效果。本文主要工作即針對(duì)這類特殊主題搜索引擎的排序、檢索與性能優(yōu)化算法展開(kāi)深入研究，主要工作有： (1)提出了一種能更好的適應(yīng)特殊主題領(lǐng)域的SPF-PR(Specifically Focused PageRank)網(wǎng)頁(yè)排序算法。PageRank算法是基于超鏈接分析技術(shù)的頁(yè)面排序算法，隨著網(wǎng)頁(yè)鏈接結(jié)構(gòu)的復(fù)雜程度不斷增加，PageRank算法為了適應(yīng)具體的不同應(yīng)用需求還需要不斷改進(jìn)和完善。本文在傳統(tǒng)PagerRank算法的基礎(chǔ)上提出了SPF-PR算法。SPF-PR算法采用了超鏈接錨文本與領(lǐng)域向量之間的相似度來(lái)控制傳統(tǒng)PageRank算法的主題漂移現(xiàn)象，比傳統(tǒng)PageRank算法具有更高的檢索性能。 (2)針對(duì)特殊主題領(lǐng)域的文檔特點(diǎn)設(shè)計(jì)了SEB-VSM(Seed Extension Based VSM)檢索模型。目前多數(shù)搜索引擎采用的VSM (Vector Space Model)檢索模型并不適用于某些特殊領(lǐng)域的檢索，本文在VSM檢索模型的基礎(chǔ)上設(shè)計(jì)了SEB-VSM檢索模型來(lái)提高特殊主題搜索的檢索性能，解決了VSM檢索模型不適用于特殊主題領(lǐng)域檢索的問(wèn)題。 (3)設(shè)計(jì)了一種基于Lingo聚類算法的SEB-VSM檢索模型優(yōu)化方案，包括特征降維與相似度優(yōu)化�；贚ingo聚類的特征降維技術(shù)降低了文檔向量的維度，提高了相似度計(jì)算的執(zhí)行效率，降低噪音數(shù)據(jù)對(duì)相似度計(jì)算的影響；基于Lingo聚類算法的相似度優(yōu)化，減小相似度計(jì)算的誤差。經(jīng)實(shí)驗(yàn)證明基于Lingo聚類的特征降維與相似度優(yōu)化能有效的提高SEB-VSM檢索模型的性能。最后應(yīng)用上述改進(jìn)與優(yōu)化算法，設(shè)計(jì)了一個(gè)面向特殊主題的搜索引擎系統(tǒng)，采集了大量網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行測(cè)試，實(shí)驗(yàn)證明上述改進(jìn)能在本文研究的特殊主題領(lǐng)域中有效的提高檢索性能，在實(shí)際應(yīng)用中具有較高的實(shí)用價(jià)值。
【圖文】：

面向特殊主題的排序與檢索算法研究

[9]，那么文檔集合的向量空間模型矩陣表示如圖2.2所示。圖 2.2 文檔集合的向量空間模型設(shè)文檔集合中有文檔 ( )1 2, , ,i i i i nD w w … w和文檔 ( )1 2, , ,j j j jnD w w … w，為了度量Di與Dj的相似程度，向量空間理論提出了“距離”的概念，距離是指兩個(gè)向量空間之間的數(shù)學(xué)差距，距離用( ,)i jsim d d 表示，兩個(gè)文檔越相似則相似度越高。問(wèn)題的關(guān)鍵就在于如何計(jì)算兩個(gè)向量空間之間的相似度，常用的相似度計(jì)算公式有內(nèi)積函數(shù)、Jaccard系數(shù)、余弦距離函數(shù)，其中文獻(xiàn)[10]的實(shí)驗(yàn)編碼余弦距離公式是評(píng)測(cè)效果最好的相似度計(jì)算公式。設(shè)文檔di和dj向量為：1 2( , , , )i i i ind = t t … t，1 2( , , )j j j jnd = t t … t，余弦距離如公式(2.1)所示：12 21 1( , )mki kjki jm mki kjk kt tsim d dt t== == ∑∑ ∑公式(2.1)通過(guò)相似度的公式化計(jì)算

面向特殊主題的排序與檢索算法研究

15圖2.8 索引器工作原理首先，Lucene通過(guò)不同的解析器來(lái)解析不同類型的文檔，解析得到的結(jié)果為普通文本，再通過(guò)Lucene的分詞器把普通文本切割成能夠建立索引的詞項(xiàng)(Term)，并計(jì)算詞的TD與DF信息，再把這些信息寫(xiě)入索引文件中。Lucene索引的存儲(chǔ)結(jié)構(gòu)是由多個(gè)段(Segment)構(gòu)成，Segment再由多個(gè)文檔(Document)構(gòu)成，，Document再由多個(gè)域(Field)構(gòu)成，F(xiàn)ield再由多個(gè)Term構(gòu)成
【學(xué)位授予單位】：江西理工大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2012
【分類號(hào)】：TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文前7條

1 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

2 王鐘斐;王彪;;基于錨文本相似度的PageRank改進(jìn)算法[J];計(jì)算機(jī)工程;2010年24期

3 李紹華;高文宇;;搜索引擎頁(yè)面排序算法研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年06期

4 黃名選;嚴(yán)小衛(wèi);張師超;;查詢擴(kuò)展技術(shù)進(jìn)展與展望[J];計(jì)算機(jī)應(yīng)用與軟件;2007年11期

5 丁國(guó)棟;白碩;王斌;;一種基于局部共現(xiàn)的查詢擴(kuò)展方法[J];中文信息學(xué)報(bào);2006年03期

6 宋聚平,王永成,尹中航,滕偉;對(duì)網(wǎng)頁(yè)P(yáng)ageRank算法的改進(jìn)[J];上海交通大學(xué)學(xué)報(bào);2003年03期

7 彭松行;;基于描述優(yōu)先算法的Web搜索結(jié)果聚類系統(tǒng)研究[J];心智與計(jì)算;2010年04期

相關(guān)碩士學(xué)位論文前10條

1 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)及結(jié)果聚類的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

2 翁金象;中文文本分類研究[D];山東大學(xué);2007年

3 張建輝;K-means聚類算法研究及應(yīng)用[D];武漢理工大學(xué);2007年

4 吳虎子;中文網(wǎng)頁(yè)獲取及自動(dòng)分類技術(shù)研究[D];武漢理工大學(xué);2007年

5 尹輝;基于Nutch的搜索系統(tǒng)的研究[D];電子科技大學(xué);2008年

6 胡長(zhǎng)春;基于Lucene的中文自然語(yǔ)言搜索引擎[D];上海交通大學(xué);2009年

7 邵晶晶;基于PageRank排序算法改進(jìn)的若干研究[D];華中師范大學(xué);2009年

8 余靜;基于Nutch的面向特定主題的爬蟲(chóng)研究[D];遼寧工程技術(shù)大學(xué);2008年

9 李新友;信息檢索中的查詢擴(kuò)展技術(shù)研究[D];廣西師范大學(xué);2010年

10 劉先明;基于鏈接分析的PageRank排序算法的改進(jìn)研究[D];湖北工業(yè)大學(xué);2010年

本文編號(hào)：2523218

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2523218.html

上一篇：基于拼音索引的中文模糊匹配算法
下一篇：傳統(tǒng)圖書(shū)館將走向消亡嗎

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向特殊主題的排序與檢索算法研究