面向特殊主題的排序與檢索算法研究
【圖文】:
[9],那么文檔集合的向量空間模型矩陣表示如圖2.2所示。圖 2.2 文檔集合的向量空間模型設(shè)文檔集合中有文檔 ( )1 2, , ,i i i i nD w w … w和文檔 ( )1 2, , ,j j j jnD w w … w,為了度量Di與Dj的相似程度,向量空間理論提出了“距離”的概念,距離是指兩個(gè)向量空間之間的數(shù)學(xué)差距,距離用( ,)i jsim d d 表示,兩個(gè)文檔越相似則相似度越高。問(wèn)題的關(guān)鍵就在于如何計(jì)算兩個(gè)向量空間之間的相似度,常用的相似度計(jì)算公式有內(nèi)積函數(shù)、Jaccard系數(shù)、余弦距離函數(shù),其中文獻(xiàn)[10]的實(shí)驗(yàn)編碼余弦距離公式是評(píng)測(cè)效果最好的相似度計(jì)算公式。設(shè)文檔di和dj向量為:1 2( , , , )i i i ind = t t … t,1 2( , , )j j j jnd = t t … t,余弦距離如公式(2.1)所示:12 21 1( , )mki kjki jm mki kjk kt tsim d dt t== == ∑∑ ∑公式(2.1)通過(guò)相似度的公式化計(jì)算
15圖2.8 索引器工作原理首先,Lucene通過(guò)不同的解析器來(lái)解析不同類型的文檔,解析得到的結(jié)果為普通文本,再通過(guò)Lucene的分詞器把普通文本切割成能夠建立索引的詞項(xiàng)(Term),并計(jì)算詞的TD與DF信息,再把這些信息寫(xiě)入索引文件中。Lucene索引的存儲(chǔ)結(jié)構(gòu)是由多個(gè)段(Segment)構(gòu)成,Segment再由多個(gè)文檔(Document)構(gòu)成,,Document再由多個(gè)域(Field)構(gòu)成,F(xiàn)ield再由多個(gè)Term構(gòu)成
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 張嶺,馬范援;加速評(píng)估算法:一種提高Web結(jié)構(gòu)挖掘質(zhì)量的新方法[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
2 王鐘斐;王彪;;基于錨文本相似度的PageRank改進(jìn)算法[J];計(jì)算機(jī)工程;2010年24期
3 李紹華;高文宇;;搜索引擎頁(yè)面排序算法研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年06期
4 黃名選;嚴(yán)小衛(wèi);張師超;;查詢擴(kuò)展技術(shù)進(jìn)展與展望[J];計(jì)算機(jī)應(yīng)用與軟件;2007年11期
5 丁國(guó)棟;白碩;王斌;;一種基于局部共現(xiàn)的查詢擴(kuò)展方法[J];中文信息學(xué)報(bào);2006年03期
6 宋聚平,王永成,尹中航,滕偉;對(duì)網(wǎng)頁(yè)P(yáng)ageRank算法的改進(jìn)[J];上海交通大學(xué)學(xué)報(bào);2003年03期
7 彭松行;;基于描述優(yōu)先算法的Web搜索結(jié)果聚類系統(tǒng)研究[J];心智與計(jì)算;2010年04期
相關(guān)碩士學(xué)位論文 前10條
1 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)及結(jié)果聚類的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
2 翁金象;中文文本分類研究[D];山東大學(xué);2007年
3 張建輝;K-means聚類算法研究及應(yīng)用[D];武漢理工大學(xué);2007年
4 吳虎子;中文網(wǎng)頁(yè)獲取及自動(dòng)分類技術(shù)研究[D];武漢理工大學(xué);2007年
5 尹輝;基于Nutch的搜索系統(tǒng)的研究[D];電子科技大學(xué);2008年
6 胡長(zhǎng)春;基于Lucene的中文自然語(yǔ)言搜索引擎[D];上海交通大學(xué);2009年
7 邵晶晶;基于PageRank排序算法改進(jìn)的若干研究[D];華中師范大學(xué);2009年
8 余靜;基于Nutch的面向特定主題的爬蟲(chóng)研究[D];遼寧工程技術(shù)大學(xué);2008年
9 李新友;信息檢索中的查詢擴(kuò)展技術(shù)研究[D];廣西師范大學(xué);2010年
10 劉先明;基于鏈接分析的PageRank排序算法的改進(jìn)研究[D];湖北工業(yè)大學(xué);2010年
本文編號(hào):2523218
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2523218.html