面向特殊主題的排序與檢索算法研究
【圖文】:
[9],那么文檔集合的向量空間模型矩陣表示如圖2.2所示。圖 2.2 文檔集合的向量空間模型設文檔集合中有文檔 ( )1 2, , ,i i i i nD w w … w和文檔 ( )1 2, , ,j j j jnD w w … w,為了度量Di與Dj的相似程度,向量空間理論提出了“距離”的概念,距離是指兩個向量空間之間的數學差距,距離用( ,)i jsim d d 表示,兩個文檔越相似則相似度越高。問題的關鍵就在于如何計算兩個向量空間之間的相似度,常用的相似度計算公式有內積函數、Jaccard系數、余弦距離函數,其中文獻[10]的實驗編碼余弦距離公式是評測效果最好的相似度計算公式。設文檔di和dj向量為:1 2( , , , )i i i ind = t t … t,1 2( , , )j j j jnd = t t … t,余弦距離如公式(2.1)所示:12 21 1( , )mki kjki jm mki kjk kt tsim d dt t== == ∑∑ ∑公式(2.1)通過相似度的公式化計算
15圖2.8 索引器工作原理首先,Lucene通過不同的解析器來解析不同類型的文檔,解析得到的結果為普通文本,再通過Lucene的分詞器把普通文本切割成能夠建立索引的詞項(Term),并計算詞的TD與DF信息,再把這些信息寫入索引文件中。Lucene索引的存儲結構是由多個段(Segment)構成,Segment再由多個文檔(Document)構成,,Document再由多個域(Field)構成,Field再由多個Term構成
【學位授予單位】:江西理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關期刊論文 前7條
1 張嶺,馬范援;加速評估算法:一種提高Web結構挖掘質量的新方法[J];計算機研究與發(fā)展;2004年01期
2 王鐘斐;王彪;;基于錨文本相似度的PageRank改進算法[J];計算機工程;2010年24期
3 李紹華;高文宇;;搜索引擎頁面排序算法研究綜述[J];計算機應用研究;2007年06期
4 黃名選;嚴小衛(wèi);張師超;;查詢擴展技術進展與展望[J];計算機應用與軟件;2007年11期
5 丁國棟;白碩;王斌;;一種基于局部共現的查詢擴展方法[J];中文信息學報;2006年03期
6 宋聚平,王永成,尹中航,滕偉;對網頁PageRank算法的改進[J];上海交通大學學報;2003年03期
7 彭松行;;基于描述優(yōu)先算法的Web搜索結果聚類系統(tǒng)研究[J];心智與計算;2010年04期
相關碩士學位論文 前10條
1 梁萍;搜索引擎中網絡爬蟲及結果聚類的研究與實現[D];中國科學技術大學;2011年
2 翁金象;中文文本分類研究[D];山東大學;2007年
3 張建輝;K-means聚類算法研究及應用[D];武漢理工大學;2007年
4 吳虎子;中文網頁獲取及自動分類技術研究[D];武漢理工大學;2007年
5 尹輝;基于Nutch的搜索系統(tǒng)的研究[D];電子科技大學;2008年
6 胡長春;基于Lucene的中文自然語言搜索引擎[D];上海交通大學;2009年
7 邵晶晶;基于PageRank排序算法改進的若干研究[D];華中師范大學;2009年
8 余靜;基于Nutch的面向特定主題的爬蟲研究[D];遼寧工程技術大學;2008年
9 李新友;信息檢索中的查詢擴展技術研究[D];廣西師范大學;2010年
10 劉先明;基于鏈接分析的PageRank排序算法的改進研究[D];湖北工業(yè)大學;2010年
本文編號:2523218
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2523218.html