改進的內容分析排序算法在搜索引擎中的研究與應用
本文選題:搜索引擎 切入點:排序算法 出處:《大連交通大學》2013年碩士論文 論文類型:學位論文
【摘要】:隨著因特網的不斷發(fā)展和日益普及,網上的信息量呈爆炸趨勢增長,如何在浩瀚如海的信息中迅速地定位到所需的信息,已成為人們不得不考慮的問題,于是信息檢索技術應運而生并成為了當今最熱門的技術之一。搜索引擎正是基于一定的策略在Web上搜索和發(fā)現(xiàn)信息,它的出現(xiàn)雖然只有短暫的十幾年時間,但在Web上已經有了確定不移的地位。 本文的研究工作主要有以下幾方面: 1.就搜索引擎及其發(fā)展歷史作了簡要的敘述,之后則就搜索引擎中重要的幾類檢索模型進行了相應的介紹,同時信息檢索的評價指標,如:查準率、查全率等也在文中有所體現(xiàn)。 2.在Salton發(fā)明的向量空間模型的基礎上,本文對其經典算法TF-IDF公式進行了改進,提出了詞頻(TF)和逆文檔頻率(IDF)的乘積累加求和法和TF-IDF的歸一化法,并與詞頻和逆文檔頻率的計算方法進行了比較;在基于概率模型方面,本文實現(xiàn)了文檔和查詢詞權重的基礎上的BM25排序算法;在語言模型方面,采用集合了最大似然模型和集合模型優(yōu)勢的Jelinek-Mercer平滑方法和絕對折扣平滑方法,之后本文對貝葉斯分析方法和狄利克雷參數(shù)分布結合的原狄利克雷(Dirichlet)平滑方法進行了改進,并對其算法作了部分深化。 3.本文深入地研究了Lucene的排序機制,并且將上述幾種基于內容的排序算法融入到了Lucene的排序機制中,進一步完善了Lucene對于查詢結果的排序功能。最后,采用TREC會議中中英文雙語語料進行了實驗,通過查詢測試和結果評價,作者發(fā)現(xiàn)運用不同排序算法對結果文檔進行排序時,Lucene返回的結果文檔的相關性是不一樣的,而改進型的狄利克雷(Dirichlet)平滑方法具有最好的排序效果;而相對于采用詞頻TF、逆文檔頻率IDF等的向量空間模型排序效果而言,TF-IDF歸一化法的排序效果較好。
[Abstract]:With the continuous development and popularization of the Internet, the amount of information on the Internet is increasing. How to quickly locate the information needed in the vast sea of information has become a problem that people have to consider. Therefore, information retrieval technology emerged as the times require and became one of the most popular technologies. Search engine search engine search and discover information on Web based on certain strategy, although it appeared for only a short period of more than ten years. But in the Web has a certain position. The research work of this paper mainly includes the following aspects:. 1. A brief description of search engine and its development history is given, and then several important retrieval models in search engine are introduced. At the same time, the evaluation index of information retrieval, such as precision rate, is introduced. Recall rate is also reflected in the text. 2. On the basis of the vector space model invented by Salton, the classical algorithm TF-IDF formula is improved in this paper. The product accumulation summation method and the normalization method of TF-IDF are proposed. And compared with word frequency and inverse document frequency calculation method; in the aspect of probability model, this paper realized the BM25 sorting algorithm based on the weight of documents and query words; in the language model, The Jelinek-Mercer smoothing method and absolute discount smoothing method with the advantages of maximum likelihood model and set model are adopted. After that, the original Dirichlet smoothing method which combines Bayesian analysis method with Delikley parameter distribution is improved. The algorithm is partly deepened. 3. This paper deeply studies the sorting mechanism of Lucene, and integrates the above content-based sorting algorithms into the sorting mechanism of Lucene, which further improves the sorting function of Lucene for query results. The experiment is carried out by using bilingual Chinese and English corpus in TREC conference. Through query test and result evaluation, the author finds that the correlation of the result document returned by Lucene is different when different sorting algorithms are used to sort the result document. The improved Dirichlet smoothing method has the best sorting effect, while the TF-IDF normalization method is better than the vector space model with word frequency TFF, inverse document frequency IDF and so on.
【學位授予單位】:大連交通大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 朱建莉,劉宏強;常用排序算法綜述[J];勝利油田師范?茖W校學報;2002年04期
2 周海巖,郝保樹;一種新的桶分配鏈接排序算法[J];太原師范專科學校學報;2002年01期
3 趙忠孝;基于概率分布的排序算法(1)[J];計算機工程與應用;2002年11期
4 趙忠孝;基于概率分布的排序算法(2)[J];計算機工程與應用;2002年12期
5 何文明;針對任意分布數(shù)據(jù)的高效分檔混合排序算法[J];計算機工程與應用;2003年22期
6 尤志強,張大方;數(shù)據(jù)等概率分檔排序算法有效性的定量研究[J];計算機學報;2003年01期
7 穆炯,蒲海波;對按位分段排序算法的研究[J];四川農業(yè)大學學報;2004年01期
8 李井潤;一種基于統(tǒng)計的分段排序算法[J];微計算機應用;2004年03期
9 曹清錄,王念平,張斌;合并排序算法的平均情形復雜性分析及其應用[J];計算機工程;2004年21期
10 余炳惠,王克剛;排序算法的選擇及一些改進[J];安康師專學報;2004年04期
相關會議論文 前10條
1 周曉方;金志權;;尋找最佳分布式排序算法[A];第九屆全國數(shù)據(jù)庫學術會議論文集(上)[C];1990年
2 張艷秋;李建中;;一種基于蛇型磁帶的排序算法[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
3 劉春陽;葉君峰;母海龍;陸秋霞;陳滄;高鶯;;一種商品標題主題詞的重要性排序算法[A];第五屆全國信息檢索學術會議論文集[C];2009年
4 王少帥;湯慶新;姚路;;并行獨立集排序算法的改進與實現(xiàn)[A];第十六屆全國青年通信學術會議論文集(上)[C];2011年
5 于芳;王大玲;于戈;陳冬玲;鮑玉斌;;面向用戶的排序算法研究[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年
6 閆潑;馬軍;陳竹敏;;面向主題的網頁排序算法研究[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
7 張健沛;李連江;楊靜;;個性化搜索引擎排序算法的研究與改進[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
8 吳志彬;陳義華;;ANP中超矩陣排序算法研究[A];2006中國控制與決策學術年會論文集[C];2006年
9 陳叢叢;石冰;陳健;;面向主題的查詢相關網頁排序算法[A];第三屆中國智能計算大會論文集[C];2009年
10 齊曼;張珩;;實時視覺仿真中幀連貫性應用[A];'2000系統(tǒng)仿真技術及其應用學術交流會論文集[C];2000年
相關重要報紙文章 前1條
1 廣東 黃陀;基本算法簡介(三)[N];電腦報;2001年
相關博士學位論文 前3條
1 趙立軍;基于歸并的高效排序算法的研究[D];中國科學院研究生院(計算技術研究所);1998年
2 崔筠;無向基因組的移位排序算法[D];山東大學;2006年
3 郝凡昌;有向基因組復合操作重組排序算法研究[D];山東大學;2011年
相關碩士學位論文 前10條
1 王靖;數(shù)據(jù)庫管理系統(tǒng)中高能效排序算法[D];浙江工業(yè)大學;2012年
2 尹曉;基因組移位排序算法的改進和評測[D];山東大學;2006年
3 黃興;比特位拆分索引排序算法研究[D];清華大學;2007年
4 Mushtaq AbdulMutalib Hasson;一種論文時間與引用兼顧的科研論文排序算法[D];華中科技大學;2012年
5 劉聲田;基于第一降序小隊翻轉排序算法的設計與實現(xiàn)[D];山東大學;2006年
6 曹臻;基于粗糙集的粒度排序算法[D];上海海事大學;2007年
7 侯紅梅;圖像搜索重排序算法研究[D];山東大學;2014年
8 徐艷霞;面向數(shù)學搜索的排序算法研究[D];蘭州大學;2012年
9 張建英;稀疏正則化最小二乘排序算法[D];湖北大學;2011年
10 廉潔;改進的內容分析排序算法在搜索引擎中的研究與應用[D];大連交通大學;2013年
,本文編號:1580535
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1580535.html