改進(jìn)的內(nèi)容分析排序算法在搜索引擎中的研究與應(yīng)用
本文選題:搜索引擎 切入點(diǎn):排序算法 出處:《大連交通大學(xué)》2013年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:隨著因特網(wǎng)的不斷發(fā)展和日益普及,網(wǎng)上的信息量呈爆炸趨勢(shì)增長(zhǎng),如何在浩瀚如海的信息中迅速地定位到所需的信息,已成為人們不得不考慮的問(wèn)題,于是信息檢索技術(shù)應(yīng)運(yùn)而生并成為了當(dāng)今最熱門(mén)的技術(shù)之一。搜索引擎正是基于一定的策略在Web上搜索和發(fā)現(xiàn)信息,它的出現(xiàn)雖然只有短暫的十幾年時(shí)間,但在Web上已經(jīng)有了確定不移的地位。 本文的研究工作主要有以下幾方面: 1.就搜索引擎及其發(fā)展歷史作了簡(jiǎn)要的敘述,之后則就搜索引擎中重要的幾類(lèi)檢索模型進(jìn)行了相應(yīng)的介紹,同時(shí)信息檢索的評(píng)價(jià)指標(biāo),如:查準(zhǔn)率、查全率等也在文中有所體現(xiàn)。 2.在Salton發(fā)明的向量空間模型的基礎(chǔ)上,本文對(duì)其經(jīng)典算法TF-IDF公式進(jìn)行了改進(jìn),提出了詞頻(TF)和逆文檔頻率(IDF)的乘積累加求和法和TF-IDF的歸一化法,并與詞頻和逆文檔頻率的計(jì)算方法進(jìn)行了比較;在基于概率模型方面,本文實(shí)現(xiàn)了文檔和查詢(xún)?cè)~權(quán)重的基礎(chǔ)上的BM25排序算法;在語(yǔ)言模型方面,采用集合了最大似然模型和集合模型優(yōu)勢(shì)的Jelinek-Mercer平滑方法和絕對(duì)折扣平滑方法,之后本文對(duì)貝葉斯分析方法和狄利克雷參數(shù)分布結(jié)合的原狄利克雷(Dirichlet)平滑方法進(jìn)行了改進(jìn),并對(duì)其算法作了部分深化。 3.本文深入地研究了Lucene的排序機(jī)制,并且將上述幾種基于內(nèi)容的排序算法融入到了Lucene的排序機(jī)制中,進(jìn)一步完善了Lucene對(duì)于查詢(xún)結(jié)果的排序功能。最后,采用TREC會(huì)議中中英文雙語(yǔ)語(yǔ)料進(jìn)行了實(shí)驗(yàn),通過(guò)查詢(xún)測(cè)試和結(jié)果評(píng)價(jià),作者發(fā)現(xiàn)運(yùn)用不同排序算法對(duì)結(jié)果文檔進(jìn)行排序時(shí),Lucene返回的結(jié)果文檔的相關(guān)性是不一樣的,而改進(jìn)型的狄利克雷(Dirichlet)平滑方法具有最好的排序效果;而相對(duì)于采用詞頻TF、逆文檔頻率IDF等的向量空間模型排序效果而言,TF-IDF歸一化法的排序效果較好。
[Abstract]:With the continuous development and popularization of the Internet, the amount of information on the Internet is increasing. How to quickly locate the information needed in the vast sea of information has become a problem that people have to consider. Therefore, information retrieval technology emerged as the times require and became one of the most popular technologies. Search engine search engine search and discover information on Web based on certain strategy, although it appeared for only a short period of more than ten years. But in the Web has a certain position. The research work of this paper mainly includes the following aspects:. 1. A brief description of search engine and its development history is given, and then several important retrieval models in search engine are introduced. At the same time, the evaluation index of information retrieval, such as precision rate, is introduced. Recall rate is also reflected in the text. 2. On the basis of the vector space model invented by Salton, the classical algorithm TF-IDF formula is improved in this paper. The product accumulation summation method and the normalization method of TF-IDF are proposed. And compared with word frequency and inverse document frequency calculation method; in the aspect of probability model, this paper realized the BM25 sorting algorithm based on the weight of documents and query words; in the language model, The Jelinek-Mercer smoothing method and absolute discount smoothing method with the advantages of maximum likelihood model and set model are adopted. After that, the original Dirichlet smoothing method which combines Bayesian analysis method with Delikley parameter distribution is improved. The algorithm is partly deepened. 3. This paper deeply studies the sorting mechanism of Lucene, and integrates the above content-based sorting algorithms into the sorting mechanism of Lucene, which further improves the sorting function of Lucene for query results. The experiment is carried out by using bilingual Chinese and English corpus in TREC conference. Through query test and result evaluation, the author finds that the correlation of the result document returned by Lucene is different when different sorting algorithms are used to sort the result document. The improved Dirichlet smoothing method has the best sorting effect, while the TF-IDF normalization method is better than the vector space model with word frequency TFF, inverse document frequency IDF and so on.
【學(xué)位授予單位】:大連交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類(lèi)號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 朱建莉,劉宏強(qiáng);常用排序算法綜述[J];勝利油田師范專(zhuān)科學(xué)校學(xué)報(bào);2002年04期
2 周海巖,郝保樹(shù);一種新的桶分配鏈接排序算法[J];太原師范專(zhuān)科學(xué)校學(xué)報(bào);2002年01期
3 趙忠孝;基于概率分布的排序算法(1)[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期
4 趙忠孝;基于概率分布的排序算法(2)[J];計(jì)算機(jī)工程與應(yīng)用;2002年12期
5 何文明;針對(duì)任意分布數(shù)據(jù)的高效分檔混合排序算法[J];計(jì)算機(jī)工程與應(yīng)用;2003年22期
6 尤志強(qiáng),張大方;數(shù)據(jù)等概率分檔排序算法有效性的定量研究[J];計(jì)算機(jī)學(xué)報(bào);2003年01期
7 穆炯,蒲海波;對(duì)按位分段排序算法的研究[J];四川農(nóng)業(yè)大學(xué)學(xué)報(bào);2004年01期
8 李井潤(rùn);一種基于統(tǒng)計(jì)的分段排序算法[J];微計(jì)算機(jī)應(yīng)用;2004年03期
9 曹清錄,王念平,張斌;合并排序算法的平均情形復(fù)雜性分析及其應(yīng)用[J];計(jì)算機(jī)工程;2004年21期
10 余炳惠,王克剛;排序算法的選擇及一些改進(jìn)[J];安康師專(zhuān)學(xué)報(bào);2004年04期
相關(guān)會(huì)議論文 前10條
1 周曉方;金志權(quán);;尋找最佳分布式排序算法[A];第九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(上)[C];1990年
2 張艷秋;李建中;;一種基于蛇型磁帶的排序算法[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
3 劉春陽(yáng);葉君峰;母海龍;陸秋霞;陳滄;高鶯;;一種商品標(biāo)題主題詞的重要性排序算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 王少帥;湯慶新;姚路;;并行獨(dú)立集排序算法的改進(jìn)與實(shí)現(xiàn)[A];第十六屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2011年
5 于芳;王大玲;于戈;陳冬玲;鮑玉斌;;面向用戶(hù)的排序算法研究[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
6 閆潑;馬軍;陳竹敏;;面向主題的網(wǎng)頁(yè)排序算法研究[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
7 張健沛;李連江;楊靜;;個(gè)性化搜索引擎排序算法的研究與改進(jìn)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
8 吳志彬;陳義華;;ANP中超矩陣排序算法研究[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
9 陳叢叢;石冰;陳健;;面向主題的查詢(xún)相關(guān)網(wǎng)頁(yè)排序算法[A];第三屆中國(guó)智能計(jì)算大會(huì)論文集[C];2009年
10 齊曼;張珩;;實(shí)時(shí)視覺(jué)仿真中幀連貫性應(yīng)用[A];'2000系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2000年
相關(guān)重要報(bào)紙文章 前1條
1 廣東 黃陀;基本算法簡(jiǎn)介(三)[N];電腦報(bào);2001年
相關(guān)博士學(xué)位論文 前3條
1 趙立軍;基于歸并的高效排序算法的研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);1998年
2 崔筠;無(wú)向基因組的移位排序算法[D];山東大學(xué);2006年
3 郝凡昌;有向基因組復(fù)合操作重組排序算法研究[D];山東大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 王靖;數(shù)據(jù)庫(kù)管理系統(tǒng)中高能效排序算法[D];浙江工業(yè)大學(xué);2012年
2 尹曉;基因組移位排序算法的改進(jìn)和評(píng)測(cè)[D];山東大學(xué);2006年
3 黃興;比特位拆分索引排序算法研究[D];清華大學(xué);2007年
4 Mushtaq AbdulMutalib Hasson;一種論文時(shí)間與引用兼顧的科研論文排序算法[D];華中科技大學(xué);2012年
5 劉聲田;基于第一降序小隊(duì)翻轉(zhuǎn)排序算法的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2006年
6 曹臻;基于粗糙集的粒度排序算法[D];上海海事大學(xué);2007年
7 侯紅梅;圖像搜索重排序算法研究[D];山東大學(xué);2014年
8 徐艷霞;面向數(shù)學(xué)搜索的排序算法研究[D];蘭州大學(xué);2012年
9 張建英;稀疏正則化最小二乘排序算法[D];湖北大學(xué);2011年
10 廉潔;改進(jìn)的內(nèi)容分析排序算法在搜索引擎中的研究與應(yīng)用[D];大連交通大學(xué);2013年
,本文編號(hào):1580535
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1580535.html