天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

企業(yè)搜索引擎排序技術(shù)的研究

發(fā)布時(shí)間:2017-05-11 03:02

  本文關(guān)鍵詞:企業(yè)搜索引擎排序技術(shù)的研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:當(dāng)前,隨著社會(huì)經(jīng)濟(jì)發(fā)展和企業(yè)信息化建設(shè)不斷推進(jìn),企業(yè)信息資源愈加豐富,同時(shí)信息資源呈現(xiàn)分布散亂、形態(tài)多樣化等特點(diǎn),使查找信息變的更加困難;另外,由于企業(yè)文檔信息涉及商業(yè)機(jī)密,利用商用搜索引擎檢索會(huì)讓公司承擔(dān)經(jīng)濟(jì)風(fēng)險(xiǎn)。因此,在企業(yè)內(nèi)部建立信息資源檢索系統(tǒng),并對(duì)檢索結(jié)果合理有效排序顯得越來越重要。為此,本文通過對(duì)搜索引擎排序算法展開深入研究,在基于傳統(tǒng)搜索排序算法的基礎(chǔ)上進(jìn)行創(chuàng)新,一方面通過對(duì)初始迭代向量預(yù)估計(jì)和引入網(wǎng)頁排名波動(dòng)率作為算法停止迭代計(jì)算準(zhǔn)則對(duì)傳統(tǒng)PageRank算法進(jìn)行改進(jìn),另一方面從用戶點(diǎn)擊行為角度將查詢?cè)~歷史點(diǎn)擊量對(duì)文檔貢獻(xiàn)率引入到排序算法中,有效地提升了檢索準(zhǔn)確率和提高了用戶滿意度。首先,本文介紹了搜索引擎的工作流程,深入研究搜索引擎的技術(shù)原理;介紹了常用的搜索引擎排序算法,重點(diǎn)研究了經(jīng)典排序算法PageRank算法;對(duì)搜索引擎用戶行為進(jìn)行研究,重點(diǎn)分析搜索引擎用戶點(diǎn)擊行為的可靠性,根據(jù)多個(gè)特征判斷搜索引擎用戶點(diǎn)擊與查詢的相關(guān)性;深入分析了開源Lucene的評(píng)分機(jī)制,其核心思想是根據(jù)查詢?cè)~與網(wǎng)頁內(nèi)容相關(guān)度的大小進(jìn)行排序。然后,提出改進(jìn)的PageRank算法和對(duì)基于用戶點(diǎn)擊行為模型的排序算法的改進(jìn)。首先對(duì)PageRank算法加以研究改進(jìn),從節(jié)點(diǎn)入度角度對(duì)其初始迭代向量預(yù)估計(jì)和引入網(wǎng)頁排名波動(dòng)率作為PageRank算法停止迭代計(jì)算準(zhǔn)則,減少了迭代次數(shù),加速了迭代過程;其次,通過對(duì)用戶點(diǎn)擊行為的挖掘,分析用戶點(diǎn)擊行為特征的可靠性,提出了查詢?cè)~歷史點(diǎn)擊量對(duì)文檔貢獻(xiàn)率,從用戶行為角度影響排序結(jié)果。最后,進(jìn)行實(shí)驗(yàn)及結(jié)果分析。通過數(shù)值實(shí)驗(yàn)對(duì)比,驗(yàn)證改進(jìn)的PageRank算法的迭代次數(shù)比傳統(tǒng)的PageRank算法的迭代次數(shù)要少,減少了計(jì)算時(shí)間;通過比較搜索結(jié)果查準(zhǔn)率,驗(yàn)證融合了改進(jìn)的PageRank算法和用戶點(diǎn)擊行為模型的排序算法改善了排序結(jié)果,提高了搜索準(zhǔn)確率。
【關(guān)鍵詞】:企業(yè)搜索引擎 用戶行為 PageRank 重排序 Lucene
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第1章 緒論10-17
  • 1.1 研究背景與選題意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-14
  • 1.2.1 搜索引擎的發(fā)展歷史11-13
  • 1.2.2 企業(yè)搜索與互聯(lián)網(wǎng)搜索的區(qū)別13
  • 1.2.3 企業(yè)搜索研究現(xiàn)狀13-14
  • 1.3 論文的主要研究內(nèi)容14-15
  • 1.4 論文的組織結(jié)構(gòu)15-17
  • 第2章 搜索引擎排序算法及用戶行為分析的相關(guān)技術(shù)研究17-41
  • 2.1 互聯(lián)網(wǎng)搜索引擎系統(tǒng)基本架構(gòu)17-22
  • 2.2 通用搜索引擎排序算法22-25
  • 2.2.1 詞頻和位置加權(quán)排序算法22-23
  • 2.2.2 HITS算法23-24
  • 2.2.3 Direct Hit算法24-25
  • 2.2.4 Hilltop算法25
  • 2.3 PageRank算法25-30
  • 2.3.1 PageRank算法的基本原理26-27
  • 2.3.2 PageRank算法的計(jì)算實(shí)例27-30
  • 2.3.3 PageRank算法與HITS算法比較30
  • 2.4 互聯(lián)網(wǎng)用戶行為分析30-33
  • 2.4.1 用戶行為分析的相關(guān)概念31
  • 2.4.2 用戶群體宏觀統(tǒng)計(jì)分析31-32
  • 2.4.3 用戶查詢需求分析32
  • 2.4.4 用戶群體點(diǎn)擊行為分析32
  • 2.4.5 互聯(lián)網(wǎng)用戶瀏覽行為分析32-33
  • 2.5 用戶點(diǎn)擊行為特征及相關(guān)性分析33-38
  • 2.5.1 用戶點(diǎn)擊行為特征33-34
  • 2.5.2 用戶點(diǎn)擊行為特征分析34
  • 2.5.3 用戶點(diǎn)擊與查詢相關(guān)性的形式化分析34-36
  • 2.5.4 貝葉斯點(diǎn)擊模型36-38
  • 2.6 Lucene檢索結(jié)果排序算法研究38-40
  • 2.7 本章小結(jié)40-41
  • 第3章 基于初始向量預(yù)估計(jì)和引入排名波動(dòng)率對(duì)PageRank算法的改進(jìn)41-50
  • 3.1 PageRank算法的流程41-42
  • 3.2 對(duì)PageRank算法的改進(jìn)42-48
  • 3.2.1 從網(wǎng)頁鏈入總數(shù)入手對(duì)PageRank初始向量預(yù)估計(jì)42-45
  • 3.2.2 以排名波動(dòng)率作為PageRank停止迭代準(zhǔn)則45-48
  • 3.3 改進(jìn)的PageRank算法的基本流程48
  • 3.4 本章小結(jié)48-50
  • 第4章 基于用戶點(diǎn)擊行為的排序算法的設(shè)計(jì)50-56
  • 4.1 基于用戶行為的研究50-52
  • 4.1.1 搜索日志的構(gòu)建50-51
  • 4.1.2 搜索日志的組成內(nèi)容51-52
  • 4.2 基于查詢?cè)~歷史點(diǎn)擊率對(duì)網(wǎng)頁貢獻(xiàn)率的排序算法的設(shè)計(jì)52-54
  • 4.2.1 分解查詢?cè)~52
  • 4.2.2 計(jì)算查詢?cè)~對(duì)網(wǎng)頁貢獻(xiàn)率52-53
  • 4.2.3 更新歷史查詢?cè)~集合53
  • 4.2.4 基于查詢?cè)~歷史點(diǎn)擊率對(duì)網(wǎng)頁貢獻(xiàn)率的排序算法主要工作流程53-54
  • 4.3 基于查詢?cè)~歷史點(diǎn)擊率的排序算法計(jì)算公式54-55
  • 4.4 本章小結(jié)55-56
  • 第5章 企業(yè)搜索引擎系統(tǒng)的實(shí)現(xiàn)與實(shí)驗(yàn)結(jié)果分析56-72
  • 5.1 搜索結(jié)果評(píng)價(jià)方法56-57
  • 5.2 實(shí)驗(yàn)環(huán)境介紹57
  • 5.3 基于Lucene企業(yè)搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)57-61
  • 5.3.1 中文分詞器的實(shí)現(xiàn)58
  • 5.3.2 索引管理器實(shí)現(xiàn)58-60
  • 5.3.3 檢索結(jié)果排序60-61
  • 5.4 實(shí)驗(yàn)數(shù)據(jù)收集61-63
  • 5.5 改進(jìn)的PageRank算法實(shí)驗(yàn)及分析63-68
  • 5.5.1 實(shí)驗(yàn)方法及步驟63-65
  • 5.5.2 實(shí)驗(yàn)結(jié)果分析65-68
  • 5.6 基于改進(jìn)的PageRank和用戶點(diǎn)擊模型的排序算法分析68-71
  • 5.6.1 實(shí)驗(yàn)方法及步驟68-70
  • 5.6.2 實(shí)驗(yàn)結(jié)果分析70-71
  • 5.7 本章小結(jié)71-72
  • 第6章 結(jié)論與展望72-75
  • 6.1 本文工作總結(jié)72-73
  • 6.2 進(jìn)一步的研究方向及展望73-75
  • 參考文獻(xiàn)75-79
  • 致謝79

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 朱松巖;;網(wǎng)頁設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期

2 安琳;;國外網(wǎng)頁信息存檔項(xiàng)目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期

3 蔣桂梅;;網(wǎng)頁設(shè)計(jì)的藝術(shù)性[J];電腦知識(shí)與技術(shù);2010年05期

4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期

5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期

6 王爍;;美國網(wǎng)頁歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺(tái)世界;2012年17期

7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期

8 何立波;周世波;;網(wǎng)頁設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期

9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期

10 項(xiàng)鎮(zhèn);網(wǎng)頁設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 吳建軍;;談網(wǎng)頁設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年

2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會(huì)年會(huì)暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報(bào);2012年

2 壯壯;批量保存網(wǎng)頁信息[N];電腦報(bào);2004年

3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報(bào);2011年

4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報(bào);2004年

5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報(bào);2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報(bào);2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報(bào);2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年

5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

6 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年

2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年

3 張W

本文編號(hào):356063


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/356063.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶21216***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com