企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn)
發(fā)布時間:2017-09-23 07:33
本文關(guān)鍵詞:企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn)
更多相關(guān)文章: 企業(yè)內(nèi)網(wǎng) 搜索引擎 鏈接過濾 評分排序 復(fù)雜網(wǎng)絡(luò)
【摘要】:隨著企業(yè)自身業(yè)務(wù)和信息化建設(shè)的不斷發(fā)展與擴張,企業(yè)內(nèi)部網(wǎng)絡(luò)的規(guī)模也急劇膨脹。同一時間,企業(yè)內(nèi)部網(wǎng)絡(luò)上所保存的數(shù)據(jù)資源也呈爆炸性增長。為了能夠根據(jù)企業(yè)內(nèi)網(wǎng)上的重要數(shù)據(jù)制定正確的發(fā)展計劃,如何在企業(yè)內(nèi)網(wǎng)這個龐大的資源信息庫中獲得對企業(yè)有價值的數(shù)據(jù)資源,便成為了企業(yè)現(xiàn)在需要迫切解決的問題。目前,通用搜索引擎雖然能夠提供大量的搜索結(jié)果以此滿足大部分普通用戶的需求,但這些結(jié)果不僅很難滿足企業(yè)的特殊需要,而且不具有足夠的導(dǎo)向作用。更重要的是搜索結(jié)果經(jīng)常出現(xiàn)網(wǎng)頁覆蓋率較低、信息更新不及時等問題。而企業(yè)內(nèi)網(wǎng)搜索引擎能根據(jù)企業(yè)的需要對關(guān)鍵算法進行定制,它只抓取與企業(yè)相關(guān)的數(shù)據(jù)資源并對檢索出來的結(jié)果進行有效的排序,使其搜索內(nèi)容針對性更強,更具有企業(yè)導(dǎo)向性,所以企業(yè)內(nèi)網(wǎng)搜索引擎便成為一個解決該問題的有效方案。本文著重研究搜索引擎所使用的關(guān)鍵技術(shù)與算法,并根據(jù)企業(yè)需求的特殊性對其進行改進創(chuàng)新,完成企業(yè)內(nèi)網(wǎng)搜索引擎所需的功能。同時,對復(fù)雜網(wǎng)絡(luò)學(xué)科中的搜索算法進行創(chuàng)新,力求將其應(yīng)用于大型服務(wù)器的本地文件檢索系統(tǒng)中,增強企業(yè)內(nèi)網(wǎng)搜索引擎的功能。本文主要提出了三個新算法,分別是基于域名的鏈接過濾算法、基于向量空間模型的多因素評分算法和路徑壓縮搜索算法:基于域名的鏈接過濾算法通過對鏈接進行分析,能夠有效的阻止網(wǎng)絡(luò)爬蟲下載與企業(yè)無關(guān)的數(shù)據(jù),提高網(wǎng)絡(luò)爬蟲的性能,同時增加搜索結(jié)果的準確率和搜索效率;基于向量空間模型的多因素評分算法是對現(xiàn)有的相關(guān)性評分算法進行改進,該算法綜合考慮影響相關(guān)性評分的各種因素,讓對企業(yè)更有價值的數(shù)據(jù)排名盡可能靠前;路徑壓縮搜索算法是一種新的復(fù)雜網(wǎng)絡(luò)搜索算法,該算法只需要較少的搜索步數(shù)與查詢信息量便可以遍歷整個網(wǎng)絡(luò),所以具有較高的搜索效率,同時力求將其應(yīng)用在大型服務(wù)器本地文件搜索系統(tǒng)中,以提高本地文件搜索的效率。最后對本文所提出的三種算法的研究與實現(xiàn)進行總結(jié),并提出其中的不足和需要改進的地方。
【關(guān)鍵詞】:企業(yè)內(nèi)網(wǎng) 搜索引擎 鏈接過濾 評分排序 復(fù)雜網(wǎng)絡(luò)
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-17
- 1.1 研究背景與意義11-12
- 1.2 國內(nèi)外現(xiàn)狀12-15
- 1.2.1 國內(nèi)外研究動態(tài)12-14
- 1.2.2 存在的問題14-15
- 1.3 論文研究內(nèi)容15
- 1.4 論文組織結(jié)構(gòu)15-17
- 第二章 關(guān)鍵技術(shù)與算法17-34
- 2.1 搜索引擎關(guān)鍵技術(shù)與算法17-29
- 2.1.1 搜索引擎整體架構(gòu)17-18
- 2.1.2 搜索引擎工作流程18-19
- 2.1.3 網(wǎng)頁評分算法19-22
- 2.1.4 中文分詞算法22-23
- 2.1.5 網(wǎng)頁信息抽取技術(shù)23-25
- 2.1.6 信息索引技術(shù)25-27
- 2.1.7 相關(guān)性評分算法27-29
- 2.2 復(fù)雜網(wǎng)絡(luò)中的網(wǎng)絡(luò)模型與搜索算法29-33
- 2.2.1 經(jīng)典的網(wǎng)絡(luò)模型30-32
- 2.2.2 經(jīng)典搜索算法32-33
- 2.3 本章小結(jié)33-34
- 第三章 基于域名的鏈接過濾算法34-51
- 3.1 基于域名的鏈接過濾算法概述34
- 3.2 基于域名的鏈接過濾算法核心思想34-36
- 3.2.1 域名過濾階段34-35
- 3.2.2 主題過濾階段35-36
- 3.3 基于域名的鏈接過濾算法描述36-43
- 3.3.1 算法架構(gòu)描述37-39
- 3.3.2 算法流程描述39-42
- 3.3.3 關(guān)鍵數(shù)據(jù)結(jié)構(gòu)描述42-43
- 3.4 仿真實驗43-49
- 3.4.1 實驗軟硬件平臺44
- 3.4.2 算法衡量參數(shù)44
- 3.4.3 實驗與討論44-49
- 3.4.3.1 仿真實驗一45-47
- 3.4.3.2 仿真實驗二47-49
- 3.5 本章小結(jié)49-51
- 第四章 基于向量空間模型的多因素評分算法51-60
- 4.1 基于向量空間模型的多因素評分算法概述51
- 4.2 基于向量空間模型的多因素評分算法核心思想51-53
- 4.3 基于向量空間模型的多因素評分算法描述53-56
- 4.3.1 算法核心公式描述54-55
- 4.3.2 算法流程描述55-56
- 4.4 仿真實驗56-58
- 4.4.1 實驗數(shù)據(jù)集56-57
- 4.4.2 算法衡量參數(shù)57
- 4.4.2.1 MAP57
- 4.4.2.2 P@n57
- 4.4.3 實驗與討論57-58
- 4.5 本章小結(jié)58-60
- 第五章 路徑壓縮搜索算法60-77
- 5.1 路徑壓縮搜索算法概述60-61
- 5.2 路徑壓縮搜索算法核心思想61
- 5.3 路徑壓縮搜索算法描述61-68
- 5.3.1 算法流程描述62-66
- 5.3.2 算法示例66-68
- 5.4 仿真實驗68-74
- 5.4.1 實驗軟硬件平臺68
- 5.4.2 算法衡量參數(shù)68-69
- 5.4.2.1 搜索步數(shù)68-69
- 5.4.2.2 查詢信息量69
- 5.4.3 實驗所用網(wǎng)絡(luò)模型69-70
- 5.4.3.1 NW小世界網(wǎng)絡(luò)模型69-70
- 5.4.3.2 BA無標度網(wǎng)絡(luò)模型70
- 5.4.4 實驗與討論70-74
- 5.4.4.1 不同網(wǎng)絡(luò)模型中的比較70-72
- 5.4.4.2 不同大小網(wǎng)絡(luò)中的比較72-74
- 5.5 路徑壓縮搜索算法實際應(yīng)用74-76
- 5.6 本章小結(jié)76-77
- 第六章 全文總結(jié)與展望77-79
- 6.1 全文總結(jié)77-78
- 6.2 后續(xù)工作展望78-79
- 致謝79-80
- 參考文獻80-83
- 攻讀碩士學(xué)位期間取得的成果83-84
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機工程與應(yīng)用;2002年11期
,本文編號:904003
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/904003.html
最近更新
教材專著