垂直搜索引擎中關(guān)鍵技術(shù)的研究
本文關(guān)鍵詞:垂直搜索引擎中關(guān)鍵技術(shù)的研究
更多相關(guān)文章: 垂直搜索引擎 Heritrix爬蟲 中文分詞 Lucene索引
【摘要】:搜索引擎的出現(xiàn)滿足了人們的檢索需求,眾所周知的百度、Google等搜索引擎已經(jīng)深深地滲入到人們的日常生活中了。然而Internet數(shù)據(jù)量已經(jīng)超出了搜索引擎所能覆蓋的范圍,全球互聯(lián)網(wǎng)資源已達(dá)數(shù)以億計(jì),人們很難從通用搜索引擎獲取自己所需的特定主題領(lǐng)域的信息。垂直搜索引擎的出現(xiàn),解決了這一難題,實(shí)現(xiàn)了特定用戶對(duì)特定主題信息的準(zhǔn)確檢索。本文簡(jiǎn)要介紹了課題研究背景、搜索引擎的基本工作原理以及垂直搜索引擎在國(guó)內(nèi)外的發(fā)展現(xiàn)狀,闡述了垂直搜索引擎的相關(guān)理論,給出了垂直搜索引擎的基本概念、與通用搜索引擎的區(qū)別和評(píng)價(jià)垂直搜索引擎性能的準(zhǔn)則。并介紹了垂直搜索引擎的各組成模塊及其功能,對(duì)垂直搜索引擎中所涉及的核心技術(shù)進(jìn)行了深入的研究,主要有爬蟲技術(shù)、網(wǎng)頁結(jié)構(gòu)化提取技術(shù),中文分詞技術(shù)和Lucene索引技術(shù),這些技術(shù)應(yīng)用于垂直搜索引擎中的信息采集模塊、信息提取模塊、索引模塊和用戶接口模塊的實(shí)現(xiàn)。其中,信息采集模塊利用爬蟲技術(shù)從Internet網(wǎng)絡(luò)上爬取數(shù)據(jù);信息提取模塊是對(duì)已下載的網(wǎng)頁進(jìn)行結(jié)構(gòu)化的提取操作;索引模塊將提取到的結(jié)構(gòu)化信息建立索引庫(kù);用戶結(jié)構(gòu)模塊給用戶提供了一個(gè)查詢界面,供用戶提供查詢請(qǐng)求和返回結(jié)果給用戶。本文主要的研究工作及創(chuàng)新點(diǎn)有:通過擴(kuò)展和改進(jìn)功能強(qiáng)大的開源爬蟲框架Heritrix,使其對(duì)體育用品信息能夠?qū)崿F(xiàn)定向抓取,引入APHash算法,改進(jìn)隊(duì)列分配策略,極大地提高了Heritrix爬蟲的效率;用體育用品品牌等專業(yè)詞匯擴(kuò)充了JE分詞工具所用到的主題詞庫(kù),使其成為特色專業(yè)詞庫(kù),在很大程度上提高了查詢的準(zhǔn)確率;在對(duì)垂直搜索引擎的核心技術(shù)和各功能模塊的研究基礎(chǔ)上,成功搭建了一個(gè)面向體育用品信息的垂直搜索系統(tǒng)原型,實(shí)現(xiàn)了對(duì)體育用品進(jìn)行簡(jiǎn)單的查詢操作。
【關(guān)鍵詞】:垂直搜索引擎 Heritrix爬蟲 中文分詞 Lucene索引
【學(xué)位授予單位】:長(zhǎng)春工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-7
- 第一章 緒論7-11
- 1.1 研究背景7
- 1.2 搜索引擎的發(fā)展?fàn)顩r7-8
- 1.3 搜索引擎的基本工作原理8
- 1.4 垂直搜索引擎在國(guó)內(nèi)外發(fā)展現(xiàn)狀8-9
- 1.4.1 垂直搜索引擎的發(fā)展過程8-9
- 1.4.2 垂直搜索引擎的未來發(fā)展方向9
- 1.5 本文章節(jié)安排9-11
- 第二章 垂直搜索引擎的相關(guān)理論11-16
- 2.1 垂直搜索引擎的概念及與通用搜索引擎的區(qū)別11
- 2.2 垂直搜索引擎性能優(yōu)劣的評(píng)價(jià)準(zhǔn)則11-12
- 2.3 垂直搜索引擎的各模塊功能12-14
- 2.4 主題爬蟲簡(jiǎn)介14-15
- 2.4.1 主題爬蟲的基礎(chǔ)理論14
- 2.4.2 主題爬蟲的系統(tǒng)結(jié)構(gòu)14-15
- 2.5 小結(jié)15-16
- 第三章 垂直搜索引擎核心技術(shù)的研究16-33
- 3.1 主題搜索研究16-19
- 3.1.1 基于內(nèi)容評(píng)價(jià)的搜索策略16-17
- 3.1.2 基于鏈接結(jié)構(gòu)的搜索策略17-19
- 3.2 開源網(wǎng)絡(luò)爬蟲Heritrix19-22
- 3.2.1 Heritrix體系結(jié)構(gòu)19-20
- 3.2.2 Heritrix定向抓取的改進(jìn)20-22
- 3.3 網(wǎng)頁分析提取技術(shù)22-24
- 3.3.1 JDK正則表達(dá)式22-23
- 3.3.2 HTMLParser解析工具23-24
- 3.4 中文分詞技術(shù)24-28
- 3.4.1 基于詞典匹配字符串的分詞算法24-25
- 3.4.2 基于詞頻統(tǒng)計(jì)的分詞算法25-26
- 3.4.3 基于理解的分詞算法26-27
- 3.4.4 基于JE的分詞算法改進(jìn)27-28
- 3.5 Lucene全文檢索引擎28-32
- 3.5.1 簡(jiǎn)介28-29
- 3.5.2 Lucene幾個(gè)主要索引文件29
- 3.5.3 Lucene的索引過程29-31
- 3.5.4 Lucene的檢索機(jī)制及查詢流程31-32
- 3.6 小結(jié)32-33
- 第四章 面向體育用品的垂直搜索引擎系統(tǒng)設(shè)計(jì)33-37
- 4.1 系統(tǒng)需求33-34
- 4.2 系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)34-35
- 4.3 系統(tǒng)功能設(shè)計(jì)35
- 4.4 硬件基礎(chǔ)和軟件開發(fā)環(huán)境35-36
- 4.5 小結(jié)36-37
- 第五章 面向體育用品的垂直搜索系統(tǒng)實(shí)現(xiàn)37-45
- 5.1 Heritrix爬蟲抓取實(shí)驗(yàn)37-38
- 5.2 體育用品信息結(jié)構(gòu)化提取實(shí)驗(yàn)38
- 5.3 中文分詞改進(jìn)測(cè)試38-39
- 5.4 數(shù)據(jù)存儲(chǔ)組織及索引庫(kù)39-41
- 5.4.1 數(shù)據(jù)庫(kù)結(jié)構(gòu)39
- 5.4.2 Lucene索引構(gòu)建與檢索的實(shí)現(xiàn)39-40
- 5.4.3 用戶查詢接口40-41
- 5.5 系統(tǒng)測(cè)試與驗(yàn)證41-44
- 5.6 小結(jié)44-45
- 第六章 總結(jié)與展望45-47
- 參考文獻(xiàn)47-50
- 致謝50-51
- 作者簡(jiǎn)介51
- 攻讀碩士學(xué)位期間研究成果51
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王春艷;李玉福;;垂直搜索引擎中信息過濾技術(shù)的研究[J];情報(bào)科學(xué);2014年03期
2 史寶明;賀元香;吳崇正;;主題搜索引擎中爬蟲搜索策略的研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期
3 王恒;王少山;高玉琢;;面向主題的域內(nèi)垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J];寧夏大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
4 朱敏;羅省賢;;基于Heritrix的面向特定主題的聚焦爬蟲研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年02期
5 鄒嵩;趙詩陽;周新志;;垂直搜索引擎中分詞技術(shù)的算法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年02期
6 張敏;杜華;;垂直搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];情報(bào)科學(xué);2011年03期
7 邵秀麗;劉彬;張濤;;基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年02期
8 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報(bào)科學(xué);2010年03期
9 李永春;丁華福;;Lucene的全文檢索的研究與應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年02期
10 陳蘭;金遠(yuǎn)平;;基于本體的垂直搜索引擎研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年11期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 東興;垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江理工大學(xué);2012年
2 劉育蓮;手機(jī)產(chǎn)品垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年
3 陳叢叢;主題爬蟲搜索策略研究[D];山東大學(xué);2009年
4 李副銘;垂直搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2009年
,本文編號(hào):1133022
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1133022.html